源代码中的匹配问题

陶宝店铺:coder人生 Python 单线程爬虫 最后由 上海小胖 于2017年01月21日回复

  • 1 回答
  • 866 浏览

老师您好,我是复制你的代码,没有任何的改动,但是你个info.txt中没有任何的内容。我通过使用print各个内容,最后找到问题所在,就是下面的这段代码的内容有问题。

def geteveryclass(self,source):    everyclass = re.findall('(<li def="".*?</li>)',source,re.S)   # print everyclass    return everyclass

上面的print就是我查的时候,那个没有打印出任何内容,然后我查看网页的源代码,发现和你开始讲的时候的内容不一致了。请问这个怎么解决,谢谢老师。

  • 上海小胖 2017年01月21日 回答 #1楼
  • 这个是正则匹配呀,你可以通过xpath去重新获取一下你需要匹配的内容。

    具体的xpath课程中有说到。

    你调整下正则匹配的规则就好了。

  • 0 评论