http://bbs.angeeks.com/forum.php?mod=forumdisplay&fid=263&filter=typeid&typeid=12
这个网站,在“软件分析”类别下的所有帖子的标题。由于帖子较多,所以分了很多页。但我设置的爬虫,只能爬取某一页的标题内容,这样太慢了。我想问一下,要如何修改我的爬虫代码,就可以实现爬虫的自动跳转呢???我用python编写的爬虫代码如下:
2024-06-06 12:03:19
2024-06-06 18:20:19
爬虫跟踪下一页的方法是自己模拟点击下一页连接,然后发出新的请求。请看:
item1 = Item()
yield item1
item2 = Item()
yield item2
req = Request(url='下一页的链接', callback=self.parse)
yield req
注意使用yield时不要用return语句。
有两点疑问:
1、按照大牛您的方法,我是不是要把每一页的链接都填到url里??
2、这一段代码应该插入到上述我写好的代码中的哪个具体位置呢??
谢谢!!!
下一页的链接可以直接用xpath来取。
这是一个类似递归的过程,爬完当前页,只请求下一页,在回调函数中处理并继续请求,直到到达最后一页。
将你的return换成yield,从return数组变成yield Item,然后在最后yield Request。
注意import类定义:
from scrapy.http import Request
啊~~
还是不明白!
要不麻烦大牛留个QQ,我们Q聊!!