请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

crawlspider 分布式是先爬网页再解析网页吗


https://img1.sycdn.imooc.com//szimg/5da40549087cc62810000563.jpg
老师  我用分布式crawlSpider爬取一个电影网站  爬了一个多小时都还在爬url   它是把url全爬下来放在redis后才开始取出来解析吗?

正在回答 回答被采纳积分+3

2回答

提问者 10codes15bugs 2019-10-14 23:12:59
改了一下rule能爬了 但是最后log显示爬了9000多页 实际入库的才600多个数据 怎么回事呢
0 回复 有任何疑惑可以回复我~
  • bobby #1
    你看看是不是到后面以后所有的数据返回的状态码不是200了呢
    回复 有任何疑惑可以回复我~ 2019-10-17 17:50:05
  • 提问者 10codes15bugs 回复 bobby #2
    状态码都是200  但是很多不解析  我看redis的request指纹都有5000多条   为什么有些request不解析呢?
    回复 有任何疑惑可以回复我~ 2019-10-19 01:21:37
  • 提问者 10codes15bugs 回复 bobby #3
    顺便问一下老师  分布式爬虫的话 重写start_request函数就 会报错  因为没有start-url了 怎么办  
    for url in start_url:
        yield要带参数怎么做呢
    回复 有任何疑惑可以回复我~ 2019-10-19 01:26:36
提问者 10codes15bugs 2019-10-14 20:22:46

nl爬完全部url也不提取!!

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信