采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
目前看日志,没有进入实际爬取逻辑 parse()内,就提示403,是不是框架会先请求一下要爬取的网站,然后就被墙了?
有的网站相同代理请求第二次就进反爬了,如果是这样的话,怎么屏蔽预请求??
[scrapy.core.engine] DEBUG: Crawled (200)
就是这行话,不知道怎么屏蔽掉
你爬取的是什么网站?
国外电商
scrapy.core.engine] DEBUG: Crawled (403),这个是哪里出的??
就是控制台显示,第一次200,第二次就403了~~~
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
5.3k 30
2.9k 18
1.5k 18
1.8k 15
3.4k 15
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号