请稍等 ...

拉勾网站爬取

拉钩网站爬取思路

用requests.session() 获取到所有城市的名称然后请求具体的每个城市
发现招聘信息在"https://www.lagou.com/jobs/positionAjax.json?px=default&city=%s&needAddtionalResult=false" % city 但是请求这个是带上了cookie的而cookie的来源是在请求每个具体的城市url
所以先请求 https://www.lagou.com/jobs/list_python/p-city_%s?px=default
在请求 “https://www.lagou.com/jobs/positionAjax.json?px=default&city=%s&needAddtionalResult=false” % city
在过程中遇到referer反扒加上referer之后 ip限制改用ip代理
存入数据库
发现爬虫进行到中途会莫名停止应该是城市太多的原因(360个)
而且还没有我写死一个城市或者二个城市爬取的数据量大(有些偏僻城市)。发现偏僻城市会用一些上海广州等大城市页面数据来进行替换然后就测试
city_list = [“宁波”, “常州”, “沈阳”, “石家庄”, “昆明”, “南昌”,
“南宁”, “哈尔滨”, “海口”, “中山”, “惠州”, “贵阳”, “长春”, “太原”, “嘉兴”, “泰安”, “昆山”, “烟台”, “兰州”, “泉州”] 少量城市是能爬取下来的

想问下老师出现这种不报错但是中途出现停止情况的原因是啥是因为服务端限制了请求的次数吗？还有就是只要我一改用多进程程序马上停止不会报错也不知道为什么。

943

收起

提交取消

1回答

bobby 2020-08-22 10:47:47

https://stackoverflow.com/questions/28169756/how-to-get-the-number-of-requests-in-queue-in-scrapy 你可以看看这个你可以在每次enqueue_request的地方写一段代码每次入队列的时候看看现在还有多少数据待抓取就能看出是否是确实这个策略没有数据待抓取了

0 回复有任何疑惑可以回复我~