我的爬虫只能爬少量信息-慕课网

rules = ( Rule(LinkExtractor(allow=("zhaopin/Python/.*",)),callback='parse_job'), ) def parse_job(self, response): myItemLoader = ItemLoader(item=LagouItem(), response=response) myItemLoader.add_css("title", ".p_top h3::text") myItemLoader.add_css("address", ".p_top span.add em::text") myItemLoader.add_css("salary", ".p_bot span::text") myItemLoader.add_css("company", ".company_name a::text") myItem = myItemLoader.load_item() # 第一次得到的item是一个个列表，titlelist,addresslist,salarylist和companylist list_title = myItem["title"] list_address = myItem["address"] list_salary = myItem["salary"] list_company = myItem["company"] # 再创建第二个item2，每次循环都yield出去，让pipeline执行保存，这样就可以做到一一对应地保存职位信息 num = len(list_title) myItem2 = LagouItem() for i in range(num): myItem2["title"] = list_title[i] myItem2["address"] = list_address[i] myItem2["salary"] = list_salary[i] myItem2["company"] = list_company[i] yield myItem2

1回答

bobby 2019-05-28 17:10:21

如果数据不够你就需要看看pycharm的console中是不是有些url返回的状态码不是200？而是302？你截图我看看呢

0 回复有任何疑惑可以回复我~

收起回答

提问者 Xiaoyu_Wu #1

老师，您好! 

感谢您的回复。
爬取知乎时，
当我用selenium模拟登录后，跳到parse(self, response)方法时，用css选择器来爬取页面中问题的url，                   
“all_urls = response.css('div[itemprop="zhihu:question"] meta[itemprop="url"]::attr(content)').extract()”                  
此时，我总是只能得到6个问题的url，但您知道，知乎首页的问题的url是很多的，不止6个。

在我还没把得到的url yield出去时，就只有6个，所以，不是url返回状态的问题。而且，它们的返回状态也都是200.

老师，不知能看明白我所表达的意思不？
不是有些url返回状态是302，都是200.

回复有任何疑惑可以回复我~ 2019-05-28 22:56:43

提问者 Xiaoyu_Wu #2

老师，您好！

为了更好地表达问题，我修改了原问题，插入了爬取知乎的代码的调试截图，麻烦您再看看。

非常感谢！

回复有任何疑惑可以回复我~ 2019-05-28 23:08:35

bobby 回复提问者 Xiaoyu_Wu #3
```
你留下qq 我加你 看看具体的问题
```
回复有任何疑惑可以回复我~ 2019-05-30 12:35:20

点开查看后面1条评论

我的爬虫只能爬少量信息

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空