3000不同网址抓取数据-慕课网

1回答

bobby 2021-09-27 10:16:09

你的疑惑点在哪里？不想写3000个spider？还是想在一个spider中抓取然后想策略？

0 回复有任何疑惑可以回复我~

提问者 AmoXiang #1

想找一个通用的解决方案 最开始想的是通过百度搜索、但是有旋转验证码。写3000个太老火了 抓a标签呢 有些规则又不一样 而且嵌套的页面层级关系也不一样 异步加载的也有可能拿不到

回复有任何疑惑可以回复我~ 2021-09-27 10:19:24

提问者 AmoXiang #2

老师有不有好的建议呢 目前有几个解决方案 1、百度搜索 2、进入官网 搜索框中搜索想要的内容 但是抓的数据会有局限性

回复有任何疑惑可以回复我~ 2021-09-27 10:20:36

bobby 回复提问者 AmoXiang #3

通过百度搜索你也无法列举所有的关键词，所有想要抓取更多的数据还得自己去这3000个网站抓取，3000个网站你可以分为两步，1. 抓取 2. 解析 可以把抓取和解析分成两步， 使用scrapy抓取后放入到hdfs中，然后这3000个你得考虑每个网站的反爬。 把反爬的过滤出来逐步分析，如果不想做就得使用selenium。 解析的事情这么多网站想要精确解析只有走xpath解析，。如果没有那么精确的字段那么采用机器学习的解析方法只解析title和content即可。即使百度也只能做多这么多网站的关键词解析

回复有任何疑惑可以回复我~ 2021-09-28 09:40:35

点开查看后面2条评论

3000不同网址抓取数据

正在回答回答被采纳积分+3

1回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空