请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

3000不同网址抓取数据

有点类似于抓取新闻数据,但是这3000个网址要满足需要的数据条件才抓取,可能要从首页进入 在进入 在进入 数据也可能是异步加载的,老师能不能给点建议

正在回答 回答被采纳积分+3

1回答

bobby 2021-09-27 10:16:09

你的疑惑点在哪里?不想写3000个spider?还是想在一个spider中抓取然后想策略?

0 回复 有任何疑惑可以回复我~
  • 提问者 AmoXiang #1
    想找一个通用的解决方案 最开始想的是通过百度搜索、但是有旋转验证码。写3000个太老火了 抓a标签呢 有些规则又不一样 而且嵌套的页面层级关系也不一样 异步加载的也有可能拿不到
    回复 有任何疑惑可以回复我~ 2021-09-27 10:19:24
  • 提问者 AmoXiang #2
    老师有不有好的建议呢 目前有几个解决方案 1、百度搜索 2、进入官网 搜索框中搜索想要的内容 但是抓的数据会有局限性
    回复 有任何疑惑可以回复我~ 2021-09-27 10:20:36
  • bobby 回复 提问者 AmoXiang #3
    通过百度搜索你也无法列举所有的关键词,所有想要抓取更多的数据还得自己去这3000个网站抓取,3000个网站你可以分为两步,1. 抓取 2. 解析 可以把抓取和解析分成两步, 使用scrapy抓取后放入到hdfs中,然后这3000个你得考虑每个网站的反爬。 把反爬的过滤出来逐步分析,如果不想做就得使用selenium。 解析的事情这么多网站想要精确解析只有走xpath解析,。如果没有那么精确的字段那么采用机器学习的解析方法只解析title和content即可。即使百度也只能做多这么多网站的关键词解析
    回复 有任何疑惑可以回复我~ 2021-09-28 09:40:35
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信