采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
有点类似于抓取新闻数据,但是这3000个网址要满足需要的数据条件才抓取,可能要从首页进入 在进入 在进入 数据也可能是异步加载的,老师能不能给点建议
你的疑惑点在哪里?不想写3000个spider?还是想在一个spider中抓取然后想策略?
想找一个通用的解决方案 最开始想的是通过百度搜索、但是有旋转验证码。写3000个太老火了 抓a标签呢 有些规则又不一样 而且嵌套的页面层级关系也不一样 异步加载的也有可能拿不到
老师有不有好的建议呢 目前有几个解决方案 1、百度搜索 2、进入官网 搜索框中搜索想要的内容 但是抓的数据会有局限性
通过百度搜索你也无法列举所有的关键词,所有想要抓取更多的数据还得自己去这3000个网站抓取,3000个网站你可以分为两步,1. 抓取 2. 解析 可以把抓取和解析分成两步, 使用scrapy抓取后放入到hdfs中,然后这3000个你得考虑每个网站的反爬。 把反爬的过滤出来逐步分析,如果不想做就得使用selenium。 解析的事情这么多网站想要精确解析只有走xpath解析,。如果没有那么精确的字段那么采用机器学习的解析方法只解析title和content即可。即使百度也只能做多这么多网站的关键词解析
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.8k 30
2.6k 18
1.2k 18
1.4k 15
2.8k 15