采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
做搜索引擎前需要大量的数据,如何类似百度全网爬取信息
个人开发者不现实。 360 搜狗举全公司之力 都做不好搜索引擎 更何况个人, 这里问题很多很难,包括 中文分词 词库 包括全网爬虫 等都不是几个人或者一个小公司能做到的,互联网上95%以上的爬虫都是针对定向抓取的,先不说反爬 就说智能解析 都不可能一个人做好,因为一个互联网上的网站都得上亿,还要包括你的数据存储等都不简单 所以这里如果只是想做一个看起来像的 使用es 就行了,但是你要做成一个百度的那种 你首先要做的就是解析,你不能采用xpath这种精确的接续 你得采用机器学习的解析 而且你还不能做到精确解析,机器学习只能做到title和content这种粗粒度的解析
我就是想做细分类行业,审核就采集,或者是自己添加100个网站,同时采集这100个网站
100个应该还可以勉强维护 关键是你要不要精确的解析到具体字段,如果需要解析的很精确 采用维护xpath的方式会比采用机器学习的启动成本更低
就只要title跟content
我就是想手机细分类行业
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.8k 30
2.6k 18
1.2k 18
1.4k 15
2.8k 15