请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

做搜索引擎前需要大量的数据,如何类似百度全网爬取信息

做搜索引擎前需要大量的数据,如何类似百度全网爬取信息

正在回答

2回答

bobby 2020-04-04 13:29:39

个人开发者不现实。 360 搜狗举全公司之力 都做不好搜索引擎 更何况个人, 这里问题很多很难,包括 中文分词 词库 包括全网爬虫 等都不是几个人或者一个小公司能做到的,互联网上95%以上的爬虫都是针对定向抓取的,先不说反爬 就说智能解析 都不可能一个人做好,因为一个互联网上的网站都得上亿,还要包括你的数据存储等都不简单 所以这里如果只是想做一个看起来像的 使用es 就行了,但是你要做成一个百度的那种 你首先要做的就是解析,你不能采用xpath这种精确的接续 你得采用机器学习的解析 而且你还不能做到精确解析,机器学习只能做到title和content这种粗粒度的解析

0 回复 有任何疑惑可以回复我~
  • 提问者 我们不熟 #1
    我就是想做细分类行业,审核就采集,或者是自己添加100个网站,同时采集这100个网站
    回复 有任何疑惑可以回复我~ 2020-04-05 12:24:33
  • bobby 回复 提问者 我们不熟 #2
    100个应该还可以勉强维护 关键是你要不要精确的解析到具体字段,如果需要解析的很精确 采用维护xpath的方式会比采用机器学习的启动成本更低
    回复 有任何疑惑可以回复我~ 2020-04-06 13:42:31
  • 提问者 我们不熟 回复 bobby #3
    就只要title跟content
    回复 有任何疑惑可以回复我~ 2020-04-06 22:15:51
提问者 我们不熟 2020-04-05 12:21:49

我就是想手机细分类行业

0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信