做搜索引擎前需要大量的数据，如何类似百度全网爬取信息-慕课网

2回答

bobby 2020-04-04 13:29:39

个人开发者不现实。 360 搜狗举全公司之力都做不好搜索引擎更何况个人，这里问题很多很难，包括中文分词词库包括全网爬虫等都不是几个人或者一个小公司能做到的，互联网上95%以上的爬虫都是针对定向抓取的，先不说反爬就说智能解析都不可能一个人做好，因为一个互联网上的网站都得上亿，还要包括你的数据存储等都不简单所以这里如果只是想做一个看起来像的使用es 就行了，但是你要做成一个百度的那种你首先要做的就是解析，你不能采用xpath这种精确的接续你得采用机器学习的解析而且你还不能做到精确解析，机器学习只能做到title和content这种粗粒度的解析

0 回复有任何疑惑可以回复我~

收起回答

提问者我们不熟 #1

我就是想做细分类行业，审核就采集，或者是自己添加100个网站，同时采集这100个网站

回复有任何疑惑可以回复我~ 2020-04-05 12:24:33

bobby 回复提问者我们不熟 #2

100个应该还可以勉强维护 关键是你要不要精确的解析到具体字段，如果需要解析的很精确 采用维护xpath的方式会比采用机器学习的启动成本更低

回复有任何疑惑可以回复我~ 2020-04-06 13:42:31

提问者我们不熟回复 bobby #3
```
就只要title跟content
```
回复有任何疑惑可以回复我~ 2020-04-06 22:15:51

点开查看后面2条评论

提问者我们不熟 2020-04-05 12:21:49

我就是想手机细分类行业

0 回复有任何疑惑可以回复我~

收起回答

做搜索引擎前需要大量的数据，如何类似百度全网爬取信息

正在回答

2回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空