题目描述:
对于某些应用来说,比如百度这种网站并不需要精确的抓取指定的网站,而是要抓取尽量多的网站,这些网站的解析也并不需要非常精确,但是网站的数量大,种类多,有没有方法可以比较准确的解析出 title 和正文内容,这些方法可以达到自动化解析而不是我们要手写每一个解析规则
思路点拨:
通过机器学习方法自动解析出正文
对于某些应用来说,比如百度这种网站并不需要精确的抓取指定的网站,而是要抓取尽量多的网站,这些网站的解析也并不需要非常精确,但是网站的数量大,种类多,有没有方法可以比较准确的解析出 title 和正文内容,这些方法可以达到自动化解析而不是我们要手写每一个解析规则
通过机器学习方法自动解析出正文
数据加载中...