采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
bobby老师,你好。
使用selenium爬取某网站的详情页,发现解析速度过慢,平均一分钟只能爬取2-3条,电脑开了一整夜,只爬取了1000多条。
看了一下电脑的cpu和内存占用,cpu基本上已经被顶满了。
所以有什么更快,更节省资源的方法吗?
是因为你自己限速了才慢的还是因为自己本身就这么慢?
如果你自己没有限速的话selenium不太可能有这么慢, cpu和内存占满了是不是因为打开的chrome浏览器太多了?
在setting里面开了并发。然后selenium打开了很多chrome,接着cpu和内存占满了,之后,速度就提不起来了吧?
chrome开的过多是因为你每个页面都开了chrome实例并且没有在抓取成功以后关闭,你可以全局在spider启动的时候实例化一个selenium这样就可以每个url使用同一个selenium了
登录后可查看更多问答,登录/注册
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
4.8k 30
2.5k 18
1.1k 18
1.4k 15
2.8k 15