采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
刚开始爬还挺快,跑一段时间后,最后只剩下四五个进程再跑了,其他进程都卡住不动了,为什么。
线程处理爬虫,一般都是卡请求。请求的超时默认120秒,如果响应一直不回来,线程只会死等。推荐线程+协程
最近有在用协程 但是任务量太多 会报错 ValueError: too many file descriptors in select() tasks = [main(url) for url in a[0:2000]] loop.run_until_complete(asyncio.wait(tasks)) 任务量超过五百个url就报错
是不是单loop添加太多任务了。 你用多线程处理单loop吧
或者多线程多loop
登录后可查看更多问答,登录/注册
加密破解、逆向重构、分布式框架及海量存储方案
720 15
957 14
759 9
1.1k 6
367 5