我用你的selenium集成到scrapy方法,请求了一个不用登陆的新闻页面,是一个新闻的分类,是那种下拉获取的网页,https://mil.sohu.com/?spm=smpc.home.top-nav.2.1592793414412pnl7qIC ,这个是我爬取的网站,
我是这样做的
1:selenium打开这个网址,然后用你教的下来的方法,直接循环拉到底.
2:然后再解析整个新闻页面里面的每个新闻的url,
3:获取每个新闻里面的所谓文字,保存到txt文件里.
过程实现了,但是有个问题.
selenium打开新闻主页是我需要的,但是之后爬取每个新闻的详情页都会用浏览器打开那个新闻页面.
我希望后面请求的每个新闻的时候就不要用浏览器打开了
我在中间件中,设置了打开几秒就关闭那个浏览器.time.sleep 可能让程序阻塞了,
马上就会报错.
你有什么建议吗?
我希望后面请求的每个新闻的时候就不要用浏览器打开了
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
了解课程