请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

用selenium配合scrapy方法请求动态下拉新闻页面的问题

我用你的selenium集成到scrapy方法,请求了一个不用登陆的新闻页面,是一个新闻的分类,是那种下拉获取的网页,https://mil.sohu.com/?spm=smpc.home.top-nav.2.1592793414412pnl7qIC ,这个是我爬取的网站,
我是这样做的
1:selenium打开这个网址,然后用你教的下来的方法,直接循环拉到底.
2:然后再解析整个新闻页面里面的每个新闻的url,
3:获取每个新闻里面的所谓文字,保存到txt文件里.

过程实现了,但是有个问题.
selenium打开新闻主页是我需要的,但是之后爬取每个新闻的详情页都会用浏览器打开那个新闻页面.

我希望后面请求的每个新闻的时候就不要用浏览器打开了
我在中间件中,设置了打开几秒就关闭那个浏览器.time.sleep 可能让程序阻塞了,
马上就会报错.
你有什么建议吗?
我希望后面请求的每个新闻的时候就不要用浏览器打开了

正在回答

1回答

你是不是使用middlware拦截了所有的请求 都使用了selenium请求了 如果是这样 你在这个里面做个if判断 只有符合某种规范的url才使用selenium 其他的都不处理

0 回复 有任何疑惑可以回复我~
  • 提问者 南森_ #1
    111
    回复 有任何疑惑可以回复我~ 2020-06-24 11:07:27
  • 提问者 南森_ #2
    可以了,但是ip代理用不了, 不知道为什么。
    回复 有任何疑惑可以回复我~ 2020-06-24 11:12:22
  • bobby 回复 提问者 南森_ #3
    你使用selenium加入了ip代理不行?
    回复 有任何疑惑可以回复我~ 2020-06-27 14:26:37
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信