请稍等 ...

用selenium配合scrapy方法请求动态下拉新闻页面的问题

我用你的selenium集成到scrapy方法,请求了一个不用登陆的新闻页面,是一个新闻的分类,是那种下拉获取的网页,https://mil.sohu.com/?spm=smpc.home.top-nav.2.1592793414412pnl7qIC ,这个是我爬取的网站,
我是这样做的
1:selenium打开这个网址,然后用你教的下来的方法,直接循环拉到底.
2:然后再解析整个新闻页面里面的每个新闻的url,
3:获取每个新闻里面的所谓文字,保存到txt文件里.

过程实现了,但是有个问题.
selenium打开新闻主页是我需要的,但是之后爬取每个新闻的详情页都会用浏览器打开那个新闻页面.

我希望后面请求的每个新闻的时候就不要用浏览器打开了
我在中间件中,设置了打开几秒就关闭那个浏览器.time.sleep 可能让程序阻塞了,
马上就会报错.
你有什么建议吗?
我希望后面请求的每个新闻的时候就不要用浏览器打开了

南森_ 2020-06-23 10:41:49

源自：9-4 selenium集成到scrapy中

967

收起

提交取消

1回答

bobby 回答被采纳获得+3积分 2020-06-23 16:38:07

你是不是使用middlware拦截了所有的请求都使用了selenium请求了如果是这样你在这个里面做个if判断只有符合某种规范的url才使用selenium 其他的都不处理

0 回复有任何疑惑可以回复我~

收起回答

提问者南森_ #1
```
111
```
回复有任何疑惑可以回复我~ 2020-06-24 11:07:27
提问者南森_ #2
```
可以了，但是ip代理用不了， 不知道为什么。
```
回复有任何疑惑可以回复我~ 2020-06-24 11:12:22
bobby 回复提问者南森_ #3
```
你使用selenium加入了ip代理不行？
```
回复有任何疑惑可以回复我~ 2020-06-27 14:26:37