请稍等 ...

学习爬微博网站遇到的问题，请求解答，谢谢

爬取微博网站个人信息，关注数、粉丝数和微博，三个指标；

css语句：response.css(".WB_main_r .user_atten li::text").extract(), 返回的结果一直是空列表 [ ]。

下面是网页截图

下图是右键查看源码的代码，与上图中代码不一样。这样的情况下，是以源码为准来css定位爬取吗？

这里的代码基本都在</script>标签内。例如代码结构下

对于<script>FM.view（）这样的代码如何css定位爬取？

另外，能够帮忙给出爬取关注数、粉丝数和微博三个指标的css语句，十分谢谢！！！

慕莱坞7202075 2018-07-11 20:57:17

源自：10-4 scrapy-redis编写分布式爬虫代码

1198

收起

提交取消

2回答

bobby 2018-07-16 18:15:32

from scrapy.selector import Selector
body = '<html><body><span>good</span></body></html>'
sel = Selector(text=body)
data = sel.css('XXXX')

这样写

0 回复有任何疑惑可以回复我~

收起回答

提问者慕莱坞7202075 #1
```
谢谢bobby老师
```
回复有任何疑惑可以回复我~ 2018-07-17 18:19:07

bobby 2018-07-13 11:24:25

script中的脚本是无法通过css方式来为你定位的，所以你可以通过正则表达式获取到这里的html源码然后传给selector初始化然后就可以用css方式获取了

0 回复有任何疑惑可以回复我~

收起回答

提问者慕莱坞7202075 #1

老师，传给selector初始化然后再进行css方式定位获取，不太明白。能否取个栗子

回复有任何疑惑可以回复我~ 2018-07-15 00:28:06

相似问题

麻烦请问老师一道Hackerrank上的题，求回复，谢谢

解决反爬问题

基于CrawlSpider，同一份代码爬取多个网站的数据，如果限制不爬取外链网站数据

爬虫的一些问题

微站也是响应式的页面吗？

登录后可查看更多问答，登录/注册

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

参与学习 5831 人
解答问题 6293 个

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

了解课程

本课精华内容

问答作业

Missing argument grant_type

5.7k 30

MysqlTwistedPipline的对象没有cursor属性

3.1k 18

知乎answer提取不到

1.8k 18

为什么知乎数据导入不到MySQL数据库中？

2.0k 15

运行 scrapy crawl jobbole 报错

3.6k 15

查看更多本课问答

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号

学习爬微博网站遇到的问题，请求解答，谢谢

正在回答

2回答

相似问题