请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

爬取其他网页(豆瓣)的时候,抓取的htmls字符串好像不全

想抓豆瓣热门电影并且排个名,用一样的代码,但是在 __fetch_content 方法中想要的 htmls 字符(电影名字和评分)抓不出来,请问老师这是怎么回事?

链接:https://movie.douban.com/explore#!type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0

正在回答 回答被采纳积分+3

2回答

7七月 2017-10-24 17:35:03

可能这个页面的内容是通过脚本发Ajax获取的动态数据。所以直接抓取是抓不到的。

0 回复 有任何疑惑可以回复我~
runzx 2017-10-24 13:48:24

你选的这个页面是动态页面, 就是说你用urllib.request访问的内容和你在PC上看到的不是一个。所以直接__fech_content() 是抓不到的。 要编写模拟网页能的执行JS的方法,才能最终取得你IE上看到的内容。

分析此页面的网络后, 得到 https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0

这可以直接取回JSON格式的内容。


0 回复 有任何疑惑可以回复我~
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号