老师，运行京东网的爬虫出现错误-慕课网

1回答

NavCat 回答被采纳获得+3积分 2019-04-20 01:21:02

你这是两个问题，首先，爬取不到数据，是因为京东网站做了调整，添加了反扒机制。这些网站会更新，会导致我们的爬虫程序也要不断的调整。在请求中添加请求头就可以爬去啦。

resp = requests.get(url, headers={
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6776.400 QQBrowser/10.3.2601.400'
    })

第二个问题，你的条件表达式思路错了。IndexError表示小标越界。从你提供截图中，说明title的长度为0，所以title[0]会报错。

所以你的print代码可以调整为：

print(title[0] if title else '无')

1 回复有任何疑惑可以回复我~

收起回答

提问者慕慕8105830 #1

老师，我后面发现是京东网网页源代码不同，我修改了下问题，请你再看看

回复有任何疑惑可以回复我~ 2019-04-20 10:19:41

NavCat 回复提问者慕慕8105830 #2

两种方法都可以的。
你可以自己使用if  else  进行判断，也可以将xpath进行完善。
从你的两张截图里面，我们可以得出结论，两个div的class都是以“p-name”开头的，所以xpath可以这样写（给你个参考）：
link = li.xpath('div/div[starts-with(@class,"p-name")]/a/@href')

回复有任何疑惑可以回复我~ 2019-04-22 15:22:07

David璐_senior_DBA #3

爬虫和反爬虫果然是在不断较量的过程，还是要多像老师学习才行。

回复有任何疑惑可以回复我~ 2019-04-25 23:41:19

点开查看后面2条评论

老师，运行京东网的爬虫出现错误

正在回答

1回答

相似问题

请选择置顶位置

本课精华内容

老师，我好不容易安装好了mysqlclient，但是用不了mysqldb，怎么办？？

老师使用你参考的代码运行不成功是什么原因呢

Macbook上，数据库连接报错

老师请问helper怎么导入，

老师，在实现购书性价比的课中的排序，它仅仅只排列淘宝网的数据是为什么啊，其他的都能爬出来，但是排不了序？？

【讨论题】：如何设计一个更好的登录注册功能？

将爬取的数据写入数据库需要哪些操作？

结合 requests 的使用，将一个网站图片保存到本地该如

实现一个爬虫，还要突破哪些反爬的机制？

关于 Python 的 is和 ==，解释一下下面程序的结果

热搜

最近搜索清空