京东数据爬不到-慕课网

import requests from lxml import html def spider(sn): """爬取京东的图书数据""" url = 'https://search.jd.com/Search?keyword={0}'.format(sn) # html文档 html_doc = requests.get(url).text print(html_doc) if __name__ == '__main__': spider('9787115428028')

1回答

NavCat 回答被采纳获得+3积分 2018-12-27 15:54:28

添加useragent请求头，代码参考：

import requests
from lxml import html
 
 
def spider(sn):
    """爬取京东的图书数据"""
    url = 'https://search.jd.com/Search?keyword={0}'.format(sn)
    #html文档
    resp = requests.get(url, headers={
        'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6776.400 QQBrowser/10.3.2601.400',
    })
    print(resp.encoding)
    resp.encoding = 'utf8'
    # html_doc = requests.get(url).text
    html_doc = resp.text
    print(html_doc)
 
    #获取xpath对象
    selector = html.fromstring(html_doc)
 
 
    #找到列表的集合
    ul_list = selector.xpath('//div[@id="J_goodsList"]/ul/li')
    print(len(ul_list))
    #解析对应的内容，标题，价格，购买链接
    for li in ul_list:
        #标题
        title = li.xpath('div/div[@class="p-name"]/a/@title')
        print(title)
 
 
if __name__ == '__main__':
    spider('9787115428028')

1 回复有任何疑惑可以回复我~

收起回答

提问者 rannrann #1
```
谢谢老师！！！！！爱你~
```
回复有任何疑惑可以回复我~ 2018-12-28 08:36:00

提问者 rannrann #2

我写不出来这样的代码是因为知识的欠缺。请问老师，这块知识应该叫什么，是请求响应的原理么？？

回复有任何疑惑可以回复我~ 2018-12-28 08:43:49

NavCat 回复提问者 rannrann #3
```
是的，还有一些网站实现的几种思路，爬虫与反爬的机制等
```
回复有任何疑惑可以回复我~ 2018-12-28 14:42:50

京东数据爬不到

正在回答

1回答

相似问题

请选择置顶位置

本课精华内容

老师，我好不容易安装好了mysqlclient，但是用不了mysqldb，怎么办？？

老师使用你参考的代码运行不成功是什么原因呢

Macbook上，数据库连接报错

老师请问helper怎么导入，

老师，在实现购书性价比的课中的排序，它仅仅只排列淘宝网的数据是为什么啊，其他的都能爬出来，但是排不了序？？

【讨论题】：如何设计一个更好的登录注册功能？

将爬取的数据写入数据库需要哪些操作？

结合 requests 的使用，将一个网站图片保存到本地该如

实现一个爬虫，还要突破哪些反爬的机制？

关于 Python 的 is和 ==，解释一下下面程序的结果

热搜

最近搜索清空