京东的爬取不出来-慕课网

headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36' } # 获取HTML信息 html_data = requests.get(url, headers=headers).text # print(html_data) # 获取xpath对象 selector = html.fromstring(html_data) # 寻找书本列表 ul_list = selector.xpath('//div[@id="J_goodsList"]/ul/li') print(len(ul_list)) # 解析对应的内容，标题，价格，链接 for li in ul_list: # 标题 title = li.xpath('div/div[@class="p-name"]/a/@title') print(title[0]) # 购买链接 link = li.xpath('div/div[@class="p-name"]/a/@href') print(link[0]) # 价格 price = li.xpath('div/div[@class="p-price"]/strong/i/text()') print(price[0]) # 店铺 store = li.xpath('div//a[@class="curr-shop"]/@title') print(store[0]) book_list.append({ 'title': title[0], 'price': price[0], 'link': link[0], 'store': store[0] })

1回答

NavCat 回答被采纳获得+3积分 2020-06-24 14:42:27

京东网站更新了，页面结构发生了编码，试试最新的代码：

import requests
from lxml import html


def spider(sn, book_list=[]):
    """ 爬取京东的图书数据 """
    url = 'https://search.jd.com/Search?keyword={0}'.format(sn)
    # 获取HTML文档

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
    }

    resp = requests.get(url, headers=headers)
    print(resp.encoding)
    resp.encoding = 'utf-8'

    html_doc = resp.text
    # print(html_doc)

    # 获取xpath对象
    selector = html.fromstring(html_doc)

    # 找到列表的集合
    ul_list = selector.xpath('//div[@id="J_goodsList"]/ul/li')
    print(len(ul_list))

    # 解析对应的内容，标题，价格，链接
    for li in ul_list:
        # 标题
        title = li.xpath('div/div[@class="p-name"]/a/@title')
        print(title[0])
        # 购买链接
        link = li.xpath('div/div[@class="p-name"]/a/@href')
        print(link[0])

        # 价格
        price = li.xpath('div/div[@class="p-price"]/strong/i/text()')
        print(price[0])

        # 店铺
        store = li.xpath('div//a[@class="curr-shop hd-shopname"]/@title')
        print(store[0])

        book_list.append({
            'title': title[0],
            'price': price[0],
            'link': link[0],
            'store': store[0]
        })


if __name__ == '__main__':
    spider('9787115428028')

1 回复有任何疑惑可以回复我~

收起回答

提问者慕娘5291559 #1
```
非常感谢！
```
回复有任何疑惑可以回复我~ 2020-06-25 04:06:28
weixin_慕前端0009281 回复提问者慕娘5291559 #2
```
我也看了半天，原来是jd加了个反爬，要给请求头
```
回复有任何疑惑可以回复我~ 2020-07-05 11:21:26

NavCat 回复 weixin_慕前端0009281 #3

是的，爬虫与反爬是一个持续的过程，目标站点发生变化，我们的爬虫也要做适当的调整

回复有任何疑惑可以回复我~ 2020-07-06 14:07:03

京东的爬取不出来

正在回答

1回答

相似问题

请选择置顶位置

本课精华内容

老师，我好不容易安装好了mysqlclient，但是用不了mysqldb，怎么办？？

老师使用你参考的代码运行不成功是什么原因呢

Macbook上，数据库连接报错

老师请问helper怎么导入，

老师，在实现购书性价比的课中的排序，它仅仅只排列淘宝网的数据是为什么啊，其他的都能爬出来，但是排不了序？？

【讨论题】：如何设计一个更好的登录注册功能？

将爬取的数据写入数据库需要哪些操作？

结合 requests 的使用，将一个网站图片保存到本地该如

实现一个爬虫，还要突破哪些反爬的机制？

关于 Python 的 is和 ==，解释一下下面程序的结果

热搜

最近搜索清空