京东网a标签只能读取其属性，不能读取其文本内容-慕课网

3回答

NavCat 回答被采纳获得+3积分 2020-03-15 19:44:51

之所以获取不到评论，是因为京东的反爬机制，第一次加载的HTML中是没有评论数据的，如下图：

评论数据是通过jsonp的方式异步加载过来的，如下图：

0 回复有任何疑惑可以回复我~

提问者 py_builder #1

谢谢老师，我按老师的思路已经解决了问题。并且把异同步任务加载概念学习了一遍。

回复有任何疑惑可以回复我~ 2020-03-15 21:53:09

提问者 py_builder #2

#comment_data
    li_ids=[]
    for li in ul:
        li_id = li.xpath('@data-sku')[0]
        li_ids.append(li_id)
    id_code=','.join(li_ids)
    url = 'https://club.jd.com/comment/productCommentSummaries.action?referenceIds={0}'.format(id_code)
    js_data = requests.get(url).json()
    comments = js_data['CommentsCount']
    # reuse variables
    li_ids = []
    for comment in comments:
        comment_count = comment['CommentCount']
        # goodcomment_count = comment['GoodCount']
        li_ids.append(comment_count)

先把所有评论数跑一遍储存起来，然后再在后面添加，加快爬虫速度，但写得还是太丑了。。。

回复有任何疑惑可以回复我~ 2020-03-15 21:55:46

提问者 py_builder 2020-03-13 09:21:51

def spider_jd(sn,book_list):
    url='https://search.jd.com/Search?keyword={0}'.format(sn)
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36'
    }
    respond=requests.get(url, headers=headers)
    respond.encoding= 'utf-8'
    html_doc =respond.text
    selector=html.fromstring(html_doc)
    ul=selector.xpath('//div[@id="J_goodsList"]/ul/li')
    count=0
    for li in ul:
        count+=1
        if count == 1:
            print('-' * 100)
            print('-' * 100)
        else:
            print('-' * 100)
        # commerce
        shop = li.xpath('div/div[@class="p-icons"]/i[@data-tips="京东自营，品质保障"]/text()')
        commerce=li.xpath('div/div[@class="p-shopnum"]/a/text()')[0]
        print('商家：{0}'.format(commerce)) if not shop else print('商家：京东自营店')
        #name
        name = li.xpath('div/div/a/@title')[0]
        # title= li.xpath('string(//div/div/a)')
        print('书名：{0}'.format(name))
        #price
        price=li.xpath('div/div[@class="p-price"]/strong/i/text()')[0]
        print('价格：{0}元'.format(price))
        #comment
        comment = li.xpath('string(//div/div[@class="p-commit"]/strong/a)')
        commentlink = li.xpath('div/div[@class="p-commit"]/strong/a/@href')[0]
        print('评论数量{0}'.format(comment))
        # comment = li.xpath('div/div[@class="p-commit"]/strong/a)
        # 对象是存在的，也能读取其中的属性，就是读取不了其文本
        print('评论链接:{0}'.format(commentlink.replace('//', '')))
        # print('{0}条评论'.format(comment))
        #link
        link = li.xpath('div/div[@class="p-name"]/a/@href')[0]
        print('商品链接：{0}'.format(link.replace('//', '')))
        #separate
        print('-'*100)
        book_list.append({
            '商家': '当当自营店' if not shop else commerce,
            '书名': name,
            '价格': float(price),
            '评论': commentlink,
            '链接': link
 
        })

0 回复有任何疑惑可以回复我~

收起回答

NavCat 2020-03-13 00:05:10

把你的代码，贴出来，我帮你调试下：

在这里贴

0 回复有任何疑惑可以回复我~

收起回答

提问者 py_builder #1

老师我已经贴出来了，而且我在爬一号店的时候发现，一号店的评论数量是a标签的内容，但a标签里面嵌套了i标签，这样使用text（）的时候会生成2个元素的列表，而这个是a标签里面 直接 加了个文本“万条评论”，然后就无法读取了。

回复有任何疑惑可以回复我~ 2020-03-13 09:27:02

京东网a标签只能读取其属性，不能读取其文本内容

正在回答

3回答

相似问题

请选择置顶位置

本课精华内容

老师，我好不容易安装好了mysqlclient，但是用不了mysqldb，怎么办？？

老师使用你参考的代码运行不成功是什么原因呢

Macbook上，数据库连接报错

老师请问helper怎么导入，

老师，在实现购书性价比的课中的排序，它仅仅只排列淘宝网的数据是为什么啊，其他的都能爬出来，但是排不了序？？

【讨论题】：如何设计一个更好的登录注册功能？

将爬取的数据写入数据库需要哪些操作？

结合 requests 的使用，将一个网站图片保存到本地该如

实现一个爬虫，还要突破哪些反爬的机制？

关于 Python 的 is和 ==，解释一下下面程序的结果

热搜

最近搜索清空

京东网a标签只能读取其属性，不能读取其文本内容

正在回答

3回答

相似问题

请选择置顶位置

本课精华内容

老师，我好不容易安装好了mysqlclient，但是用不了mysqldb，怎么办？？

老师使用你参考的代码运行不成功是什么原因呢

Macbook上，数据库连接报错

老师请问helper怎么导入，

老师，在实现购书性价比的课中的 排序，它仅仅只排列淘宝网的数据 是为什么啊，其他的都能爬出来，但是排不了序？？

【讨论题】：如何设计一个更好的登录注册功能？

将爬取的数据写入数据库需要哪些操作？

结合 requests 的使用，将一个网站图片保存到本地该如

实现一个爬虫，还要突破哪些反爬的机制？

关于 Python 的 is和 ==，解释一下下面程序的结果

老师，在实现购书性价比的课中的排序，它仅仅只排列淘宝网的数据是为什么啊，其他的都能爬出来，但是排不了序？？