请稍等 ...

请问老师，这个网站是不是增加了反爬措施

老师您好，在抓取聚美优品这个网站的时候碰到了这么一个情况

class JumeiAppSpider(CrawlSpider):
    name = 'jumei_app'
    # allowed_domains = ["search.jumei.com"]
    start_urls = ["http://search.jumei.com/?filter=0-11-1&search=%E5%85%B0%E8%94%BB&from=all_null_index_top_nav_cosmetics&lo=3481&mat=30573"]
    rules = (Rule(LinkExtractor(allow=r"http://item.jumeiglobal.com/.+"), callback="parse_item", follow=True),)

    def parse_item(self, response):
        print("response")
        print(response.url)

根据规则找不到符合的网站，进入不了parse_item，然后我通过普通的方式试了一下这个网站。

import requests
from fake_useragent import UserAgent


ua = UserAgent()

url = "http://search.jumei.com/?filter=0-11-1&search=%E4%BF%9D%E6%B9%BF"
response = requests.get(url, headers={"user-agent": ua.random})
print(response.text)

发现只要是列表类型的网页，打印它的网页源代码时都是空的
图片描述但是打印聚美优品的首页就没有问题，可以返回内容，这是什么原因呢？是不是新增了反爬呢？这是怎么做到的呢？

AShySherry 2023-05-04 20:39:34

源自：6-13 【实战】聚美优品：CrawlSpider 爬取并储存商品信息

452

收起

提交取消

1回答

Martin__Wang 2023-05-10 18:13:05

我测试了一下。应该是反扒措施升级了，你带上cookie就好了

0 回复有任何疑惑可以回复我~

相似问题

爬取登录的网站是否有必要构建UA池与IP代理池

解决反爬问题

基于CrawlSpider，同一份代码爬取多个网站的数据，如果限制不爬取外链网站数据

老师现在拉勾网的反爬策略是什么呢？

两个或两个以上的网站爬取算是分布式爬虫吗？我这样写可以启动无数个爬虫程序吧？为啥启动完第一个就直接结束了呢？

登录后可查看更多问答，登录/注册

Python 分布式爬虫与 JS 逆向进阶实战

参与学习 99 人
解答问题 26 个

20+ 案例 & 可接单级项目，全面提升爬虫实战能力

了解课程

本课精华内容

问答

第四章缺少一节内容

674 2

写网页内容代码报错

544 2

导入lxml和etree报错

913 2

豆瓣电影报错

913 2

遇到403怎么办？

710 2

查看更多本课问答

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

扫描二维码
关注慕课网微信公众号