实现一个爬虫,还要突破哪些反爬的机制?
521

题目描述

通过本章的学习,我们掌握了爬虫的一些基础知识,但实际工作中的爬虫开发比这个要复杂得多,除了本章我们学习的知识外,你还了解哪些我们需要掌握的知识?

  1. 除了 xpath,爬取数据还有哪些技巧呢?
  2. 遇到要登录的网站,该如何实现呢?
  3. 遇到要输入验证码的网站,该如何实现呢?
  4. 遇到访问 IP 限制的,该如何突破呢?
  5. 遇到目标网站频繁更新,该如何应对呢?

关键提炼

  1. 理解网络请求的基本原理:网络、服务器、TCP/IP 协议等;
  2. xpath,pyQuery,BS4、正则表达式活学活用;
  3. 爬与反爬,持续迭代。
我的作业
去发布

登录后即可发布作业,立即

全部作业

数据加载中...

意见反馈 帮助中心 APP下载
官方微信