实现一个爬虫,还要突破哪些反爬的机制?
959

题目描述

通过本章的学习,我们掌握了爬虫的一些基础知识,但实际工作中的爬虫开发比这个要复杂得多,除了本章我们学习的知识外,你还了解哪些我们需要掌握的知识?

  1. 除了 xpath,爬取数据还有哪些技巧呢?
  2. 遇到要登录的网站,该如何实现呢?
  3. 遇到要输入验证码的网站,该如何实现呢?
  4. 遇到访问 IP 限制的,该如何突破呢?
  5. 遇到目标网站频繁更新,该如何应对呢?

关键提炼

  1. 理解网络请求的基本原理:网络、服务器、TCP/IP 协议等;
  2. xpath,pyQuery,BS4、正则表达式活学活用;
  3. 爬与反爬,持续迭代。
我的作业
去发布

登录后即可发布作业,立即

全部作业

数据加载中...

微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号