老师我想爬一个公司内部的内容管理系统,内容管理系统URL格式是这样的:http://10.156.0.129/hbcmp/documentList.action?folderId={0}&folderNamePath={1}&pageSize={2}¤tPageNo={3}&keyword={4}
其数据结构是树型带有子节点,我用到递归遍历,我的思路就是先模拟登陆,登陆之后就调用内容管理的url地址,得到是一个json数据,然后我解析json数据,获取到json数据之后在修改url地址里面的参数然后在进行爬,也就是想深度优先,可是不知道哪里出了问题,数据一直爬不全,每次运行一次数据会增加一点,我入库的时候也查询了数据,相同的不进行入库。请老师帮我看看,谢谢!
带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎
了解课程