采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
请问老师,对于汉字的反爬,又该如何应对呢?如下图: 每次返回的字体内容不固定
汉字字体的加密渲染,因为内容不固定,所以每次解析的时候,都需要网页上对应的字体文件,而不是固定的。
在解析爬虫的代码中,加上解析汉字的字体文件代码,从字体文件中,提取中对应的映射关系。
关系不固定,每次都需要解密一次字体文件。
那要怎么知道对应的是什么内容呢?总不能每次抓取,人工查看对应汉字吧
这个得分析字体文件,里面应该有具体的数据映射关系。 如果真的没有,只能用训练机器学习来识别了。 具体网站可以发一下,我有空也去翻着看看。
字数补丁
登录后可查看更多问答,登录/注册
加密破解、逆向重构、分布式框架及海量存储方案
719 15
957 14
759 9
1.1k 6
367 5