请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

无法爬取网页内嵌的一个word文档编辑器

爬取一个网页,内嵌一个word文档的编辑器,现在问题是
1 用谷歌浏览器打开会显示无法使用插件
2 可以用ie打开,但是发现无法捕捉word文档编辑器里面内容的元素,其他以外的内容都可以捕捉到元素。

请问要用何种方法才能把这个编辑器加载的word文档内容给下载下来?

正在回答 回答被采纳积分+3

1回答

bobby 2022-10-10 16:54:12

你应该是想抓百度文库这种网页的内容吧 https://blog.csdn.net/weixin_44510615/article/details/107694231 看看这个试试

0 回复 有任何疑惑可以回复我~
  • 提问者 慕先生1163759 #1
    是内网的系统,而且只能用ie浏览器才能加载插件,我疑惑的是,连数据都没有返回,F12返回的数据我都看了,没有一个是有对应数据的,连文件都没有。 也不知道原理是不是直接把文档加载到网页,弄了一天都没弄到,很疑惑
    回复 有任何疑惑可以回复我~ 2022-10-10 17:02:48
  • bobby 回复 提问者 慕先生1163759 #2
    插件可以自己走tcp协议, 你的浏览器只能抓取到http协议, 所以这个是正常的, 可以试试wireshark抓tcp包
    回复 有任何疑惑可以回复我~ 2022-10-12 17:11:41
问题已解决,确定采纳
还有疑问,暂不采纳
意见反馈 帮助中心 APP下载
官方微信