采纳答案成功!
向帮助你的同学说点啥吧!感谢那些助人为乐的人
老师好,我现在爬的一个新闻网站没有下一页,但是可以通过url改日期和页码数获取不同的新闻列表,可是main方法中执行了一次ConcurrentEngine.Run(engine.Request{})后没法再执行第二次了,想问下有没有更好的思路解决这个问题
你直接写个ParseNewsList啊,先把所有列表页的url拿到。
当然你也可以粗暴一点,直接在main方法前面整。
main前面就是直接创建 []string,然后for循环,根据日期和页码数循环出所有url,存入slice,然后传参到main。
网页源代码里没有url,是根据news1.html...news2.html往后推出来的。Run方法在for循环里只执行了一次,主要是这个问题。我现在没搞了,crontab5分钟爬一次好了,旧新闻价值也不大
在外面再套一次Parse应该是可行的,太折腾了
登录后可查看更多问答,登录/注册
语法+分布式爬虫实战 为转型工程师量身打造
4.2k 14
1.1k 1
2.5k 1
1.5k 12
购课补贴联系客服咨询优惠详情
慕课网APP您的移动学习伙伴
扫描二维码关注慕课网微信公众号