请稍等 ...
×

采纳答案成功!

向帮助你的同学说点啥吧!感谢那些助人为乐的人

拉勾网登录问题

老师你好,爬拉勾网遇到了重定向到登录页面的问题,我模仿知乎模拟登录写了一段模拟登录代码如下:

def start_requests(self):
    browser = webdriver.Chrome(executable_path="D:/WebDriver/chromedriver.exe")

    browser.get("https://passport.lagou.com/login/login.html")
    browser.find_element_by_css_selector("div[data-propertyname='username'] input").send_keys(
        "xxx")
    browser.find_element_by_css_selector("div[data-propertyname='password'] input").send_keys(
        "xxx")
    browser.find_element_by_css_selector(
        "div[data-propertyname='submit'] input").click()
    time.sleep(10)
    cookies = browser.get_cookies()
    print(cookies)
    cookie_dict = {}
    for cookie in cookies:
        # write into file
        f = open('D:/Python_Projects/Article_Spider/Article_Spider/cookies/lagou' + cookie['name'] + '.lagou', 'wb')
        pickle.dump(cookie, f)
        f.close()
        cookie_dict[cookie['name']] = cookie['value']
    browser.close()
    return [scrapy.Request(url=self.start_urls[0], dont_filter=True, cookies=cookie_dict, headers=self.headers)]

成功获取cookies之后又去爬拉勾网首页。继续收到重定向到登录页面,截图如下

https://img1.sycdn.imooc.com//szimg/5b07279e0001e11b18880096.jpg

cookies应该是已经成功获得了的:

https://img1.sycdn.imooc.com//szimg/5b0727da0001f6e504600527.jpg

请问老师这里应该怎么处理啊, 以及老师方便留一下QQ吗

正在回答

1回答

bobby 2018-05-25 18:23:46

这个重定向 是通过ip限制的 即使你已经登录了也不行 这种方法非常暴力 你试试ip代理 还有一定要限制爬取速度

0 回复 有任何疑惑可以回复我~
  • 提问者 不务正业的码农 #1
    非常感谢!
    回复 有任何疑惑可以回复我~ 2018-05-25 22:36:11
  • 提问者 不务正业的码农 #2
    好的 老师,另外就是我的模拟登录代码有什么问题吗。因为是模仿着写的 有些地方也不是特别明白原理。
    关于Headers,我看登录页面的host是passport.lagou.com 但是在主页面的请求里没看见是不是同一个host。我把登录页面的headers带过去会不会有问题啊。
    回复 有任何疑惑可以回复我~ 2018-05-25 22:37:37
  • 提问者 不务正业的码农 #3
    另外就是虽然用selenium模拟登录不行,但是关闭了爬虫我自己账号密码登录还是没问题,这也算是封禁IP了吗
    回复 有任何疑惑可以回复我~ 2018-05-25 23:40:23
问题已解决,确定采纳
还有疑问,暂不采纳
微信客服

购课补贴
联系客服咨询优惠详情

帮助反馈 APP下载

慕课网APP
您的移动学习伙伴

公众号

扫描二维码
关注慕课网微信公众号