老师，教程里面的爬取拉勾网的代码不能使用了，CrawlSpider怎么实现拉钩网的模拟登陆呢？-慕课网

2回答

提问者 qq_流行前线_0 2018-05-19 12:21:22

booby老师，我用crawlspider模拟登录发现被重定向了。

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
import time
import pickle
import datetime
import sys
import io
class LagouSpider(CrawlSpider):
name = 'lagou'
allowed_domains = ['www.lagou.com']
start_urls = ['https://www.lagou.com/']
headers={
"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
"Accept-Encoding":"gzip, deflate, br",
"Accept-Language":"zh-CN,zh;q=0.8",
"Connection":"keep-alive",
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36",
"Referer":'https://www.lagou.com',
'Connection': 'keep-alive',
"HOST": "www.lagou.com"
}
custom_settings = {
"COOKIES_ENABLED": True
}
rules = (
Rule(LinkExtractor(allow=r'gongsi/j/\d+.html'), follow=True),
Rule(LinkExtractor(allow=r'zhaopin/.*'), follow=True),
Rule(LinkExtractor(allow=r'jobs/\d+.html'), callback='parse_job', follow=True),
)
def parse_item(self, response):
pass
def start_requests(self):
from selenium import webdriver
sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')
chrome_opt=webdriver.ChromeOptions()
prefs={"profile.managed_default_content_settings.images":2}
chrome_opt.add_experimental_option("prefs",prefs)
browser = webdriver.Chrome(executable_path="C:\\Program Files (x86)\\google\\Chrome\\Application\\chromedriver.exe",chrome_options=chrome_opt)
browser.get("https://passport.lagou.com/login/login.html?service=https%3a%2f%2fwww.lagou.com%2f")
account=input("请输入您的拉钩账号")
password=input("请输入您的拉钩密码")
browser.find_element_by_xpath("/html/body/section/div[1]/div[2]/form/div[1]/input").send_keys(account)
browser.find_element_by_xpath("/html/body/section/div[1]/div[2]/form/div[2]/input").send_keys(password)
browser.find_element_by_xpath("/html/body/section/div[1]/div[2]/form/div[5]").click()
time.sleep(10)
Cookies = browser.get_cookies()
cookie_dict={}
for cookie in Cookies:
f=open('D:\\python\\WebSpider\\web_scrapy\\爬取拉勾网_crawlspider\\lagou_cookies\\123'+cookie['name']+'.lagou','wb')
pickle.dump(cookie,f)
f.close()
cookie_dict[cookie['name']]=cookie['value']
browser.close()
return [scrapy.Request(url=self.start_urls[0], dont_filter=True, cookies=cookie_dict)]

0 回复有任何疑惑可以回复我~

收起回答

bobby #1
```
是否在settings中设置了 cookie_enabled为true
```
回复有任何疑惑可以回复我~ 2018-05-21 14:05:25
提问者 qq_流行前线_0 回复 bobby #2
```
设置了，老师。
```
回复有任何疑惑可以回复我~ 2018-05-22 19:53:17

bobby 2018-05-15 17:42:58

你看一下5-2章节我模拟登录过知乎拉勾网逻辑是一样的

0 回复有任何疑惑可以回复我~

收起回答

老师，教程里面的爬取拉勾网的代码不能使用了，CrawlSpider怎么实现拉钩网的模拟登陆呢？

正在回答回答被采纳积分+3

2回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空