采用selenium爬取拉勾-慕课网

class LagouSpider(CrawlSpider): name = 'lagou' allowed_domains = ['www.lagou.com'] start_urls = ['https://www.lagou.com/'] rules = ( Rule(LinkExtractor(allow=('zhaopin/.*',)),follow=True), Rule(LinkExtractor(allow=('gongsi/v1/j\d+.html',)),follow=True), Rule(LinkExtractor(allow=r'jobs/\d+.html'), callback='parse_job', follow=True), ) def __init__(self): chrome_option = Options() chrome_option.add_argument("--disable-extensions") chrome_option.add_experimental_option("debuggerAddress", "127.0.0.1:9222") self.broswer = webdriver.Chrome(executable_path="D:/pythonProject/ArticleSpider/chromedriver.exe", chrome_options=chrome_option) super(LagouSpider, self).__init__() try: self.broswer.maximize_window() except: pass self.fail_urls = [] # 创建一个变量来储存404URL self.url = 'https://passport.lagou.com/login/login.html' self.cookies_dict = {} self.cookies = [] dispatcher.connect(self.handle_spider_closed, signals.spider_closed) def handle_spider_closed(self, spider, reason): self.crawler.stats.set_value("failed_urls", ",".join(self.fail_urls)) def login(self): def parse(self, response): """ 1. 获取文章列表页中的职位url并交给scrapy下载后并进行解析 2. 获取下一页的url并交给scrapy进行下载，下载完成后交给parse """ # 解析列表页中的所有职位url并交给scrapy下载后并进行解析 def start_requests(self): # 从文件中读取cookie yield scrapy.Request(self.broswer.current_url, dont_filter=True,cookies=self.cookies_dict,headers=self.headers) def parse_job(self, response): # 解析拉勾职位信息

class JSPageMiddleware: # 通过chrome请求动态网页 def process_request(self, request, spider): if spider.name == "lagou": spider.browser.get(request.url) time.sleep(3) print("访问:{0}".format(request.url)) return HtmlResponse(url=spider.browser.current_url, body=spider.browser.page_source,encoding="utf-8", request=request)

2021-03-22 20:50:20 [scrapy.core.scraper] ERROR: Error downloading <GET https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=> Traceback (most recent call last): File "D:\pythonProject\venv\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks result = g.send(result) File "D:\pythonProject\venv\lib\site-packages\scrapy\core\downloader\middleware.py", line 36, in process_request response = yield deferred_from_coro(method(request=request, spider=spider)) File "D:\pythonProject\ArticleSpider\ArticleSpider\middlewares.py", line 127, in process_request spider.browser.get(request.url) **AttributeError: 'LagouSpider' object has no attribute 'browser'** 2021-03-22 20:50:20 [scrapy.core.engine] INFO: Closing spider (finished) 2021-03-22 20:50:20 [scrapy.statscollectors] INFO: Dumping Scrapy stats: {'downloader/exception_count': 1, 'downloader/exception_type_count/builtins.AttributeError': 1, 'elapsed_time_seconds': 0.219971, 'finish_reason': 'finished', 'finish_time': datetime.datetime(2021, 3, 22, 12, 50, 20, 814227), 'log_count/DEBUG': 10, 'log_count/ERROR': 1, 'log_count/INFO': 10, 'scheduler/dequeued': 1, 'scheduler/dequeued/memory': 1, 'scheduler/enqueued': 1, 'scheduler/enqueued/memory': 1, 'start_time': datetime.datetime(2021, 3, 22, 12, 50, 20, 594256)} 2021-03-22 20:50:20 [scrapy.core.engine] INFO: Spider closed (finished)

2回答

bobby 回答被采纳获得+3积分 2021-03-24 11:05:03

先安装依赖
pip install undetected-chromedriver
lagou.py

# -*- coding: utf-8 -*-
import pickle
import os
from datetime import datetime
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

from items import LagouJobItemLoader, LagouJobItem
from ArticleSpider.utils.common import get_md5
from settings import BASE_DIR
import undetected_chromedriver as uc
from scrapy.xlib.pydispatch import dispatcher
from scrapy import signals

class LagouSpider(CrawlSpider):
    name = 'lagou'
    allowed_domains = ['www.lagou.com']
    start_urls = ['https://www.lagou.com/beijing/']

    rules = (
        Rule(LinkExtractor(allow=("zhaopin/.*",)), follow=True),
        Rule(LinkExtractor(allow=("gongsi/j\d+.html",)), follow=True),
        Rule(LinkExtractor(allow=r'jobs/\d+.html'), callback='parse_job', follow=True),
    )

    def __init__(self, *a, **kw):
        super().__init__(*a, **kw)
        self.browser = uc.Chrome()
        super(LagouSpider, self).__init__()
        dispatcher.connect(self.spider_closed, signals.spider_closed)

    def spider_closed(self, spider):
        #当爬虫退出的时候关闭chrome
        print ("spider closed")
        self.browser.quit()

    def parse(self, response):
        pass

    def parse_job(self, response):
        pass

其他的和你给的一样
这样就可以使用selenium防止被禁解析规则自己完善一下就行了

0 回复有任何疑惑可以回复我~

收起回答

提问者慕的地5536528 #1
```
非常感谢！
```
回复有任何疑惑可以回复我~ 2021-03-26 15:46:25
慕姐8741563 回复提问者慕的地5536528 #2
```
你可以了吗？我还是不行
```
回复有任何疑惑可以回复我~ 2021-04-05 17:09:48
bobby 回复慕姐8741563 #3
```
你运行的时候有什么报错？
```
回复有任何疑惑可以回复我~ 2021-04-06 14:53:42

点开查看后面2条评论

慕姐8741563 2021-04-05 14:09:35

姐妹，你写了拉勾的模拟登录吗？

0 回复有任何疑惑可以回复我~

收起回答

采用selenium爬取拉勾

正在回答

2回答

相似问题

请选择置顶位置

本课精华内容

Missing argument grant_type

MysqlTwistedPipline的对象没有cursor属性

知乎answer提取不到

为什么知乎数据导入不到MySQL数据库中？

运行 scrapy crawl jobbole 报错

【讨论题】你认为什么是 JS 逆向？

有没有方法可以比较准确的解析出 title 和正文内容

如何将数据的保存和抓取独立出来？

如何将 nodejs 服务集成进来呢？

【讨论题】字体反爬应该如何解析？

热搜

最近搜索清空