Scrapy 扩展中间件: 同步/异步提交批量 item 到 MySQL

枫铃3年前 (2021-06-26)Python320

0.参考

https://doc.scrapy.org/en/latest/topics/item-pipeline.html?highlight=mongo#write-items-to-mongodb

20180721新增：异步版本

https://twistedmatrix.com/documents/15.3.0/core/howto/rdbms.html

https://twistedmatrix.com/documents/18.7.0/api/twisted.python.failure.Failure.html

https://twistedmatrix.com/documents/12.1.0/core/howto/time.html

1.主要实现

(1) 连接超时自动重连 MySQL server

(2) 通过 item_list 收集 item，达到阈值后批量提交至数据库

(3) 通过解析异常，自动移除存在异常的数据行，重新提交 item_list

(4) shutdown 之前在 close_spider() 中提交当前 item_list

(5) 20180721新增：异步版本

2.同步版本

保存至 /site-packages/my_pipelines.py

'''
遇到问题没人解答？小编创建了一个Python学习交流QQ群：857662006 
寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！
'''
from socket import gethostname
import time
import re
from html import escape

import pymysql
pymysql.install_as_MySQLdb()
from pymysql import OperationalError, InterfaceError, DataError, IntegrityError


class MyMySQLPipeline(object):

    hostname = gethostname()

    def __init__(self, settings):
        self.mysql_host = settings.get('MYSQL_HOST', '127.0.0.1')
        self.mysql_port = settings.get('MYSQL_PORT', 3306)
        self.mysql_user = settings.get('MYSQL_USER', 'username')
        self.mysql_passwd = settings.get('MYSQL_PASSWD', 'password')
        self.mysql_reconnect_wait = settings.get('MYSQL_RECONNECT_WAIT', 60)

        self.mysql_db = settings.get('MYSQL_DB')
        self.mysql_charset = settings.get('MYSQL_CHARSET', 'utf8')  #utf8mb4
        self.mysql_item_list_limit = settings.get('MYSQL_ITEM_LIST_LIMIT', 30)

        self.item_list = []


    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            settings = crawler.settings
        )


    def open_spider(self, spider):
        try:
            self.conn = pymysql.connect(
                host = self.mysql_host,
                port = self.mysql_port,
                user = self.mysql_user,
                passwd = self.mysql_passwd,
                db = self.mysql_db,
                charset = self.mysql_charset,
            )
        except Exception as err:
            spider.logger.warn('MySQL: FAIL to connect {} {}'.format(err.__class__, err))
            time.sleep(self.mysql_reconnect_wait)
            self.open_spider(spider)
        else:
            spider.logger.info('MySQL: connected')

            self.curs = self.conn.cursor(pymysql.cursors.DictCursor)
            spider.curs = self.curs


    def close_spider(self, spider):
        self.insert_item_list(spider)
        self.conn.close()
        spider.logger.info('MySQL: closed')


    def process_item(self, item, spider):
        self.item_list.append(item)
        if len(self.item_list) >= self.mysql_item_list_limit:
            self.insert_item_list(spider)

        return item


    def sql(self):
        raise NotImplementedError('Subclass of MyMySQLPipeline must implement the sql() method')


    def insert_item_list(self, spider):
        spider.logger.info('insert_item_list: {}'.format(len(self.item_list)))
        try:
            self.sql()
        except (OperationalError, InterfaceError) as err:
            # <class 'pymysql.err.OperationalError'> 
                # (2013, 'Lost connection to MySQL server during query ([Errno 110] Connection timed out)')
            spider.logger.info('MySQL: exception {} err {}'.format(err.__class__, err))
            self.open_spider(spider)
            self.insert_item_list(spider)
        except Exception as err:
            if len(err.args) == 2 and isinstance(err.args[1], str):
                # <class 'pymysql.err.DataError'> 
                    # (1264, "Out of range value for column 'position_id' at row 2")
                # <class 'pymysql.err.InternalError'> 
                    # (1292, "Incorrect date value: '1977-06-31' for column 'release_day' at row 26")
                m_row = re.search(r'at\s+row\s+(\d+)$', err.args[1])
                # <class 'pymysql.err.IntegrityError'> 
                    # (1048, "Column 'name' cannot be null") films 43894
                m_column = re.search(r"Column\s'(.+)'", err.args[1])

                if m_row:
                    row = m_row.group(1)
                    item = self.item_list.pop(int(row) - 1)
                    spider.logger.warn('MySQL: {} {} exception from item {}'.format(err.__class__, err, item))
                    self.insert_item_list(spider)
                elif m_column:
                    column = m_column.group(1)
                    item_list = []
                    for item in self.item_list:
                        if item[column] == None:
                            item_list.append(item)
                    for item in item_list:
                        self.item_list.remove(item)
                        spider.logger.warn('MySQL: {} {} exception from item {}'.format(err.__class__, err, item))
                    self.insert_item_list(spider)
                else:
                    spider.logger.error('MySQL: {} {} unhandled exception from item_list: \n{}'.format(
                                        err.__class__, err, self.item_list))
            else:
                spider.logger.error('MySQL: {} {} unhandled exception from item_list: \n{}'.format(
                                        err.__class__, err, self.item_list))
        finally:
            self.item_list.clear()

3.调用方法

Scrapy 项目 project_name

MySQL 数据库 database_name，表 table_name

(1) 项目 pipelines.py 添加代码：

'''
遇到问题没人解答？小编创建了一个Python学习交流QQ群：857662006 
寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！
'''
from my_pipelines import MyMySQLPipeline


class MySQLPipeline(MyMySQLPipeline):

    def sql(self):
        self.curs.executemany("""
            INSERT INTO table_name (
                position_id, crawl_time)
            VALUES (
                %(position_id)s, %(crawl_time)s)
            alt="img" /> 
在 self.item_list.append(item) 之后 添加代码 spider.logger.info(‘process_item: {}’.format(len(self.item_list))) 打印添加 item 后的当前 item_list 元素个数 
连续 yield 5个 item，累计3个则触发 insert，红框 insert 部分将会阻塞绿框中后续 yield 部分： 
 
5.异步版本 
(1) 保存至 /site-packages/my_pipelines.py 
'''
遇到问题没人解答？小编创建了一个Python学习交流QQ群：857662006 
寻找有志同道合的小伙伴，互帮互助,群里还有不错的视频学习教程和PDF电子书！
'''
# -*- coding: utf-8 -*-
from socket import gethostname
import time
import re

# https://twistedmatrix.com/documents/15.3.0/core/howto/rdbms.html
#   twisted.enterprise.adbapi: Twisted RDBMS support
from twisted.enterprise import adbapi
import pymysql
from pymysql import OperationalError, InterfaceError, DataError, InternalError, IntegrityError


class MyMySQLPipeline(object):

    hostname = gethostname()

    def __init__(self, spider, settings):
        self.spider = spider
        
        self.dbpool = adbapi.ConnectionPool('pymysql',
            host = settings.get('MYSQL_HOST', '127.0.0.1'),
            port = settings.get('MYSQL_PORT', 3306),
            user = settings.get('MYSQL_USER', 'username'),
            passwd = settings.get('MYSQL_PASSWD', 'password'),
            db = settings.get('MYSQL_DB', 'test'),
            charset = settings.get('MYSQL_CHARSET', 'utf8'), #utf8mb4
            
            cursorclass = pymysql.cursors.DictCursor
        )
        self.mysql_reconnect_wait = settings.get('MYSQL_RECONNECT_WAIT', 60)
        self.mysql_item_list_limit = settings.get('MYSQL_ITEM_LIST_LIMIT', 30)
        self.item_list = []


    @classmethod
    def from_crawler(cls, crawler):
        return cls(
            spider = crawler.spider,
            settings = crawler.settings
        )


    def close_spider(self, spider):
        self._sql(list(self.item_list))


    def process_item(self, item, spider):
        self.item_list.append(item)
        
        if len(self.item_list) >= self.mysql_item_list_limit:
            spider.log('item_list: %s'%len(self.item_list))
            self._sql(list(self.item_list))
            self.item_list.clear()

        return item


    def sql(self, txn, item_list):
        raise NotImplementedError('Subclass of MyMySQLPipeline must implement the sql() method')


    def _sql(self, item_list, retrying=False):
        d = self.dbpool.runInteraction(self.sql, item_list)
        d.addCallback(self.handle_result, item_list)
        d.addErrback(self.handle_error, item_list, retrying)
        

    def handle_result(self, result, item_list):
        self.spider.logger.info('{} items inserted with retcode {}'.format(len(item_list), result))


    def handle_error(self, failure, item_list, retrying):
        # https://twistedmatrix.com/documents/18.7.0/api/twisted.python.failure.Failure.html
        # r = failure.trap(pymysql.err.InternalError)

        args = failure.value.args
        
        # <class 'pymysql.err.OperationalError'> (1045, "Access denied for user 'username'@'localhost' (using password: YES)")
        # <class 'pymysql.err.OperationalError'> (2013, 'Lost connection to MySQL server during query ([Errno 110] Connection timed out)')
        # <class 'pymysql.err.OperationalError'> (2003, "Can't connect to MySQL server alt="img" /> 
另外可见使用了连接池



	相关文章
	

						scrapy爬取某招聘网手机APP发布信息
						1 引言  过段时间要开始找新工作了，爬取一些岗位信息来分析一下吧。目前主流的招聘网站包括前程无忧、智联、BOSS直聘、拉勾等等。有段时间时...
				

						python中的try...except...finally函数的用法
						异常Error 我们在...
				

						Python Sphinx使用踩坑记录
						描述 使用 pip 安装sphinx后，按照教程建立了一个新的py文件，如下 # run.py def run(name):...
				

						python教程：super()的用法
						super()是用来调用...
				

						python文件操作与路径
						一.打开和关闭文件 方...
				

						【Python教程】 re 模块中findall() 函数返回值展现方式的用法详解
						findall 函数&#...
				
	

            
        
	        


    
        发表评论
    
    
        
        
            
            
			
			
			
            
                名称(*)
                                                				验证码(*)
				            
            
                
                ◎欢迎参与讨论，请在这里发表您的看法和观点。



    

    便宜VPS、站长推荐
    
        		




				    

    最近发表
    
        				【 Linux 】重启 docker 容器
免费网盘：InfiniCLOUD – 永久免费45GB，支持WebDAV
V2Ray搭建介绍
Clash-for-Windows安装配置教程
Linux Crontab 定时任务
Cloudflare DDNS 自动更新脚本
Armbian 支持晶晨 a311d, s922x, s905x3, s905x2, s905l3a, s912, s905d, s905x等
什么是Armbian
祝大家兔飞猛进
ADB 命令大全

		    

    网站分类
    
        				资源分享
网络随笔
学习笔记
Python
Linux

		    

    标签列表
    
        				lnmp (1)
添加主机 (1)
删除主机 (1)
伪静态管理 (1)
zblogphp (1)
伪静态规则 (1)
PHP (1)
300M (1)
BT (1)
免费空间 (1)
idc.ke (1)
python (950)
美文 (5)
pacificrack (8)
vps (4)
PacificRack (7)
云服务器 (2)
七夕优惠 (1)
windows (1)
google (1)
rdp (1)
google rdp (1)
优惠码 (5)
linux (2)
Markdown (5)

		    

    最新留言
    
        				晶晨芯片s9xx，欢迎下载使用
岸边armbian 机顶盒刷机固件下载 https://github.com/ripncn/amlogic-s9xxx-armbian/releases
图床2，免费5G空间
免费申请Typecho博客空间，支持绑定顶级域名，演示：http://lovou.typecho.space申请简单，地址：http://free.typecho.space有需要的同学可以去申请一个
已经关闭了，可惜
1CPU 0.5G RAM 10G SSD 100Mbps 500GB $8/年 涨价了，$10/年
申请了一个F型免费空间，准备弄个在线OA测试下



	
    
        Copyright xongyi.com Some Rights Reserved. Contact me：ripncn#qq.com (#to@) QQ: 2317881738
        Powered By Z-BlogPHP. Theme by TOYEAN.

枫铃博客

Scrapy 扩展中间件: 同步/异步提交批量 item 到 MySQL

0.参考

1.主要实现

2.同步版本

3.调用方法

(1) 项目 pipelines.py 添加代码：

5.异步版本

(1) 保存至 /site-packages/my_pipelines.py

相关文章

scrapy爬取某招聘网手机APP发布信息

python中的try...except...finally函数的用法

Python Sphinx使用踩坑记录

python教程：super()的用法

python文件操作与路径

【Python教程】 re 模块中findall() 函数返回值展现方式的用法详解

发表评论取消回复

Copyright xongyi.com Some Rights Reserved. Contact me：ripncn#qq.com (#to@) QQ: 2317881738

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论