Python加lxml实现图片解析下载功能

枫铃3年前 (2021-07-10)Python241

1、下载网页:OpenHtml.py

import urllib.request
from urllib.parse import quote

class HtmlLoader(object):
    def Open(self, chaper_url):
        if chaper_url is None:
            return None
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
        req = urllib.request.Request(url=chaper_url, headers=headers)
        response = urllib.request.urlopen(req)
        if response.getcode() != 200:
            return None
        return response.read()

2、解析图片:ImageAnalysis.py

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:857662006 
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
import OpenHtml
from urllib.parse import quote
import lxml.html

class Imager:
    def Analysis(self,url):
            # 解决中文搜索问题 对于:?=不进行转义
            root_url = quote(url, safe='/:?=')
            openhtml=OpenHtml.HtmlLoader()
            html = openhtml.Open(url)
            # 将HTML解析为统一的格式
            tree = lxml.html.fromstring(html)
            #  通过lxml的xpath获取src属性的值,返回一个列表
            img = tree.xpath('//img[@class="BDE_Image"]/@src')
            return  img

3、下载图片:LoadFile.py

import urllib.request as re

class Loader:
    def callback(self,a,b,c):
        '''回调函数可以用来显示进度
        @a:已经下载的数据块个数
        @b:数据块的大小
        @c:远程文件的大小
        '''
        per=100.0*a*b/c
        if per>100:
            per=100
        print('%.2f%%' % per)

    def Down(self, url, filename):
        # dir = os.path.abspath('.')
        # work_path = os.path.join(dir, 'baidu.html')
        re.urlretrieve(url, filename, self.callback)

4、启动文件,即测试文件main.py

'''
遇到问题没人解答?小编创建了一个Python学习交流QQ群:857662006 
寻找有志同道合的小伙伴,互帮互助,群里还有不错的视频学习教程和PDF电子书!
'''
#!/usr/bin/env python
# coding=utf-8

import ImageAnalysis
import LoadFile

def downimge():
    # url = "http://www.btany.com/search/桃谷绘里香-first-asc-1"
    url = "https://tieba.baidu.com/p/5475267611"
    imganalysis=ImageAnalysis.Imager()
    img=imganalysis.Analysis(url)
    # 迭代列表img,将图片保存在当前目录下
    x=0
    download=LoadFile.Loader()
    for i in img:
        download.Down(i, 'C:\\Users\\luffy\\Desktop\\img\\%s.jpg' % x)
        x += 1

if __name__ == '__main__':
    downimge()
    # download = LoadFile.Loader()
    # download.Down('http://www.python.org/ftp/python/2.7.5/Python-2.7.5.tar.bz2', 'C:\\Users\\luffy\\Desktop\\img\\Python-2.7.5.tar.bz2')

urllib模块提供的urlretrieve()函数。urlretrieve()方法直接将远程数据下载到本地。

urlretrieve(url, filename=None, reporthook=None, data=None)

  • 参数filename指定了保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据。)
  • 参数reporthook是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,我们可以利用这个回调函数来显示当前的下载进度。
  • 参数data指post导服务器的数据,该方法返回一个包含两个元素的(filename, headers) 元组,filename 表示保存到本地的路径,header表示服务器的响应头

相关文章

python四种数值交换方法

两个整数变量 a ...

python 文件不存在时才能写入,读写模式xt

想向一个文件中写入数据,但是前提必须是这个文件在文件系统上不存在。也就是不允许覆盖已存在的文件内容。 可以在open() 函数中使用x 模式来...

Python logging模块日志存储位置踩坑

问题描述 项目过程中写了一个小模块,设计到了日志存储的问题,结果发现了个小问题。 代码结构如下: db.py...

python中的set类型

一. 定义 set是一...

Python之dict(或对象)与json之间的互相转化

在Python语言中,json数据与dict字典以及对象之间的转化,是必不可少的操作。 在Python中自带json库。通过im...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。