内容目录
原文链接:http://www.juzicode.com/python-tutorial-zip-unzip-zipfile
本文介绍zipfile模块的使用,zipfile可以用来解压或压缩zip格式的文档。
1、判断是否为zip格式的文件
使用is_zipfile(文件路径)返回True表示为zipfile模块支持的zip文件,否则为不支持的文件。下面这个例子分别判断zip格式和用7zip压缩生成的7z格式的2个文件是否为zip文件:
import zipfile
print('files.7z is_zipfile():',zipfile.is_zipfile('files.7z'))
print('files.zip is_zipfile():',zipfile.is_zipfile('files.zip'))
运行结果:
files.7z is_zipfile(): False
files.zip is_zipfile(): True
如果不确定一个文件是否能用zipfile模块操作,可以在使用前用 is_zipfile() 检查是否为zip格式的文件。
2、获取zip文件信息、解压文件
2.1、创建ZipFile实例
首先用ZipFile()创建一个文件实例zf,传入文件名,mode入参默认为读模式:mode=’r’,可以不写。
import zipfile
zf = zipfile.ZipFile('files.zip')
print(type(zf))
运行结果:
<class 'zipfile.ZipFile'>
2.2、查看zip文件信息
通过namelist()方法可以查看文件清单,infolist()方法则返回内部文件的信息列表,可以查看文件大小、CRC、文件名称等,这里压缩文档files.zip的结构如下图:
juzicode.com / VX:桔子code
import zipfile
zf = zipfile.ZipFile('files.zip')
print(type(zf))
#查看文件清单
print(zf.namelist())
#查看内部文件信息
for info in zf.infolist():
print(info)
print('filename:',info.filename) #文件名称
print('compress_type:',info.compress_type)#压缩类型
print('is_dir:',info.is_dir()) #是否为路径
print('file_size:',info.file_size) #文件原始大小
print('compress_size:',info.compress_size) #文件压缩后大小
print('CRC:',info.CRC) #crc
运行结果:
<class 'zipfile.ZipFile'>
['files/', 'files/1.txt', 'files/2.txt', 'files/3.bmp']
<ZipInfo filename='files/' external_attr=0x10>
filename: files/
compress_type: 0
is_dir: True
file_size: 0
compress_size: 0
CRC: 0
<ZipInfo filename='files/1.txt' external_attr=0x20 file_size=20>
filename: files/1.txt
compress_type: 0
is_dir: False
file_size: 20
compress_size: 20
CRC: 2536054424
<ZipInfo filename='files/2.txt' external_attr=0x20 file_size=12>
filename: files/2.txt
compress_type: 0
is_dir: False
file_size: 12
compress_size: 12
CRC: 3281828313
<ZipInfo filename='files/3.bmp' compress_type=deflate external_attr=0x20 file_size=2847150 compress_size=3461>
filename: files/3.bmp
compress_type: 8
is_dir: False
file_size: 2847150
compress_size: 3461
CRC: 1274188157
2.3、解压文件
使用extractall(path=None, members=None, pwd=None)方法解压文件。
如果不带path入参,默认解压到当前工作目录,如果带path参数则解压到path所表示的路径,没有该路径还会创建该路径。
import zipfile
zf = zipfile.ZipFile('files.zip')
ret=zf.extractall() #解压到当前工作目录
print(ret)
ret=zf.extractall(path='E:\\juzicode\\unzip')#解压到指定目录
print(ret)
运行结果显示extractall() 总是返回None。
members参数为 infolist() 返回的ZipInfo实例或者文件名称列表,假设知道压缩文档中包含:’files/1.txt’,’files/2.txt’,则可以指定members=[‘files/1.txt’,’files/2.txt’]解压这2个文件,或者使用members=zf.infolist()[:2]解压压缩文档中前2个文件:
import zipfile
zf = zipfile.ZipFile('files.zip')
ret=zf.extractall(path='E:\\juzicode\\unzip1',members=zf.infolist()[:2])
print(ret)
ret=zf.extractall(path='E:\\juzicode\\unzip2',members=['files/1.txt','files/2.txt'])
print(ret)
另外还可以使用extract(member, path=None, pwd=None)解压member表示的单个文件。
其中path变量的功能和ectractall()一样。
member参数可以用压缩文档中的单个文件名member=‘files/1.txt’,或者用单个ZipInfo实例member=zf.infolist()[2],这里注意和extractall()的差异,在extractall()方法里的members参数用的是列表表示多个文件。
#juzicode.com / VX:桔子code
import zipfile
zf = zipfile.ZipFile('files.zip')
ret=zf.extract('files/1.txt',path='unzip1')
print(ret)
ret=zf.extract(zf.infolist()[3],path='unzip2')
print(ret)
运行结果:
unzip1\files\1.txt #member='files/1.txt'
unzip2\files\3.bmp #member=zf.infolist()[3]
extract()方法会返回解压缩文档的名称,这点和extractall()有差异。
另外需要注意的是压缩文档可能是来自不同的操作系统,也可能是来自不可信的其他来源,为了安全考虑压缩文档中某些特殊路径在解压缩后会做特殊处理。比如windows系统的盘符以及linux系统的根目录解压后都会去除。另外如果包含..表示的上一层目录也会去掉,而windows下非法的字符会被下划线替代。
3、压缩文件
这里的例子中原始文件结构如下,在files目录下包含了3个文件:
E:\juzicode>tree files /f
E:\JUZICODE\FILES
1.txt
2.txt
3.bmp
3.1、write()方法
首先用ZipFile()创建一个文件实例zf,传入压缩文件名,mode=’w’表示要创建压缩文档。
然后使用write()传入文件名称,写入压缩文档。
最后用close()关闭压缩文档。
#juzicode.com / VX:桔子code
import zipfile
zf = zipfile.ZipFile('files2.zip', mode = 'w')
zf.write('files/1.txt') #写入压缩文档
zf.write('files/2.txt')
zf.close() #如果后面要再次打开files2.zip,这行是必须的
可以读出刚才创建压缩文档的文件信息:
zf = zipfile.ZipFile('files2.zip', mode = 'r')
for info in zf.infolist():
print(info)
print('filename:',info.filename) #文件名称
print('compress_type:',info.compress_type)#压缩类型
print('is_dir:',info.is_dir()) #是否为路径
print('file_size:',info.file_size) #文件原始大小
print('compress_size:',info.compress_size) #文件压缩后大小
print('CRC:',info.CRC) #crc
zf.close()
运行结果:
<ZipInfo filename='files/1.txt' filemode='-rw-rw-rw-' file_size=20>
filename: files/1.txt
compress_type: 0
is_dir: False
file_size: 20
compress_size: 20
CRC: 2536054424
<ZipInfo filename='files/2.txt' filemode='-rw-rw-rw-' file_size=12>
filename: files/2.txt
compress_type: 0
is_dir: False
file_size: 12
compress_size: 12
CRC: 3281828313
另外write()方法压缩文件时,还支持使用arcname修改压缩文档中的名称,比如下面这个例子中将未压缩文件files/1.txt经过压缩后在压缩文档中变成了files1/1ac.txt。
import zipfile
zf = zipfile.ZipFile('files2.zip', mode = 'w')
zf.write('files/1.txt',arcname='files/1ac.txt')
zf.write('files/2.txt')
zf.write('files/3.bmp')
zf.close()
运行后看到的压缩文件结构:
当使用arcname修改文档名称时,如果包含了盘符或者根目录,出于安全考虑将会去掉盘符或根目录:
#juzicode.com / VX:桔子code
import zipfile
zf = zipfile.ZipFile('files2.zip', mode = 'w')
zf.write('files/1.txt',arcname='e:/juzicode/1ac.txt')
zf.write('files/2.txt',arcname='/juzicode/2ef.txt')
zf.write('files/3.bmp')
zf.close()
运行后看到的压缩文件结构:
从这个例子可以看到盘符e:/和根目录/在压缩文档中都消失了。
但是如果使用了上层目录字符:“..” ,或者使用”* ?”等操作系统不识别的字符,压缩文档中仍然按照原样方式照常写入,只是在解压缩的时候会按照前面extract()或者extractall()方法中提到的规则去除或替代。
#juzicode.com / VX:桔子code
import zipfile
zf = zipfile.ZipFile('files3.zip', mode = 'w')
zf.write('files/1.txt',arcname='../juzicode/1ac.txt')
zf.write('files/2.txt',arcname='2ef*.txt')
zf.write('files/3.bmp',arcname='3?xy.bmp')
zf.close()
运行后看到的压缩文件结构:
3.2、writestr()方法
writestr()方法和write()方法的流程大致相同:
首先用ZipFile()创建一个文件实例zf,传入压缩文件名,mode=’w’表示要创建压缩文档。
然后用writestr()写文件,第一个入参为文件名称或者ZipInfo实例,第2个入参data为字符串或者二进制数值。
最后用close()关闭压缩文档。
#juzicode.com / VX:桔子code
import zipfile
pf = open('files/3.bmp','rb')
zf = zipfile.ZipFile('files1.zip', mode = 'w')
zf.writestr('files/123.txt','123567') #字符串
zf.writestr('files/123.bmp',pf.read()) #bytes
pf.close()
zf.close()
运行后生成的压缩文件结构:
这个例子中生成了2个文件,一个为txt文本文件,写入的内容为字符串,一个为bmp图片文件,写入的是bytes类型的数据。