因需要收集中英菜单数据,因此搜集了二十几个菜单,全都是pdf格式,需要转成txt。拿其中一个尝试了python转换后,效果不错,因此决定批量转换。
这里选择使用pdfminer解析PDF,而且运用的还是最基本的功能,代码相对没有什么难度,不难读懂。
批量转换
即是将所有文件放在一个文件夹里读取
os.listdir返回指定的文件夹所包含的文件或文件夹的名字的列表
filenames=os.listdir(r'C:\Users\lokiii\Desktop\《美食译苑——中文菜单英文译法》')
#在文件夹里创建文件
desktop_path = "C:\\Users\\lokiii\\Desktop\\t1\\" # 新创建的txt文件的存放路径
full_path = desktop_path + name + '.txt' # 也可以创建一个.doc的word文档
f= open(full_path, 'w',encoding='utf-8')
完整代码
#!/usr/bin/python
# -*- coding: utf-8 -*-
import os
import sys
import importlib
importlib.reload(sys)
from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import *
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
'''
解析pdf文件,获取文件中包含的各种对象
'''
# 解析pdf文件函数
def parse(name):
#path = "C:\\Users\\lokiii\\Desktop\\pdftxt\\"
path = "C:\\Users\\lokiii\\Desktop\\《美食译苑——中文菜单英文译法》\\"
pdf_path = path+name
fp = open(pdf_path, 'rb') # 以二进制读模式打开
# 用文件对象来创建一个pdf文档分析器
parser = PDFParser(fp)
# 创建一个PDF文档
doc = PDFDocument()
# 连接分析器 与文档对象
parser.set_document(doc)
doc.set_parser(parser)
# 提供初始化密码
# 如果没有密码 就创建一个空的字符串
doc.initialize()
print(name)
# 检测文档是否提供txt转换,不提供就忽略
if not doc.is_extractable:
raise PDFTextExtractionNotAllowed
else:
# 创建PDf 资源管理器 来管理共享资源
rsrcmgr = PDFResourceManager()
# 创建一个PDF设备对象
laparams = LAParams()
device = PDFPageAggregator(rsrcmgr, laparams=laparams)
# 创建一个PDF解释器对象
interpreter = PDFPageInterpreter(rsrcmgr, device)
# 用来计数页面,图片,曲线,figure,水平文本框等对象的数量
num_page, num_image, num_curve, num_figure, num_TextBoxHorizontal,count = 0, 0, 0, 0, 0,0
desktop_path = "C:\\Users\\lokiii\\Desktop\\t1\\" # 新创建的txt文件的存放路径
full_path = desktop_path + name + '.txt' # 也可以创建一个.doc的word文档
f= open(full_path, 'w',encoding='utf-8')
# 循环遍历列表,每次处理一个page的内容
for page in doc.get_pages(): # doc.get_pages() 获取page列表
num_page += 1 # 页面增一
interpreter.process_page(page)
# 接受该页面的LTPage对象
layout = device.get_result()
for x in layout:
if isinstance(x,LTImage): # 图片对象
num_image += 1
if isinstance(x,LTCurve): # 曲线对象
num_curve += 1
if isinstance(x,LTFigure): # figure对象
num_figure += 1
if isinstance(x, LTTextBoxHorizontal): # 获取文本内容
num_TextBoxHorizontal += 1 # 水平文本框对象增一
# 保存文本内容
#with open(r'C:\Users\lokiii\Desktop\test.txt', 'a',encoding='utf-8') as f: #生成doc文件的文件名及路径
results = (x.get_text()).strip()
if results.isdigit():
count += 1
else:
f.write(results)
f.write('\n\n')
#print(type(results))
print('\n对象数量:\n','页面数:%s\n'%num_page,'图片数:%s\n'%num_image,'曲线数:%s\n'%num_curve,'水平文本框:%s\n'%num_TextBoxHorizontal,'数字:%s\n'%count)
f.close()
if __name__ == '__main__':
#pdf_path = r'C:\Users\lokiii\Desktop\guangzhou-restaurant-jiang-dim-sum.pdf' #pdf文件路径及文件名
#pdf_path = r'C:\Users\lokiii\Desktop\hong-kong-restaurant-man-wah-a-la-cart-menu.pdf
#filenames=os.listdir(r'C:\Users\lokiii\Desktop\pdftxt')
filenames=os.listdir(r'C:\Users\lokiii\Desktop\《美食译苑——中文菜单英文译法》')
for name in filenames:
parse(name.strip())