Python 3.6 中使用pdfminer解析pdf文件

shuai1234

浏览: 986615 次
性别:
来自: 山西

最近访客更多访客>>

tangang

shnsvyu

zhoukunhy

__点__

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

所使用python环境为最新的3.6版本

一、安装pdfminer模块

安装anaconda后，直接可以通过pip安装

pip install pdfminer3k

如上图所示安装成功。

二、在IDE中进行编码

#!/usr/bin/env python

# encoding: utf-8

"""

@author: wugang

@software: PyCharm

@file: prase_pdf.py

@time: 2017/3/3 0003 11:16

"""

import sys

import importlib

importlib.reload(sys)

from pdfminer.pdfparser import PDFParser,PDFDocument

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LTTextBoxHorizontal,LAParams

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

'''

解析pdf 文本，保存到txt文件中

'''

path = r'../../data/pdf/阿里巴巴Java开发规范手册.pdf'

def parse():

fp = open(path, 'rb') # 以二进制读模式打开

#用文件对象来创建一个pdf文档分析器

praser = PDFParser(fp)

# 创建一个PDF文档

doc = PDFDocument()

# 连接分析器与文档对象

praser.set_document(doc)

doc.set_parser(praser)

# 提供初始化密码

# 如果没有密码就创建一个空的字符串

doc.initialize()

# 检测文档是否提供txt转换，不提供就忽略

if not doc.is_extractable:

raise PDFTextExtractionNotAllowed

else:

# 创建PDf 资源管理器来管理共享资源

rsrcmgr = PDFResourceManager()

# 创建一个PDF设备对象

laparams = LAParams()

device = PDFPageAggregator(rsrcmgr, laparams=laparams)

# 创建一个PDF解释器对象

interpreter = PDFPageInterpreter(rsrcmgr, device)

# 循环遍历列表，每次处理一个page的内容

for page in doc.get_pages(): # doc.get_pages() 获取page列表

interpreter.process_page(page)

# 接受该页面的LTPage对象

layout = device.get_result()

# 这里layout是一个LTPage对象里面存放着这个page解析出的各种对象一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等想要获取文本就获得对象的text属性，

for x in layout:

if (isinstance(x, LTTextBoxHorizontal)):

with open(r'../../data/pdf/1.txt', 'a') as f:

results = x.get_text()

print(results)

f.write(results + '\n')

if __name__ == '__main__':

parse()

---------------------

作者：W-大泡泡

来源：CSDN

原文：https://blog.csdn.net/u011389474/article/details/60139786

分享到：

Windows系统下Eclipse上搭建Python开发环 ... | Python提取PDF内容（文本、图像、线条等 ...

2019-01-22 14:50
浏览 946
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Python 3.6 中使用pdfminer解析pdf文件的实现: 本篇文章将详细讲解如何在Python 3.6环境中使用`pdfminer`来解析PDF文件。首先，我们需要安装`pdfminer`模块。在Python 3.6环境下，可以使用`pip`来安装，命令是`pip install pdfminer3k`。确保你的Python环境已经...

Python_Web开发实战.扫描pdf: - 对上传的每个PDF文件，使用PyPDF2读取并合并到一个新的PDF文件中。 - 最后将合并后的PDF文件返回给用户下载。 #### 案例二：PDF文档分析系统另一个应用场景是创建一个PDF文档分析系统，该系统可以从PDF文件中...

mozillazg_python-pinyin_1741402107.zip: python学习资源

jfinal-undertow 用于开发、部署由 jfinal 开发的 web 项目: jfinal-undertow 用于开发、部署由 jfinal 开发的 web 项目

基于Andorid的音乐播放器项目设计（国外开源）.zip: 基于Andorid的音乐播放器项目设计（国外开源）实现源码，主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者，也可作为课程设计、期末大作业。

编程语言_Python_魔法方法_实用指南_1741403704.zip: python学习资源

egrcc_zhihu-python_1741402151.zip: python学习资源

Python开发_机器学习_自动化处理_项目演示_1741398786.zip: python学习一些项目和资源

【毕业设计】java-springboot+vue家具销售平台实现源码（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计】java-springboot+vue家具销售平台实现源码（完整前后端+mysql+说明文档+LunW）.zip

淘立方销售网站（HTML开发）: HTML+CSS+JavaScarip开发的前端网页源代码

NET集成Python引擎技术_PythonNet_多语言开_1741400058.zip: python学习资源

【毕业设计】java-springboot-vue健身房信息管理系统源码（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计】java-springboot-vue健身房信息管理系统源码（完整前后端+mysql+说明文档+LunW）.zip

成绩管理系统C/Go 大学生期末小作业，指针实现，C语言版本(ANSI C)和Go语言版本: 成绩管理系统C/Go。大学生期末小作业，指针实现，C语言版本(ANSI C)和Go语言版本

1_基于大数据的智能菜品个性化推荐与点餐系统的设计与实现.docx: 1_基于大数据的智能菜品个性化推荐与点餐系统的设计与实现.docx

【毕业设计】java-springboot-vue交流互动平台实现源码（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计】java-springboot-vue交流互动平台实现源码（完整前后端+mysql+说明文档+LunW）.zip

高并发秒杀抢购系统选型与库存管理机制分析: 内容概要：本文主要探讨了在高并发情况下如何设计并优化火车票秒杀系统，确保系统的高性能与稳定性。通过对比分析三种库存管理模式（下单减库存、支付减库存、预扣库存），强调了预扣库存结合本地缓存及远程Redis统一库存的优势，同时介绍了如何利用Nginx的加权轮询策略、MQ消息队列异步处理等方式降低系统压力，保障交易完整性和数据一致性，防止超卖现象。适用人群：具有一定互联网应用开发经验的研发人员和技术管理人员。使用场景及目标：适用于电商、票务等行业需要处理大量瞬时并发请求的业务场景。其目标在于通过合理的架构规划，实现在高峰期保持平台的稳定运行，保证用户体验的同时最大化销售额。其他说明：文中提及的技术细节如Epoll I/O多路复用模型以及分布式系统中的容错措施等内容，对于深入理解大规模并发系统的构建有着重要指导意义。

基于 OpenCV 和 PyTorch 的深度车牌识别: 基于 OpenCV 和 PyTorch 的深度车牌识别

【毕业设计-java】springboot-vue教学资料管理系统实现源码（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计-java】springboot-vue教学资料管理系统实现源码（完整前后端+mysql+说明文档+LunW）.zip

出租车行程详细信息的数据集（1048K+记录，5特征）CSV: 此数据集包含有关出租车行程的详细信息，包括乘客人数、行程距离、付款类型、车费金额和行程时长。它可用于各种数据分析和机器学习应用程序，例如票价预测和乘车模式分析。

调用DeepSeek的VBA代码: 把代码放到Word中，通过开发工具——Visual Basic——插入模块，粘贴在里在，把在硅基流动中申请的API放到VBA代码中。在Word中，选择一个问题，运行这个DeepSeekV3的宏就可以实现在线问答

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论