`
sillycat
  • 浏览: 2556035 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

PDFMiner读取pdf文件

阅读更多
PDFMiner读取pdf文件

文档地址:
http://www.unixuser.org/~euske/python/pdfminer/index.html

下载得到文件:
pdfminer-20100322.tar.gz

uppack it. Run setup.py to install:
E:\tools\python\pdfminer\pdfminer-20100322>python setup.py install

try the pdf2txt.py comand:
E:\tools\python\pdfminer\pdfminer-20100322>pdf2txt.py samples/simple1.pdf
Hello

World

Hello

World

H e l l o

W o r l d

H e l l o

W o r l d

解析得到了这个PDF的内容,证明我们安装成功了。

测试解析我需要解析的pdf内容:
解析保存为txt
pdf2txt.py -o "01-27 Mar 10.txt" "01-27 Mar 10.pdf"
解析保存为xml
pdf2txt.py -t xml -o "01-27 Mar 10.xml" "01-27 Mar 10.pdf"
解析保存为html
pdf2txt.py -t html -o "01-27 Mar 10.html" "01-27 Mar 10.pdf"

其中比较适合我使用的是txt,我将pdf中的文字内容解析为txt后,读取里面的信息。

参考c:\Python26\Scripts\pdf2txt.py的代码,写了个测试pdfTest.py来从pdf得到txt:
'''
Created on 2010-3-27

@author: sillycat
'''
import sys
from pdfminer.pdfparser import PDFDocument, PDFParser
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter, process_pdf
from pdfminer.pdfdevice import PDFDevice
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter, TagExtractor
from pdfminer.cmapdb import CMapDB
from pdfminer.layout import LAParams

outtype = "txt"
outfile = "d:/data/pdf1.txt"
codec = 'utf-8'
args = ['d:/data/pdf1.pdf']

rsrc = PDFResourceManager()
outfp = file(outfile, 'w')
device = TextConverter(rsrc, outfp, codec=codec, laparams=None)
for fname in args:
        fp = file(fname, 'rb')
        process_pdf(rsrc, device, fp, None, maxpages=0, password='')
        fp.close()
device.close()
outfp.close()

分享到:
评论

相关推荐

    pdfminer.six-master.zip

    通过调用相应的函数和类,可以完成从读取PDF文件到提取所需信息的整个过程。 总之,PDFminer.six是一个强大且灵活的PDF处理工具,无论是在数据分析、文本挖掘还是文档自动化处理场景中,都有广泛的应用。了解和掌握...

    PyPI 官网下载 | pdfminer-20100213.tar.gz

    `pdfminer-20100213.tar.gz` 文件是一个压缩包,包含源代码和其他构建所需的文件。 **Python 库** Python 库是预编写好的模块,可以被其他 Python 项目引用和使用,以增加功能或简化编程任务。PDFMiner 作为 ...

    Python使用PDFMiner解析PDF代码实例

    下面是一个简单的Python脚本示例,展示如何使用PDFMiner读取PDF文件并提取文本内容: ```python from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument from pdfminer.pdfpage ...

    python使用pdfminer解析pdf文件的方法示例

    1. **PDFParser**:这是从PDF文件中读取数据的类,它会解析PDF文件的内容并生成一个PDFDocument对象。 2. **PDFDocument**:这个类用于保存PDFParser解析出的数据。它维护着PDF文档的结构,并与PDFParser紧密关联。...

    python解析pdf

    下面是一个基本的Python代码示例,展示如何使用PDFMiner读取PDF文件并提取文本: ```python from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument from pdfminer.pdfinterp ...

    Python2.7读取PDF文件的方法示例

    以下是一个使用PDFMiner读取PDF文件的基本示例: ```python #!/usr/bin/env python # -*- coding:utf-8 -*- from pdfminer.pdfparser import PDFParser from pdfminer.pdfdocument import PDFDocument from pdf...

    python 使用pdfminer3k 读取PDF文档的例子

    pdfminer3k便是其中之一,它是一个纯Python编写的PDF解析库,主要用于从PDF文件中提取信息,如文本、图片、图形等。本文将详细讲解如何使用pdfminer3k库在Python中读取PDF文档,并提供实用的示例代码。 首先,我们...

    Python 3.6 中使用pdfminer解析pdf文件的实现

    with open(path, 'rb') as fp: # 打开PDF文件,以二进制读取模式 praser = PDFParser(fp) # 创建PDF解析器 doc = PDFDocument() # 创建PDF文档对象 praser.set_document(doc) # 连接解析器和文档 doc.set_...

    pdf文件(Python读取PDF表格测试集).zip

    在测试集中,我们可以使用Tabula-py来读取PDF文件中的表格,然后进行进一步的数据分析或操作。 3. PDFMiner:这个库提供了更底层的PDF解析功能,允许开发者详细地分析PDF的结构。虽然不如Tabula-py那样直接易用,但...

    py源码-识别并读取PDF中的文字.zip

    本 Python 脚本使用 pdfminer3k 库从 PDF 文件中提取文本内容。它使用默认布局参数处理 PDF,提取所有文本,包括文本、标题、页眉和页脚。 使用方法: 安装 pdfminer3k 库:pip install pdfminer3k 将 PDF 文件...

    读取pdf的位置

    在处理PDF文件时,有时我们需要获取特定文字或元素的位置坐标,以便进行自动化操作,例如自动盖章、签字等。本文将深入探讨如何获取PDF文件中指定文字的坐标,并附带相关的源码示例。 1. PDF文件结构 PDF文件由一...

    Python提取pdf文件目录_Demo源码

    在IT行业中,Python是一种广泛应用的...对于处理PDF文件的其他需求,如文本提取、页面操作等,还有如PDFMiner、pdfrw等库可供选择。理解这些工具的使用方法和它们之间的差异,能极大地提升我们在处理PDF文档时的效率。

    自动办公- PDF-识别并读取PDF中的文字

    # 使用pdfminer读取PDF def pdf_to_text(pdf_path): resource_manager = PDFResourceManager() outfp = io.StringIO() device = TextConverter(resource_manager, outfp, laparams=LAParams()) interpreter = ...

    获取pdf文件中指定文字的坐标 附源码

    例如,使用Python的PyPDF2库,可以通过`PdfFileReader`类读取PDF文件。 ```python import PyPDF2 pdf_file = open('example.pdf', 'rb') pdf_reader = PyPDF2.PdfFileReader(pdf_file) ``` 2. **获取页面信息**:...

    pdf文件时间+标题提取重命名.zip

    本话题涉及的是如何利用Python来处理PDF文件,具体是通过安装PyPDF2和pdfminer这两个库,实现PDF文件的元数据提取,特别是标题和创建时间,并依据这些信息对PDF文件进行重命名。这一操作在文件管理、文档整理以及...

    基于 python 的 pdf 文件处理程序设计.zip

    首先,我们来关注PyPDF2库,它是Python中处理PDF文件的常用库之一,主要用于读取和写入PDF文件。 1. **PyPDF2库**: - **读取PDF**:使用PyPDF2的PdfFileReader类,可以打开PDF文件并逐页读取内容。例如,`pdf_...

    Python批量提取PDF文件中文本的脚本

    这个脚本通过`pdfminer3k`库实现了Python批量提取PDF文件中文本的功能,是一个实用的工具,尤其适用于需要快速处理大量PDF文本的场景。通过阅读和理解这段代码,我们可以学习到如何使用Python进行文件操作、调用外部...

    外文PDF文件翻译器

    在实现上,这个翻译器可能运用了Python的PyPDF2库来读取和处理PDF文件,用requests库来发送HTTP请求到谷歌翻译API,同时可能使用了第三方的PDF渲染库如PDFMiner或pdf2image来处理PDF中的图像和表格,确保它们在翻译...

    python自动办公-57 PDF-识别并读取PDF中的文字

    2. **PDFMiner**: PDFMiner是Python的一个强大工具,专门用于解析PDF文件,它可以提取出精确的文本位置信息,适合于复杂的PDF文本处理。但是,PDFMiner的API相对复杂,初学者可能需要花费一些时间去学习。 3. **...

Global site tag (gtag.js) - Google Analytics