`

PyPdf:pdf页面级别处理

阅读更多
#!/usr/bin/env python
#coding=utf-8

from pyPdf import PdfFileWriter, PdfFileReader

output = PdfFileWriter()
input1 = PdfFileReader(file("c://1.pdf", "rb"))

# print the title of document1.pdf
print "title = %s" % (input1.getDocumentInfo().title)

# add page 1 from input1 to output document, unchanged
output.addPage(input1.getPage(0))

# add page 2 from input1, but rotated clockwise 90 degrees
output.addPage(input1.getPage(1).rotateClockwise(90))

# add page 3 from input1, rotated the other way:
output.addPage(input1.getPage(2).rotateCounterClockwise(90))
# alt: output.addPage(input1.getPage(2).rotateClockwise(270))

# add page 4 from input1, but first add a watermark from another pdf:
page4 = input1.getPage(3)
watermark = PdfFileReader(file("c://2.pdf", "rb"))
page4.mergePage(watermark.getPage(0))

# add page 5 from input1, but crop it to half size:
page5 = input1.getPage(4)
page5.mediaBox.upperRight = (
    page5.mediaBox.getUpperRight_x() / 2,
    page5.mediaBox.getUpperRight_y() / 2
)
output.addPage(page5)

# print how many pages input1 has:
print "document1.pdf has %s pages." % input1.getNumPages()

# finally, write "output" to document-output.pdf
outputStream = file("document-output.pdf", "wb")
output.write(outputStream)
outputStream.close()

 

分享到:
评论

相关推荐

    PyPDF2模块和英文文档

    PyPDF2是Python中用于处理PDF文件的一个强大库,它提供了许多功能,包括读取、合并、分割PDF文档,以及提取文本、元数据等。在本文中,我们将深入探讨PyPDF2模块及其类函数,帮助你更好地理解和使用这个库。 首先,...

    PyPI 官网下载 | PyPDF2-1.24.tar.gz

    然而,值得注意的是,PyPDF2并不支持PDF的编辑功能,如添加注释或图形,它主要关注文本和页面级别的操作。 总的来说,PyPDF2是一个强大且易于使用的Python库,为处理PDF文档提供了丰富的功能。1.24版本的发布意味着...

    从pdf中提取text

    PDF文档的结构分为两大部分:低级别的字节流(表示页面图像和字体)和高级别的XML标记(描述页面内容和结构)。提取文本时,我们需要理解这两种结构,并可能需要进行一些转换和解析工作。 1. **PDF解析**:PDF文件...

    Python实现PDF图片文件压缩

    Python有一些库可以帮助我们完成这项工作,比如PyPDF2用于读取和操作PDF文档,PIL(Python Imaging Library)或其分支Pillow用于处理图像,以及PIL与PDFMiner结合可以提取并修改PDF中的图像。 首先,你需要安装这些...

    菜鸟都能掌握,玩转pdf文档,把这些变成一种开发人员的技能,必备!!

    12. **PDF优化**:为了减小文件大小或提高加载速度,开发者可能需要对PDF进行优化,删除不必要的对象、压缩图像或调整压缩级别。 13. **PDF版本**:PDF有多个版本,从PDF 1.0到PDF 2.0,每个新版本都引入了新的特性...

    pdf合并_PDF合并_

    但是,通过其提供的低级别接口,可以实现PDF合并。通常需要编写自定义脚本来完成这个任务,这可能涉及到对PDF结构的深入理解。 3. **第三方库如`pdfconcat`或`PDFBox(Java)`** 如果不想手动处理PDF合并的细节,...

    PDF文件压缩 本方法适用于扫描件PDF文档压缩,可编辑PDF文档不建议使用本方法

    使用`PyPDF2`读取PDF文件,获取每个页面的图像数据。例如: ```python import PyPDF2 with open('input.pdf', 'rb') as file: pdf_reader = PyPDF2.PdfFileReader(file) num_pages = pdf_reader.getNumPages...

    python 生成pdf的report

    3. **组合页面**: 将各个元素组合到一起,形成PDF页面。 4. **样式控制**: 应用CSS样式(如果使用WeasyPrint)来控制文本和布局的外观。 5. **输出PDF**: 最后,使用库将所有内容保存为PDF文件。 在实践中,你可能...

    PDF转PNG图片

    5. **代码实现**:实现PDF转PNG的代码可能涉及使用PDF处理库,如Python的PyPDF2或PDFMiner,以及图像处理库,如PIL(Python Imaging Library)或它的分支 Pillow。这些库可以帮助读取PDF内容并将其渲染为图像。 6. ...

    用python批量给多个pdf文件加密.rar

    PyPDF2库提供了简单的方法来处理PDF文件,包括合并、分割、提取页面以及加密等操作。 首先,你需要安装PyPDF2库。在命令行或终端中输入以下命令: ```bash pip install PyPDF2 ``` 接下来,我们需要编写一个...

    python操作excel、word、pdf大全 完整版

    - PyPDF2库:主要用于PDF文件的读取和写入,可以合并PDF文件、分割页面、提取文本和元数据等。例如,`PyPDF2.PdfFileReader()`用于打开PDF文件,`reader.getPage()`获取特定页面,`reader.getPageCount()`获取总...

    imagepdf(把多个图片转一个PDF文档或多个PDF文档)

    - **图像尺寸**:确保图片尺寸与PDF页面相适应,避免过大导致页面溢出或过小看不清细节。 - **色彩匹配**:如果目标是打印,应确保图片的颜色模式与打印机兼容,一般推荐使用CMYK模式。 - **权限设置**:可以设置PDF...

    pdf设置书签

    在实际开发中,我们可能需要结合PDF处理库,如Adobe的PDF Library、PDFBox(Java)、PyPDF2(Python)或PDF.js(JavaScript)等。这些库提供了API接口,用于操作PDF的元数据、内容和结构,包括添加、编辑或删除书签...

    PDFtoImage

    这一步通常需要借助PDF解析库,如PDFBox(Java)、PyPDF2(Python)或PDFium(C++)。 2. **渲染页面**:解析后,需要将PDF的每一页渲染成可视化的图像。这个过程可能包括设置分辨率、色彩模式等参数,确保图像质量...

    Python一键提取PDF中的表格到Excel.zip

    通过PyPDF2和pandas的组合,我们可以对PDF进行低级别的操作,而tabula-py则提供了高级的表格识别功能。这个过程对于数据科学家和分析师来说非常实用,尤其是当他们需要处理大量PDF格式的报告或记录时,可以大大节省...

    word文档转pdf

    例如,一个简单的Python脚本可能包括读取Word文档,解析其内容,然后用ReportLab创建相应的PDF页面。 总的来说,"word文档转pdf"涉及到的技术主要包括文件格式解析(如`python-docx`)、文件格式生成(如`PyPDF2`、...

    PDFMergePicAndToPdf-master

    3. 合并操作:实际的合并过程可能涉及将每个处理后的图片作为PDF的一个页面插入,通过遍历图片列表并逐个添加到PDF文档中实现。 4. 用户接口:如果这是一个完整的应用,那么可能还包括用户界面设计,让用户能够选择...

    PDF_Inverter

    7. **文件I/O操作**:处理PDF文件和导出PNG图像涉及到大量的文件读写操作。Python的内置`open()`函数和`shutil`模块可以帮助实现这些功能,确保数据正确读取和写入。 8. **错误处理**:一个健壮的工具应该包含错误...

    popper在windows下的可执行文件包

    例如,PyPDF2库用于读取PDF文件,PIL(Python Imaging Library)或其更新的分支Pillow用于处理图像,包括将它们保存为JPEG格式。这个转换过程可能涉及解析PDF内容,提取页面,然后将每个页面渲染为图像。 标签...

    GUI:python中的GUI开发,用于访问pdf,app

    `matplotlib`库也可以用于在GUI中显示PDF页面,虽然不是它的主要用途,但通过其`imshow`函数可以实现这一功能。 接下来,我们讨论如何在Python中创建用于打开和运行.exe应用程序的GUI。这通常涉及到操作系统级别的...

Global site tag (gtag.js) - Google Analytics