import java.io.IOException;
public class PdfReader {
public static final String FILEPATH = "d:\\xpdf\\pdftotext.exe";
public static void convertToTxt(String filePath , String txtFile) {
//保留文件原始布局
String layout = "-layout";
// 设置编码方式
String encoding = "-enc";
String character = "GBK";
// 设置不打印任何消息和错误
String mistake = "-q";
// 页面之间不加入分页
String nopagebrk = "-nopgbrk";
String[] cmd = new String[]{FILEPATH , layout , encoding , character , mistake , nopagebrk , filePath , txtFile};
try {
Runtime.getRuntime().exec(cmd);
} catch (IOException e) {
e.printStackTrace();
}
}
public static void main(String[] args) {
convertToTxt("c:\\1.pdf" , "c:\\a.txt");
}
}
还有一个pdftohtml.exe 在附件中 , 放在xpdf文件夹下面 。 可以使用pdftohtml.exe -enc GBK #FROM# #TO#的形式解决 , 可以把pdf转换成pdf文档。
分享到:
相关推荐
Xpdf库是一个强大的开源工具包,专为C和C++开发者设计,用于处理PDF(Portable Document Format)文件。这个库提供了丰富的API,使得在各种应用中读取、解析、渲染和编辑PDF文档变得轻而易举。Xpdf库的最新版本是...
- **自动化流程**:在脚本或自动化工具中集成XPDF,实现批量转换大量PDF文件。 **总结** XPDF作为一个强大的PDF处理工具,其PDF到Text和PDF到HTML的功能在许多实际应用中都有着广泛的价值。特别是对于中文用户的...
不过,为了解决这个问题,有一个名为xpdf的工具,它专为Linux设计,能够帮助用户在Linux系统中顺利阅读PDF文件。 xpdf是一款轻量级的PDF阅读器,它包含了一系列的实用程序,如pdftops(将PDF转换为PostScript)、...
1. 首先,使用`xpdf` 的 `pdftotext` 工具将包含中文的PDF转换成文本文件,这样可以确保中文字符被正确编码。 ``` pdftotext -enc UTF-8 input.pdf output.txt ``` 2. 然后,可以利用其他文本处理工具(如Python...
Xpdf是一款开源的PDF阅读器和转换工具,主要用于在Linux和Unix环境中查看、转换以及提取PDF文档内容。这个“xpdf配置修改完成版”似乎已经预设了适合直接使用的配置,使得用户可以便捷地将PDF文档转换为图片,并保存...
1. **pdftotext**:这个工具可以将PDF文件转换为纯文本格式,方便进行文本搜索和处理。通过这个工具,你可以提取PDF文档中的所有可读文本,而忽略图像和其他非文本元素。 2. **pdffonts**:这个命令行工具可以列出...
`cpp-pdftojson`是一个开源项目,它利用XPDF工具包的功能,将PDF文档中的文本提取出来,并转换为JSON格式的数据。这个项目主要面向C++开发者,提供了方便的方式来处理PDF文档,特别是对于需要从PDF中抓取文本并进行...
xpdf-3.02pl2-linux.tar.gz 是一个专为Linux操作系统设计的PDF处理工具包,主要用于在Linux环境下对PDF格式的文件进行查看、转换和处理。这个工具包包含了多个实用程序,可以帮助用户高效地管理和操作PDF文档。 1. ...
XPDF是一套开源的PDF工具,包括了PDF文档的查看、转换、提取文本等能力。在这个实例中,我们可能会关注以下几个核心知识点: 1. **XPDF Java绑定**:XPDF本身是用C语言编写的,但为了在Java环境中使用,我们需要...
xPDF是一个开源的PDF处理工具集,它包含了处理PDF文件的各种组件,如解析PDF文档、渲染页面等。而Qt则是一个流行的跨平台应用开发框架,用于构建美观且功能丰富的图形用户界面。 首先,让我们详细了解一下xPDF库。...
例如,如果你需要将一个包含大量中文文字的PDF文档转换为SWF格式,或者从SWF文件中提取出中文文本,xpdf-chinese-simplified都能提供强大的支持,确保转换过程中的中文字符完整性。 在实际操作中,你可以将xpdf-...
2. 如果需要将PDF转换为TXT,解压xpdf-chinese-simplified.tar.gz,将其中的本地化文件复制到xpdf的安装目录,然后在命令行中运行`pdftotext.exe input.pdf output.txt`,输入文件为PDF,输出文件为TXT。 3. 对于...
Xpdf是一个开源的PDF文档阅读、转换和处理工具,尤其在处理非英文文档方面表现出色。标题中的"xpdf-3.02pl4-win32.zip"是Xpdf的3.02pl4版本,专为Windows 32位操作系统设计的安装包。这一版本提供了用户友好的界面,...
xpdf是一款开源的PDF阅读器和工具包,它提供了PDF文件的查看、转换和提取功能。在本项目中,xpdf被用于将PDF文档转换为TXT格式,这是一个纯文本格式,易于阅读和进一步处理。xpdf的核心组件包括pdftotext,一个...
1. **pdftotext**:这是一个将PDF文件转换为纯文本的工具。它能够识别并提取PDF文档中的文本,便于进行文本搜索、分析或进一步处理。通过指定不同的选项,可以控制文本输出格式,例如保留原始布局、排除图像或表格等...
在“xpdf的资源.rar”这个压缩包中,我们可能会找到Xpdf的安装文件、文档、命令行工具以及可能的中文语言支持包。 **Xpdf的核心组件** 1. **pdftotext**:这个工具可以将PDF文档转换为纯文本格式,方便进行文本...
Xpdf是一款开源的PDF(Portable Document Format)解析器,它提供了在多种操作系统上读取、显示和转换PDF文件的能力。这个软件包名为“XpdfSrc-3.02.14”,表明我们所讨论的是Xpdf的版本3.02.14的源代码。源代码的...
3. 将XPDF的源代码添加到项目中,设置项目的包含目录和库目录以指向XPDF的头文件和库文件位置。 4. 配置项目链接器设置,将XPDF库(如poppler.lib、fontconfig.lib等)添加到“输入”选项卡的“附加依赖项”中。 5. ...