通过XPDF抽取PDF中的中文文本 - Jelly_JAVA博客 - ITeye博客

`

jelly_x

浏览: 165502 次
性别:
来自: 成都

最近访客更多访客>>

limingnihao

冷月宫主

jklwan

lsj626472785

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

baukh789： ...我们公司最近也在推这个东西，SVN用了四五年了，猛的换一 ...
git 初使用
BuN_Ny：时序图？？？？？？？？？？？？？？？？？？？
EA入门-4
308202251： 308202251 写道308202251 写道3082022 ...
Java 反射机制中 getMethod()和getDeclaredField()区别
308202251： 308202251 写道308202251 写道3082022 ...
Java 反射机制中 getMethod()和getDeclaredField()区别
308202251： 308202251 写道308202251 写道3082022 ...
Java 反射机制中 getMethod()和getDeclaredField()区别

通过XPDF抽取PDF中的中文文本

阅读更多

1、下载XPDF，参考下载地址：http://blog.pjoke.com/wp-content/uploads/2009/02/xpdf-chinese-simplified.zip

2、下载字体Gbsn00lp.ttf和gkai00mp.ttf，参考下载地址：http://blog.pjoke.com/wp-content/uploads/2009/02/font.zip

3、解压XPDF和字体，将字体放到CMap目录下

4、修改add-to-xpdfrc文件中的地址，将路径该为本机安装路径

5、修改xpdfrc文件，把地址修改为本机地址

6、编写简单的程序

7、运行

分享到：

利用pdf2swf将PDF转换成SWF | pdf2swf+flexpaper解决pdf在线阅读（类百 ...

2011-03-01 16:55
浏览 1281
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

cpp-pdftojson使用XPDF从PDF文件抽取文本作为JSON: 1. **PDF文本提取**：`cpp-pdftojson`首先调用XPDF的`pdftotext`命令行工具，对输入的PDF文件进行解析，获取文档中的文本内容。`pdftotext`能够识别PDF的布局信息，包括段落、行、字等，从而保持文本的原始格式。 2...

xpdf-chinese-simplified.rar: 描述中提到“很好的解决了pdf抽取中的中文问题”，这意味着XPDF在从PDF文档中提取中文文本时表现优秀。PDF抽取，即PDF内容的解析和提取，是数据分析、文档处理和信息检索等场景中常用的操作。对于中文PDF，抽取过程...

Lucene应用中Pdf文档文本数据提取方法研究: 对于Pdf文档的文本数据提取，研究采用的是xpdf工具包，这是一个广泛认可且高效的Pdf文本提取工具。通过xpdf，可以从Pdf文件中准确地抽取文本内容，使其能够被Lucene索引和检索。具体步骤如下： 1. **下载并安装xpdf...

gbsn00lp.tff: 描述 "gbsn00lp 通过XPDF抽取PDF中的中文文本" 揭示了一个使用XPDF工具从包含中文文本的PDF文档中提取信息的场景。XPDF是一个开源的PDF阅读器和处理工具集，它提供了PDF文档解析、文本抽取、页面渲染等功能。在处理...

xpdf source code: 例如，它能够将PDF文档中的文本抽取出来，或者将PDF页面导出为图像文件。这些功能对于数据提取、文档转换或无障碍访问（如屏幕阅读器支持）等场景非常有用。 **开源优势** 作为开源软件，Xpdf的源代码可以自由分发...

gkai00mp.zip: 描述提到 "通过XPDF抽取PDF中的中文文本"，这涉及到PDF文档处理和中文字符提取。XPDF是一个开源的PDF工具集，它包含了一系列命令行工具，如`pdftotext`，能够从PDF文件中提取文本。这对于数据挖掘、文档分析或简单的...

java 解析pdf的两个文件包: 在这个例子中，`PDDocument.load()`方法用于加载PDF文件，`PDFTextStripper`则负责抽取文本，最后通过`getText()`获取到PDF中的全部文本内容。在实际应用中，选择XPDF还是PDFBox主要取决于具体需求。如果你只需要...

xpdf-3.02pl2-win32.zip: 3. 图像导出：通过pdftoppm命令，用户可以将PDF文件中的图像抽取出来，保存为各种常见的图片格式，如JPEG、PNG等。 4. 页面操作：Xpdf允许用户对PDF页面进行裁剪、合并或拆分，以满足不同的文档处理需求。二、...

java-pdf&word-jar.zip: 4. 文本提取：从PDF中抽取文本，用于索引、搜索或分析。 5. 图形操作：绘制2D图形，创建复杂的PDF页面结构。 6. PDF签名：添加数字签名，验证文档完整性和来源。 7. 与其他格式互转：支持PDF与XML、TXT、图片等格式...

JAVA读取WORD-pdf等.docx: - `XPDF` 是另一个处理PDF的工具，也可以用于文本抽取，但它通常在命令行环境下使用，而非Java库。为了简化处理这些文件，开发者有时会使用已经封装好的库，比如对Apache POI进行了封装的一些第三方库，它们提供...

基于电力公司的多格式文档智能信息检索系统的设计与实现.pdf: 对于PDF文件，系统利用PDFBox或Xpdf这类开源的Java库来抽取文本信息。针对Word文档和Excel表格，系统采用Microsoft Office提供的自动化COM组件或PHP的相关类库来读取内容。对于HTML文档，系统则负责去除HTML标签，以...

Global site tag (gtag.js) - Google Analytics