`

通过XPDF抽取PDF中的中文文本

阅读更多

1、下载XPDF,参考下载地址:http://blog.pjoke.com/wp-content/uploads/2009/02/xpdf-chinese-simplified.zip

2、下载字体Gbsn00lp.ttf和gkai00mp.ttf,参考下载地址:http://blog.pjoke.com/wp-content/uploads/2009/02/font.zip

3、解压XPDF和字体,将字体放到CMap目录下

4、修改add-to-xpdfrc文件中的地址 ,将路径该为本机安装路径

5、修改xpdfrc文件 ,把地址修改为本机地址

6、编写简单的程序

7、运行

 

 

分享到:
评论

相关推荐

    cpp-pdftojson使用XPDF从PDF文件抽取文本作为JSON

    1. **PDF文本提取**:`cpp-pdftojson`首先调用XPDF的`pdftotext`命令行工具,对输入的PDF文件进行解析,获取文档中的文本内容。`pdftotext`能够识别PDF的布局信息,包括段落、行、字等,从而保持文本的原始格式。 2...

    xpdf-chinese-simplified.rar

    描述中提到“很好的解决了pdf抽取中的中文问题”,这意味着XPDF在从PDF文档中提取中文文本时表现优秀。PDF抽取,即PDF内容的解析和提取,是数据分析、文档处理和信息检索等场景中常用的操作。对于中文PDF,抽取过程...

    Lucene应用中Pdf文档文本数据提取方法研究

    对于Pdf文档的文本数据提取,研究采用的是xpdf工具包,这是一个广泛认可且高效的Pdf文本提取工具。通过xpdf,可以从Pdf文件中准确地抽取文本内容,使其能够被Lucene索引和检索。具体步骤如下: 1. **下载并安装xpdf...

    gbsn00lp.tff

    描述 "gbsn00lp 通过XPDF抽取PDF中的中文文本" 揭示了一个使用XPDF工具从包含中文文本的PDF文档中提取信息的场景。XPDF是一个开源的PDF阅读器和处理工具集,它提供了PDF文档解析、文本抽取、页面渲染等功能。在处理...

    xpdf source code

    例如,它能够将PDF文档中的文本抽取出来,或者将PDF页面导出为图像文件。这些功能对于数据提取、文档转换或无障碍访问(如屏幕阅读器支持)等场景非常有用。 **开源优势** 作为开源软件,Xpdf的源代码可以自由分发...

    gkai00mp.zip

    描述提到 "通过XPDF抽取PDF中的中文文本",这涉及到PDF文档处理和中文字符提取。XPDF是一个开源的PDF工具集,它包含了一系列命令行工具,如`pdftotext`,能够从PDF文件中提取文本。这对于数据挖掘、文档分析或简单的...

    java 解析pdf的两个文件包

    在这个例子中,`PDDocument.load()`方法用于加载PDF文件,`PDFTextStripper`则负责抽取文本,最后通过`getText()`获取到PDF中的全部文本内容。 在实际应用中,选择XPDF还是PDFBox主要取决于具体需求。如果你只需要...

    xpdf-3.02pl2-win32.zip

    3. 图像导出:通过pdftoppm命令,用户可以将PDF文件中的图像抽取出来,保存为各种常见的图片格式,如JPEG、PNG等。 4. 页面操作:Xpdf允许用户对PDF页面进行裁剪、合并或拆分,以满足不同的文档处理需求。 二、...

    java-pdf&word-jar.zip

    4. 文本提取:从PDF中抽取文本,用于索引、搜索或分析。 5. 图形操作:绘制2D图形,创建复杂的PDF页面结构。 6. PDF签名:添加数字签名,验证文档完整性和来源。 7. 与其他格式互转:支持PDF与XML、TXT、图片等格式...

    JAVA读取WORD-pdf等.docx

    - `XPDF` 是另一个处理PDF的工具,也可以用于文本抽取,但它通常在命令行环境下使用,而非Java库。 为了简化处理这些文件,开发者有时会使用已经封装好的库,比如对Apache POI进行了封装的一些第三方库,它们提供...

    基于电力公司的多格式文档智能信息检索系统的设计与实现.pdf

    对于PDF文件,系统利用PDFBox或Xpdf这类开源的Java库来抽取文本信息。针对Word文档和Excel表格,系统采用Microsoft Office提供的自动化COM组件或PHP的相关类库来读取内容。对于HTML文档,系统则负责去除HTML标签,以...

Global site tag (gtag.js) - Google Analytics