`
james_lover
  • 浏览: 44576 次
社区版块
存档分类
最新评论

今天终于把pdf2htmlEX的pdf转html编译出来,并成功将pdf转成html

阅读更多

       半月前,考虑做一个在线阅读页面。需要用来pdf2htmlEX(https://github.com/coolwanglu/pdf2htmlEX ,开源工具),刚开始一直编译不过去。今天记录一点小问题:关于字体识别。

       如果系统没有安装字体时,pdf2htmlEX会默认隐藏该字段内容。转换的html没有内容。

通过修改源码:

./src/HTMLRenderer/font.cc

// TODO: this function is called when some font is unable to process, may use the name there as a hint
void HTMLRenderer::export_remote_default_font(long long fn_id)
{
    f_css.fs << "." << CSS::FONT_FAMILY_CN << fn_id << "{font-family:sans-serif;visibility:visible;}" << endl;
   // f_css.fs << "." << CSS::FONT_FAMILY_CN << fn_id << "{font-family:sans-serif;visibility:hidden;}" << endl;
}

 ,再编译之后,就能显示字体内容了。

来看下效果:

这是原pdf文档:

 

       下面是转换后的:



 

  • 大小: 94.4 KB
  • 大小: 148.1 KB
0
0
分享到:
评论

相关推荐

    pdf2htmlEX-0.14.6.tar.gz-Linux版本

    pdf2htmlEX支持将PDF文件中的文本、图像和链接等内容都转换成HTML格式,并保留原文档的布局和格式。 pdf2htmlEX为用户提供了丰富的配置选项,可以根据用户的需求进行相应的设置。用户可以指定输出文件的名称、页面...

    XPDF ,pdf转html,Pdf转txt

    XPDF还包含了`pdf2htmlEX`工具,它可以将PDF文档转换成HTML格式,保持原有的页面布局和图像。这对于想要在网页上展示PDF内容或者需要对PDF进行在线阅读的用户来说是一个很好的解决方案。HTML版本的文档可以在各种...

    pdf js 编译好的

    2. **分页渲染**:PDF.js将PDF文档分割成单独的页面,并逐个在浏览器中渲染。用户可以平滑滚动查看文档。 3. **高质量渲染**:通过使用矢量图形和高质量的图像处理,PDF.js能保持原始PDF文档的清晰度和细节。 4. *...

    base64转换pdf.txt

    本篇文章将深入探讨如何在VB6.0环境中实现Base64编码到PDF文件的转换过程,并对给定代码片段进行详细分析,以便更好地理解和应用这一技术。 ### 一、Base64编码简介 Base64是一种二进制到文本的编码方法,常用于在...

    Acrobat.pdf2image c# pdf转图片

    本文将详细讨论如何在C#编程环境中实现PDF到图片的转换,主要涉及的标签是`pdf2image`。 首先,我们需要一个能够处理PDF并将其转换为图像的库。在C#中,我们可以使用如Ghostscript或PDFsharp这样的第三方库。在这个...

    java html转pdf插件

    Java HTML 转 PDF 插件是用于将HTML文档转换为PDF格式的工具,这在很多场景下非常有用,比如报告生成、电子书制作、网页保存等。在Java开发环境中,有多种库和框架可以实现这个功能,如iText、Flying Saucer、PDFBox...

    Html转PDF(C#)代码.rar

    其中,iTextSharp主要用于PDF文档的创建和编辑,而wkhtmltopdf是一个基于WebKit的工具,它可以将HTML页面渲染成高质量的PDF。PDFSharp则提供了创建、编辑和操作PDF文档的C#接口。 在这个压缩包中,我们看到有以下几...

    Flying Saucer实现html转pdf(一些问题,持续更新)

    在修改源码后,重新编译并打包成jar包,替换原有依赖,就可以测试新版本的效果了。这种方法虽然复杂,但能针对特定场景提供更定制化的解决方案。 总结来说,Flying Saucer是一个强大的工具,用于将HTML转换为PDF。...

    OFD批量转换PDF源代码

    标题中的“OFD批量转换PDF源代码”指出这是一个关于将OFD文件批量转换为PDF格式的程序源代码。OFD(Open Fixed-layout Document)是中国国家标准的电子文档格式,主要用于存储固定版面的文档,如政府文件、发票等。...

    aspose office转pdf或html.rar

    2. **Aspose Excel 转 PDF/HTML** 对于Excel文档,Aspose.Cells API允许开发人员将工作簿(.xls, .xlsx)转换成PDF或HTML。转换时,样式、公式、图表和数据透视表都将被保留。同样,调用`Workbook`对象的`save`方法...

    最新1.9pdf.js官方编译版

    2. **高性能渲染**:PDF.js通过将PDF文档分解为多个小块(tiles),并异步加载和渲染,提高了页面加载速度,使得大型PDF文件的显示更为流畅。 3. **离线阅读**:用户可以将PDF.js集成到自己的应用程序中,实现离线...

    Word文档转换为PDF(不需要OFFICE)

    在IT行业中,文档格式转换是一项常见的任务,尤其是将Word文档转换为PDF。Word文档和PDF在不同的场景下各有优势,Word适合编辑和创作,而PDF则适用于保持文档格式不变的阅读和分发。本示例关注的是如何在不依赖...

    CHM2PDF_CHM转PDF

    CHM2PDF是一款实用的工具,专门用于将CHM(Microsoft Compiled HTML Help)格式的文件转换为PDF(Portable Document Format)文件。CHM文件通常用于技术文档和电子书,而PDF则是广泛接受的标准,适用于跨平台查看和...

    Delphi实现Word、PDF文档转Image

    在实现"Word转Jpg"的过程中,通常会利用Windows API或第三方库来读取Word文档内容,并将其渲染为图像。对于PDF文档,可能需要使用专门的PDF解析库,如Ghostscript或iText,来获取页面内容并转换成图像。 在这个项目...

    c++ word\excel\ppt转pdf .rar

    然后,使用PDF生成库如PDFlib、Qoppa Software的gPDF或poppler库将解析出的数据转换成PDF格式。 6. **流程概述**: - 解析Office文件:使用合适的库读取.docx, .xlsx或.pptx文件的内容,提取文本、图片、样式等...

    mutool.exe方式pdf转换图片

    在使用`mutool.exe`进行PDF转图片时,你需要首先确保已经下载并安装了MuPDF。你可以从官方网站获取最新版本的MuPDF,它通常包含一个名为`mutool.exe`的可执行文件。然后,通过命令行界面,你可以调用这个工具进行...

    jade PDF2-2004库文件

    "jade PDF2-2004库文件"指的是Jade库中的特定部分,这部分专门用于将PDF(Portable Document Format)文档按照2004年的标准进行处理。 PDF是Adobe公司开发的一种文件格式,用于存储和交换包含文本、图像和图形的...

    编译原理 PPT 课件 PDF版.zip

    《编译原理》课程是计算机科学与技术专业的必修课程。本课程主要介绍程序设计语言编译程序构造的基本原理和设计方法,包括:编译程序概述、高级语言及其语法描述、词法分析、语法分析、属性文法和语法制导翻译、语义...

    易语言PDF文件制作库,支持PNG和静态编译带例子源码

    在日常开发过程中,对PDF文档的处理是一个常见的需求,而易语言PDF文件制作库的出现,为易语言开发者提供了一个强大的解决方案,实现了在易语言环境中创建和处理PDF文档的便捷性。 易语言PDF文件制作库的一大特色是...

    Word、Excel、PPT文件转换成PDF文件(C#)

    使用C#将Word、Excel、PPT文件转换成PDF文件 1,使用VS2017编译程序 2,点击添加文件,选择word文件,点击【word转pdf】,PDF文件生成到桌面; 3,点击添加文件,选择excel文件,点击【excel转pdf】,PDF文件生成到...

Global site tag (gtag.js) - Google Analytics