`
JerryWang_SAP
  • 浏览: 1035958 次
  • 性别: Icon_minigender_1
  • 来自: 成都
文章分类
社区版块
存档分类
最新评论

PDF文件如何转成markdown格式

阅读更多

百度上根据pdf转makrdown为关键字进行搜索,结果大多数是反过来的转换,即markdown文本转PDF格式。

 

但是PDF转markdown的解决方案很少。

正好我工作上有这个需求,所以自己实现了一个解决方案。

下图是一个用PDF XChange Editor打开的PDF文件,我想将其内容通过markdown格式导出。

 

(1) 首先将该PDF导出成word格式,后缀.docx

 
 

(2) 使用typora获得该word文档的markdown源代码:

 

此时任务只完成了一半,因为typora这个工具转换成的markdown格式,如果原始的word文档里包含图片,这些图片以本地图片的形式存在于markdown里,那我如果直接将包含了这些本地图片的标签的markdown发布到简书,CSDN,开源中国,腾讯云,阿里云这些支持markdown的社区时,这些本地图片将无法显示。

 

因此我们必须找到一个高效的方法,将word里包含的本地图片先上传到网络上,再用生成的包含了图片网络url的markdown标签替换本地图片标签。
(3) 把word文件的后缀从.docx改成.zip, 解压后,在文件夹word的子文件夹media里能找到所有的本地文件。

 

把这些本地文件全部上传到网站,生成下面这些url:

 

我写了一个工具,可以把仅包含了本地图片标签的markdown源代码和包含了上述在线图片url标签的源代码做一个合并,后并后,本地图片标签会被在线图片标签取代:

 

这个工具可以从我github上获得:
https://github.com/i042416/KnowlegeRepository/blob/master/practice/255_markdown_tool.html

下图就是我的原始PDF转换成markdown格式后发布在某社区上的效果,和原始PDF外观完全一致:

 

要获取更多Jerry的原创文章,请关注公众号"汪子熙":

 

 
0
1
分享到:
评论

相关推荐

    csdn文章转换为markdown格式

    Markdown是一种轻量级的标记语言,广泛用于编写文档、笔记或者博客,因为它简洁易读且易于转换为其他格式,如HTML或PDF。 在IT行业中,这种转换工具非常有用,特别是对于开发者和博主,他们可能经常在CSDN上阅读和...

    转换PDF到markdown快速与高精度.zip

    1. PyPDF2:这是一个用于读取和操作PDF文件的Python库。通过PyPDF2,我们可以提取PDF文档中的文本和页面信息,这是转换过程的第一步。 2. pdf2image:此库可以将PDF页面转换为图像,这在处理包含复杂布局或图形的...

    pdf到markdown:PDF到Markdown转换器

    使用Javascript工具解析PDF文件并将其转换为Markdown格式。 在线版本位于 ! 主要变化 2017年4月-0.1:初始版本 有助于 使用和/或打开! 有用的构建命令 npm install下载所有必需的npm软件包 npm run lint Lint的...

    Markdown语法大全(超级版).pdf

    Markdown文件应该以纯文本形式原样发布,不应该包含标记标签和格式化指令。 Markdown语法集合相对较小,只是HTML标签的一小部分。对于Markdown中未包含的标签,可以直接使用HTML标签,例如使用HTML `<a>`标签替代...

    Pandoc 转换 Markdown 为 pdf

    在这个场景中,我们将使用Pandoc将Markdown文件转换成PDF,以方便那些习惯于使用Word的团队成员阅读。 首先,你需要确保已经安装了Pandoc。`pandoc.exe`是Pandoc的可执行文件,它负责处理转换过程。`pandoc-...

    Markdown2PDF离线markdown转PDF的工具

    Markdown2PDF是一款基于JavaScript开发的离线工具,专门用于将Markdown格式的文本转换为PDF文档。Markdown是一种轻量级的标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成结构化的HTML(超文本...

    markdown-pdf

    转换完成后,PDF文件会保存到指定位置。 此外,"markdown-pdf"插件可能还支持一些高级配置,比如自定义输出的页面大小、字体、边距,以及是否包含页面眉脚等。这些设置可以帮助用户进一步定制PDF的外观,以满足不同...

    转换PDF到markdown快速与高精度

    4. **处理文本**:PDF的文本通常是以行和列的形式存在,需要将这些信息转换成Markdown的格式。这包括处理段落、标题、列表等。可能需要自定义函数来识别和转换不同的元素。 5. **生成Markdown**:使用`mistune`库将...

    Python_转换PDF到markdown快速与高精度.zip

    本话题聚焦于使用Python高效且精确地将PDF文件转换为Markdown格式。PDF(Portable Document Format)是一种广泛使用的文件格式,它能保持文档的原始布局和样式。然而,PDF在进行编辑或与其他格式互换时可能会遇到...

    使用命令实现Markdown转pdf,自定义pdf样式 工具链

    对于多个PDF文件的拼接,可以使用`pdfjoin`(在`pdftk`工具包中)或`pdfunite`(在`poppler-utils`中)。例如,要将`file1.pdf`和`file2.pdf`合并为`combined.pdf`: ``` pdftk file1.pdf file2.pdf cat output ...

    Markdown基本语法.pdf

    Markdown是一种轻量级的标记语言,它允许人们使用易读易写的纯文本格式编写文档,然后转换成结构化的HTML(超文本标记语言)文档。Markdown的语法简洁明了,非常适合编写文档、博客、README文件等。以下是Markdown的...

    Markdown2Pdf:使用Java将markdown转换为pdf的简单库

    ##为什么有时候,创建markdown文件的pdf版本可能会派上用场。 该库结合了其他几个库,以利用您自己转换所有内容的麻烦。 代码库保持很小,同时仍提供流畅的API。 ##先决条件###版本1.0.x此库仅取决于您至少已安装...

    Go-Gotenberg用于将Markdown文件HTML文件和Office文档转换为PDF的无状态API

    Go-Gotenberg是一个基于Go语言开发的开源项目,专门用于将Markdown、HTML文件以及Office文档(如.docx、.xlsx、.pptx等)转换成高质量的PDF文档。作为一个无状态API,它非常适合集成到自动化工作流程或者Web服务中,...

    markdown-to-pdf-master.zip

    Markdown-to-PDF Master 是一个Atom编辑器的离线插件,专门用于将Markdown格式的文本转换为PDF文档。这个插件极大地便利了那些频繁在Markdown和PDF之间转换的用户,例如编写技术文档、报告或者博客文章的人。接下来...

    批量MarkDown转PDF工具

    批量处理多个Markdown文件的需求在团队协作或大型项目中尤其常见,这便催生了“批量Markdown转PDF工具”。 批量Markdown转PDF工具有助于提高效率,避免手动逐个转换的繁琐过程。这类工具通常具有以下特点: 1. **...

    MarkDown格式的简历模板 可自行修改 转换pdf doc

    因为 Markdown 格式不够紧凑,需要修改一些样式,否则会让原本只要一页的内容变成两三页。 (1)将 resume.css 复制到 Typora 的主题文件夹 (2)主题文件夹可以在“文件->偏好设置->主题文件夹“中打开 (3)...

    CSDN 博客导出工具, 用于将 CSDN 博客导出为 Markdown / PDF 格式

    6. **备份与分享**:导出的Markdown或PDF文件可以存档备份,防止原平台数据丢失。同时,这些文件可以上传到其他平台,或者通过电子邮件、网盘等方式分享给他人。 使用CSDN博客导出工具的同时,需要注意版权问题。...

    能将markdown语法的文档内容,导出为word,pdf,HTML等的文件

    文档导出工具类,能将markdown格式的内容,转为office word,PDF,HTML等等...不使用markdown格式的内容,直接调用MD2File的api,生成word,pdf等文档也是可以的。 另外,还可以将MD2File作为markdown转HTML的工具类。

    markdown文档转pdf工具

    Markdown-to-PDF工具则是专门用来将Markdown文件转换为PDF格式的工具,这样可以让用户方便地打印、分享或保存为更适合阅读的PDF文档。 在软件/插件领域,Markdown-to-PDF工具通常有以下几种实现方式: 1. **命令行...

Global site tag (gtag.js) - Google Analytics