`

把Word转为简洁的html的若干种方法

 
阅读更多
转自: http://article.pchome.net/content-425187.html

word可以直接另存为 htm,但即使是 另存为 html 也会有大量的废代码。以前我一般用 dreamweaver 的 clean up html 来处理,先处理 word 特有标签,然后删除一些 font,b,span 等。进一步,在 editplus 里面用正则进行处理,最后得到我想要的干净的html 代码。当然最完美的办法就是拷贝文字出来,自己用文本编辑器书写htm标签,:)

今天又看到lifehacker这几种word 2 clean htm方法:

1.使用这个HTML Tidy Library Project开源软件来处理。

2.微软官方站点也有个Office 2000 HTML Filter 2.0工具,可以用来处理掉word2000转html时出现的多余代码。

3.使用这个Word HTML Cleaner 在线工具来处理。只能处理word2000以下版本。

4.有人给出了正则表达式(其实,上面的各种软件也都是用正则来解决的)

删除不需要的标签

<[/]?(font|span|xml|[ovwxp]:w+)[^>]*?>
- replace any matches with the empty string

删除class,style...等不需要的属性

<([^>]*)(?:class|lang|style|size|face|[ovwxp]:w+)=(?:'[^']*'|""[^""]*""|[^>]+)([^>]*)>
- replace any matches with <$1$2>

详细解释在Clean Word HTML using Regular Expressions



EditPlus+正则表达式,处理中等大小的文本

分享到:
评论

相关推荐

    word转为html工具

    Word转为HTML工具是一种实用的软件或在线服务,它能够帮助用户将Microsoft Word文档转换成HTML格式,以便在网页上发布或进行电子邮件通讯等用途。这个过程涉及到多种技术和概念,包括文档格式转换、文本解析以及HTML...

    js把word转成html

    js把word转成html js把word转成html js把word转成html js把word转成html

    通过jacob实现word转为HTML

    总结来说,"通过jacob实现word转为HTML"是一种利用Java和Windows COM接口来实现文档转换的技术。尽管存在一定的局限性,但对于简单的转换需求,尤其是需要在Java项目中集成Office功能时,Jacob提供了一个有效且直接...

    Java程序把Word文档直接转换成Html文件

    Java程序把Word文档直接转换成Html文件 Java程序把Word文档直接转换成Html文件是通过使用Java和COM组件实现的。COM组件是Windows操作系统中的一种组件对象模型,它允许不同的应用程序之间进行交互。在本文中,我们...

    实现word文件转换成html文件实现在线打开预览word文件

    标题和描述中提到的"实现word文件转换成html文件实现在线打开预览word文件",这是一个关于将Microsoft Word文档转换为HTML格式,以便在网页上预览的技术问题。下面将详细介绍这个过程涉及的关键知识点。 1. **...

    word文档生成html模板(freemarker)再转为pdf示例代码

    1、Word模板转html模板的操作步骤(图示例+操作描述,13张图); 2、由上述生成的html模板通过java代码生成pdf; 3、示例有本地模板和远程模板之分,可杜绝pdf标题丢失的问题; 4、资源概要:先阅读README.md文档,然后...

    java使用poi将word转为html

    java使用poi将word转为html

    使用aspose将word转为pdf

    4. **转换并保存**:最后,调用Document对象的Save方法,传入目标路径和保存选项,将Word文档转换为PDF: ```csharp doc.Save("output_path.pdf", options); ``` 在这个过程中,你还可以利用Aspose.Words的高级...

    C#读取word并转为html格式

    方法接收两个参数:`WordFilePath`表示Word文档的完整路径,`docId`用于生成保存HTML文件的唯一标识。 3. **检查输入条件**: ```csharp if (File.Exists(WordFilePath) && docId != "" && WordFilePath....

    word内容提取 word转html-POI wps doc docx转html

    在IT行业中,文档处理是一项常见的任务,特别是在需要跨平台共享或者网络展示时,将Word文档转换为HTML格式显得尤为重要。本篇文章将详细讲解如何利用Apache POI库进行Word内容提取及Word转HTML的过程,以及涉及的...

    word转化HTML预览

    此外,程序可能还包含了一些辅助方法,如图片处理、样式转换等,以确保HTML预览尽可能接近原始Word文档的外观。 为了自定义和扩展这个示例,你可以考虑以下几点: - **优化性能**:处理大型Word文档时,注意内存...

    word转为html架包

    能够便捷的把word文档转化为html页面显示的内容

    java html转换word

    5. **保存Word文档**:完成转换后,使用XWPFDocument的write方法将内容写入到Word文件中。 以下是一个简单的示例代码片段,展示了如何开始这个过程: ```java import org.apache.poi.xwpf.usermodel.*; public ...

    java将html文件生成word文件

    这个过程中,`Html2Word`可能是项目中实现HTML到Word转换的主类或者方法名。在实际应用中,你可能需要根据HTML的结构和样式调整转换设置,以确保转换后的Word文档尽可能保持与原HTML文件一致。 在处理复杂HTML时,...

    通过Js实现Html转换成Word下载

    在现代Web应用中,将HTML页面转换为可下载的Word文档是一种常见的需求,尤其是在数据导出、报告生成或在线编辑场景下。本文将详细介绍如何利用JavaScript实现这一功能,并结合提供的压缩包文件,解析其核心技术和...

    java poi把word文档转化为html,支持doc。

    2. **Word文档格式**: Word文档分为两种主要格式:.doc是早期的二进制格式,而.docx是基于XML的现代格式。尽管两者在内部结构上有很大差异,但POI库都提供了处理这两种格式的功能。 3. **转化过程**: 转换Word到...

    C# HtmlToWord 将HTML文件转换成word文档

    HTML是一种标记语言,通过标签来定义文本样式和结构,而Word则基于微软的Office文档格式,通常包含更丰富的格式和交互元素。在C#中进行HTML到Word的转换,主要是解析HTML,然后将其格式化为Word可以理解的结构。 在...

    poi将word转换成html、样式 表格 图片处理

    实际编程中,你可以创建一个方法,接受Word文档的输入流和HTML输出流,使用Apache POI读取Word,构建HTML结构,并写入到输出流中。这样就可以实现Word到HTML的在线转换服务。 通过以上步骤,我们可以利用Apache ...

    Java实现将word转换为html的方法示例【doc与docx格式】

    Java实现将word转换为html的方法示例【doc与docx格式】 Java语言中实现将word文档转换为html格式的方法示例,结合实例形式分析了java针对doc与docx格式文件的相关转换操作技巧。 知识点1:Java中word文档的读取 ...

    java使用poi将word文档转为html

    Java中的Apache POI库是一个强大的工具,用于读取、创建和修改Microsoft Office格式的文件,包括Word(.doc和.docx)文档。在本案例中,我们关注的是如何使用POI将Word文档转换为HTML格式。这个过程对于在网络上展示...

Global site tag (gtag.js) - Google Analytics