从网上看到的从docx到html的基本转换
链接:
http://openxmldeveloper.org/archive/2006/06/30/333.aspx
xsl文件:
<?xml version="1.0" encoding="UTF-8" ?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/main">
<xsl:output method="html" />
<xsl:template match="/">
<xsl:apply-templates select="//w:body" />
</xsl:template>
<xsl:template match="w:body">
<html>
<head />
<body>
<pre>
<xsl:apply-templates />
</pre>
</body>
</html>
</xsl:template>
<xsl:template match="w:p">
<div>
<xsl:apply-templates select="w:r" />
</div>
</xsl:template>
<xsl:template match="w:r">
<xsl:apply-templates select="w:t" />
</xsl:template>
<xsl:template match="w:t">
<span>
<xsl:apply-templates select="../w:rPr" />
<xsl:value-of select="." />
</span>
</xsl:template>
<xsl:template match="w:rPr">
<xsl:attribute name="style">
<xsl:apply-templates />
</xsl:attribute>
</xsl:template>
<xsl:template match="w:u">text-decoration:underline;</xsl:template>
<xsl:template match="w:b">font-weight:bold;</xsl:template>
<xsl:template match="w:i">font-style:italic;</xsl:template>
</xsl:stylesheet>
用于转换的xml文件
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<w:document xmlns:ve="http://schemas.openxmlformats.org/markup-compatibility/2006" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:o12="http://schemas.microsoft.com/office/2004/7/core" xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships" xmlns:m="http://schemas.microsoft.com/office/omml/2004/12/core" xmlns:v="urn:schemas-microsoft-com:vml" xmlns:wp="http://schemas.openxmlformats.org/drawingml/2006/3/wordprocessingDrawing" xmlns:w10="urn:schemas-microsoft-com:office:word" xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/3/main">
<w:body>
<w:p>
<w:r w:rsidR="00AD4F4A">
<w:t xml:space="preserve">This is </w:t>
</w:r>
<w:r w:rsidR="00A35A66">
<w:t>simple</w:t>
</w:r>
<w:r w:rsidR="00AD4F4A">
<w:t xml:space="preserve"> text. It preserves both spaces and line </w:t>
</w:r>
<w:r w:rsidR="00AD4F4A" w:rsidRPr="007949A6">
<w:rPr>
<w:b/>
</w:rPr>
<w:t>breaks</w:t>
</w:r>
<w:r w:rsidR="007949A6" w:rsidRPr="007949A6">
<w:rPr>
<w:b/>
</w:rPr>
<w:t xml:space="preserve"> in </w:t>
</w:r>
<w:proofErr w:type="spellStart"/>
<w:r w:rsidR="007949A6" w:rsidRPr="007949A6">
<w:rPr>
<w:b/>
</w:rPr>
<w:t>bold</w:t>
</w:r>
<w:r w:rsidR="00AD4F4A">
<w:t>.This</w:t>
</w:r>
<w:proofErr w:type="spellEnd"/>
<w:r w:rsidR="00AD4F4A">
<w:t xml:space="preserve"> is preformatted text. It preserves both spaces and line </w:t>
</w:r>
<w:r w:rsidR="00AD4F4A" w:rsidRPr="0054521E">
<w:rPr>
<w:i/>
</w:rPr>
<w:t>breaks</w:t>
</w:r>
<w:r w:rsidR="007949A6">
<w:rPr>
<w:i/>
</w:rPr>
<w:t xml:space="preserve"> in </w:t>
</w:r>
<w:proofErr w:type="spellStart"/>
<w:r w:rsidR="007949A6">
<w:rPr>
<w:i/>
</w:rPr>
<w:t>italics</w:t>
</w:r>
<w:r w:rsidR="00AD4F4A">
<w:t>.This</w:t>
</w:r>
<w:proofErr w:type="spellEnd"/>
<w:r w:rsidR="00AD4F4A">
<w:t xml:space="preserve"> is </w:t>
</w:r>
<w:r w:rsidR="00A35A66">
<w:rPr>
<w:b/>
</w:rPr>
<w:t xml:space="preserve">simple preformatted </w:t>
</w:r>
<w:r w:rsidR="00AD4F4A">
<w:t xml:space="preserve"> text. It preserves both spaces and line breaks.</w:t>
</w:r>
</w:p>
<w:p/>
<w:p>
<w:pPr>
<w:rPr>
<w:b/>
</w:rPr>
</w:pPr>
<w:r w:rsidR="00AD4F4A" w:rsidRPr="0054521E">
<w:rPr>
<w:b/>
</w:rPr>
<w:t xml:space="preserve">New </w:t>
</w:r>
<w:r w:rsidR="0054521E" w:rsidRPr="0054521E">
<w:rPr>
<w:b/>
</w:rPr>
<w:t>Heading</w:t>
</w:r>
<w:r w:rsidR="00AD4F4A" w:rsidRPr="0054521E">
<w:rPr>
<w:b/>
</w:rPr>
<w:t>:</w:t>
</w:r>
</w:p>
<w:p>
<w:r w:rsidR="00AD4F4A">
<w:t xml:space="preserve">This is </w:t>
</w:r>
<w:r w:rsidR="007949A6">
<w:rPr>
<w:u w:val="single"/>
</w:rPr>
<w:t>underlined</w:t>
</w:r>
<w:r w:rsidR="00AD4F4A">
<w:t xml:space="preserve"> text. It preserves both spaces and line breaks.</w:t>
</w:r>
</w:p>
<w:p>
<w:r w:rsidR="00AD4F4A">
<w:t>This is preformatted text. It preserves both spaces and line breaks.</w:t>
</w:r>
</w:p>
<w:p/>
<w:sectPr w:rsidR="00510025" w:rsidSect="00320151">
<w:pgSz w:w="12240" w:h="15840"/>
<w:pgMar w:top="1440" w:right="1440" w:bottom="1440" w:left="1440" w:header="720" w:footer="720" w:gutter="0"/>
<w:cols w:space="720"/>
<w:docGrid w:linePitch="360"/>
</w:sectPr>
</w:body>
</w:document>
该页面上还提供了用C#转换xml的代码
分享到:
相关推荐
首先,我们来看docx4j的基本使用。在开始之前,你需要确保已经添加了docx4j的依赖到你的项目中。如果你使用的是Maven,可以在pom.xml文件中添加如下依赖: ```xml <groupId>org.docx4j <artifactId>docx4j ...
本示例关注的是使用Java编程语言将传统的`.doc`格式文件转换为较新的`.docx`格式。`.doc`文件是Microsoft Word早期版本(Word 97到2003)使用的文件格式,而`.docx`则是从Word 2007开始引入的基于XML的格式。这种...
请注意,这只是一个基本的框架,实际的转换过程可能需要更复杂的逻辑来处理样式、图片和其他复杂元素。此外,对于PPT和PPTX文件,需要使用`HSLFSlideShow`和`XSLFSlideShow`类,过程类似,但处理幻灯片和形状的API会...
本篇文章将详细探讨如何将Word(doc, docx)格式转换为HTML代码,并介绍Apache POI库在其中的作用。 首先,Word文档的.doc和.docx格式实际上是基于Open XML标准的复杂结构,包含了文本、样式、图像等多类型数据。....
以`docx4js`为例,你需要先将docx文件上传到服务器,使用`docx4js`进行转换,然后将转换后的HTML返回给前端展示: ```javascript // 假设你已经获取到docx文件的base64编码 const docxBlob = base64ToBlob...
这里可以使用诸如docx-preview或者html-docx这样的第三方库,它们能够将docx文件内容转换为HTML,然后uniapp可以方便地将HTML内容渲染到界面上。具体步骤如下: 1. 安装依赖:在项目中安装所需的docx解析库,如`...
HTML,全称HyperText Markup Language,是用于...以上是HTML手册中提及的关键知识点,这些元素和属性构成了HTML的基本结构,用于构建网页内容并控制其显示方式。了解并熟练掌握这些知识点对于网页设计和开发至关重要。
在C#中,使用Aspose.Words进行文件转换的基本步骤如下: 1. 引入Aspose.Words.dll:在项目中添加对Aspose.Words.dll的引用,这样就可以使用其提供的类和方法。 2. 创建Document对象:使用`Document`类实例化一个...
标题中的"RP原型图简繁批量转换.docx"指的是在设计RP(Rapid Prototyping)原型图时,如何进行中文简体到繁体的批量转换。这个过程涉及到对RP工程文件的处理,以及利用特定工具来完成文字转换。描述中提到,通过原创的...
1. **docx4j主库**:这是核心库,提供对OOXML文件的基本操作,包括读取、写入和转换文档。例如,`docx4j.jar`包含了docx4j的主要功能。 2. **扩展库**:docx4j有多个扩展库,针对特定功能,如PDF转换、OpenHTML输出...
4. **文档转换**: 支持将`.docx`文档转换成其他格式,如PDF、HTML、纯文本等,也可以从其他格式转换为`.docx`。 5. **插入对象**: 可以插入图片、图表、链接等复杂元素,丰富文档内容。 6. **书签操作**: 通过添加...
此外,Docx4j还支持转换为其他格式,如HTML或PDF,这需要用到`org.docx4j.convert.out`包下的相应类。 6. **学习资源**:为了更好地理解和使用Docx4j,可以参考提供的中文入门指南,了解如何创建实例、操作文档结构...
在IT行业中,Java是一种广泛使用的编程语言,而HTML则是网页设计的基础。将HTML转换为Word文档的需求在数据...在实践中,为了简化这个任务,可能会考虑使用专门的库,如Docx4j,它提供了更方便的HTML到DOCX转换功能。
【HTML+JAVA.docx】这份文档是关于HTML和Java基础知识的学习笔记,主要涵盖了Java语言的基础概念和特性。在Java学习中,以下是一些关键知识点: 1. **抽象类与构造器**:抽象类可以拥有构造器,这允许子类在实例化...
docx4j的基本结构与使用** docx4j的核心是基于Java的XML解析库,它通过操作XML文档来创建和编辑OOXML文件。在docx4j中,文档被抽象为一系列对象,如`WordprocessingMLPackage`代表.docx文档,`...
《HTML到DOCX转换工具:htmltodocx_0_6_5_alpha详解》 在信息化高度发达的今天,文档转换成为了日常工作中不可或缺的一部分。HTML作为网页的主要标记语言,广泛应用于网络内容的编写,而DOCX是Microsoft Word的文档...
- **保存与导出**:将修改后的文档保存回.docx格式,或者转换为其他格式,如HTML、PDF等。 5. **高级功能** - **模板处理**:利用docx4j的模板引擎,可以动态生成文档,适用于批量报告生成、邮件合并等场景。 - ...