`

docx到html的基本转换

阅读更多
从网上看到的从docx到html的基本转换
链接:
http://openxmldeveloper.org/archive/2006/06/30/333.aspx
xsl文件:
<?xml version="1.0" encoding="UTF-8" ?>
<xsl:stylesheet version="1.0" xmlns:xsl="http://www.w3.org/1999/XSL/Transform" 
xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/main">
 <xsl:output method="html" />
 <xsl:template match="/">
  <xsl:apply-templates select="//w:body" />
 </xsl:template>
 <xsl:template match="w:body">
  <html>
   <head />
   <body>
    <pre>
     <xsl:apply-templates />
    </pre>
   </body>
  </html>
 </xsl:template>
 <xsl:template match="w:p">
  <div>
   <xsl:apply-templates select="w:r" />
  </div>
 </xsl:template>
 <xsl:template match="w:r">
  <xsl:apply-templates select="w:t" />
 </xsl:template>
 <xsl:template match="w:t">
  <span>
   <xsl:apply-templates select="../w:rPr" />
   <xsl:value-of select="." />
  </span>
 </xsl:template>
 <xsl:template match="w:rPr">
  <xsl:attribute name="style">
   <xsl:apply-templates />
  </xsl:attribute>
 </xsl:template>
 <xsl:template match="w:u">text-decoration:underline;</xsl:template>
 <xsl:template match="w:b">font-weight:bold;</xsl:template>
 <xsl:template match="w:i">font-style:italic;</xsl:template>
</xsl:stylesheet>

用于转换的xml文件
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>

<w:document xmlns:ve="http://schemas.openxmlformats.org/markup-compatibility/2006" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:o12="http://schemas.microsoft.com/office/2004/7/core" xmlns:r="http://schemas.openxmlformats.org/officeDocument/2006/relationships" xmlns:m="http://schemas.microsoft.com/office/omml/2004/12/core" xmlns:v="urn:schemas-microsoft-com:vml" xmlns:wp="http://schemas.openxmlformats.org/drawingml/2006/3/wordprocessingDrawing" xmlns:w10="urn:schemas-microsoft-com:office:word" xmlns:w="http://schemas.openxmlformats.org/wordprocessingml/2006/3/main">

  <w:body>

    <w:p>

      <w:r w:rsidR="00AD4F4A">

        <w:t xml:space="preserve">This is </w:t>

      </w:r>

      <w:r w:rsidR="00A35A66">

        <w:t>simple</w:t>

      </w:r>

      <w:r w:rsidR="00AD4F4A">

        <w:t xml:space="preserve"> text. It preserves      both spaces and line </w:t>

      </w:r>

      <w:r w:rsidR="00AD4F4A" w:rsidRPr="007949A6">

        <w:rPr>

          <w:b/>

        </w:rPr>

        <w:t>breaks</w:t>

      </w:r>

      <w:r w:rsidR="007949A6" w:rsidRPr="007949A6">

        <w:rPr>

          <w:b/>

        </w:rPr>

        <w:t xml:space="preserve"> in </w:t>

      </w:r>

      <w:proofErr w:type="spellStart"/>

      <w:r w:rsidR="007949A6" w:rsidRPr="007949A6">

        <w:rPr>

          <w:b/>

        </w:rPr>

        <w:t>bold</w:t>

      </w:r>

      <w:r w:rsidR="00AD4F4A">

        <w:t>.This</w:t>

      </w:r>

      <w:proofErr w:type="spellEnd"/>

      <w:r w:rsidR="00AD4F4A">

        <w:t xml:space="preserve"> is preformatted text. It preserves      both spaces and line </w:t>

      </w:r>

      <w:r w:rsidR="00AD4F4A" w:rsidRPr="0054521E">

        <w:rPr>

          <w:i/>

        </w:rPr>

        <w:t>breaks</w:t>

      </w:r>

      <w:r w:rsidR="007949A6">

        <w:rPr>

          <w:i/>

        </w:rPr>

        <w:t xml:space="preserve"> in </w:t>

      </w:r>

      <w:proofErr w:type="spellStart"/>

      <w:r w:rsidR="007949A6">

        <w:rPr>

          <w:i/>

        </w:rPr>

        <w:t>italics</w:t>

      </w:r>

      <w:r w:rsidR="00AD4F4A">

        <w:t>.This</w:t>

      </w:r>

      <w:proofErr w:type="spellEnd"/>

      <w:r w:rsidR="00AD4F4A">

        <w:t xml:space="preserve"> is </w:t>

      </w:r>

      <w:r w:rsidR="00A35A66">

        <w:rPr>

          <w:b/>

        </w:rPr>

        <w:t xml:space="preserve">simple        preformatted          </w:t>

      </w:r>

      <w:r w:rsidR="00AD4F4A">

        <w:t xml:space="preserve"> text. It preserves      both spaces and line breaks.</w:t>

      </w:r>

    </w:p>

    <w:p/>

    <w:p>

      <w:pPr>

        <w:rPr>

          <w:b/>

        </w:rPr>

      </w:pPr>

      <w:r w:rsidR="00AD4F4A" w:rsidRPr="0054521E">

        <w:rPr>

          <w:b/>

        </w:rPr>

        <w:t xml:space="preserve">New </w:t>

      </w:r>

      <w:r w:rsidR="0054521E" w:rsidRPr="0054521E">

        <w:rPr>

          <w:b/>

        </w:rPr>

        <w:t>Heading</w:t>

      </w:r>

      <w:r w:rsidR="00AD4F4A" w:rsidRPr="0054521E">

        <w:rPr>

          <w:b/>

        </w:rPr>

        <w:t>:</w:t>

      </w:r>

    </w:p>

    <w:p>

      <w:r w:rsidR="00AD4F4A">

        <w:t xml:space="preserve">This is </w:t>

      </w:r>

      <w:r w:rsidR="007949A6">

        <w:rPr>

          <w:u w:val="single"/>

        </w:rPr>

        <w:t>underlined</w:t>

      </w:r>

      <w:r w:rsidR="00AD4F4A">

        <w:t xml:space="preserve"> text. It preserves      both spaces and line breaks.</w:t>

      </w:r>

    </w:p>

    <w:p>

      <w:r w:rsidR="00AD4F4A">

        <w:t>This is preformatted text. It preserves      both spaces and line breaks.</w:t>

      </w:r>

    </w:p>

    <w:p/>

    <w:sectPr w:rsidR="00510025" w:rsidSect="00320151">

      <w:pgSz w:w="12240" w:h="15840"/>

      <w:pgMar w:top="1440" w:right="1440" w:bottom="1440" w:left="1440" w:header="720" w:footer="720" w:gutter="0"/>

      <w:cols w:space="720"/>

      <w:docGrid w:linePitch="360"/>

    </w:sectPr>

  </w:body>

</w:document>

该页面上还提供了用C#转换xml的代码
  • sample.rar (13.9 KB)
  • 描述: 显示文档
  • 下载次数: 47
分享到:
评论

相关推荐

    Java结合docx4j生成docx文件

    首先,我们来看docx4j的基本使用。在开始之前,你需要确保已经添加了docx4j的依赖到你的项目中。如果你使用的是Maven,可以在pom.xml文件中添加如下依赖: ```xml &lt;groupId&gt;org.docx4j &lt;artifactId&gt;docx4j ...

    Java实现doc文件转成docx文件

    本示例关注的是使用Java编程语言将传统的`.doc`格式文件转换为较新的`.docx`格式。`.doc`文件是Microsoft Word早期版本(Word 97到2003)使用的文件格式,而`.docx`则是从Word 2007开始引入的基于XML的格式。这种...

    使用POI将office(doc/docx/ppt/pptx/xls/xlsx)文件转html格式

    请注意,这只是一个基本的框架,实际的转换过程可能需要更复杂的逻辑来处理样式、图片和其他复杂元素。此外,对于PPT和PPTX文件,需要使用`HSLFSlideShow`和`XSLFSlideShow`类,过程类似,但处理幻灯片和形状的API会...

    将word(doc,docx)转换成html代码以及所需poi jar包

    本篇文章将详细探讨如何将Word(doc, docx)格式转换为HTML代码,并介绍Apache POI库在其中的作用。 首先,Word文档的.doc和.docx格式实际上是基于Open XML标准的复杂结构,包含了文本、样式、图像等多类型数据。....

    uniapp H5 pdf、docx文档预览

    以`docx4js`为例,你需要先将docx文件上传到服务器,使用`docx4js`进行转换,然后将转换后的HTML返回给前端展示: ```javascript // 假设你已经获取到docx文件的base64编码 const docxBlob = base64ToBlob...

    uniapp 预览docx文档

    这里可以使用诸如docx-preview或者html-docx这样的第三方库,它们能够将docx文件内容转换为HTML,然后uniapp可以方便地将HTML内容渲染到界面上。具体步骤如下: 1. 安装依赖:在项目中安装所需的docx解析库,如`...

    html手册.docx

    HTML,全称HyperText Markup Language,是用于...以上是HTML手册中提及的关键知识点,这些元素和属性构成了HTML的基本结构,用于构建网页内容并控制其显示方式。了解并熟练掌握这些知识点对于网页设计和开发至关重要。

    Docx2Pdf批量转换C#源码(Aspose.Words.dll)

    在C#中,使用Aspose.Words进行文件转换的基本步骤如下: 1. 引入Aspose.Words.dll:在项目中添加对Aspose.Words.dll的引用,这样就可以使用其提供的类和方法。 2. 创建Document对象:使用`Document`类实例化一个...

    RP原型图简繁批量转换.docx

    标题中的"RP原型图简繁批量转换.docx"指的是在设计RP(Rapid Prototyping)原型图时,如何进行中文简体到繁体的批量转换。这个过程涉及到对RP工程文件的处理,以及利用特定工具来完成文字转换。描述中提到,通过原创的...

    docx4j相关jar包

    1. **docx4j主库**:这是核心库,提供对OOXML文件的基本操作,包括读取、写入和转换文档。例如,`docx4j.jar`包含了docx4j的主要功能。 2. **扩展库**:docx4j有多个扩展库,针对特定功能,如PDF转换、OpenHTML输出...

    docx4j及其依赖包

    4. **文档转换**: 支持将`.docx`文档转换成其他格式,如PDF、HTML、纯文本等,也可以从其他格式转换为`.docx`。 5. **插入对象**: 可以插入图片、图表、链接等复杂元素,丰富文档内容。 6. **书签操作**: 通过添加...

    Docx4j office word java

    此外,Docx4j还支持转换为其他格式,如HTML或PDF,这需要用到`org.docx4j.convert.out`包下的相应类。 6. **学习资源**:为了更好地理解和使用Docx4j,可以参考提供的中文入门指南,了解如何创建实例、操作文档结构...

    java html转换word

    在IT行业中,Java是一种广泛使用的编程语言,而HTML则是网页设计的基础。将HTML转换为Word文档的需求在数据...在实践中,为了简化这个任务,可能会考虑使用专门的库,如Docx4j,它提供了更方便的HTML到DOCX转换功能。

    HTML+JAVA.docx

    【HTML+JAVA.docx】这份文档是关于HTML和Java基础知识的学习笔记,主要涵盖了Java语言的基础概念和特性。在Java学习中,以下是一些关键知识点: 1. **抽象类与构造器**:抽象类可以拥有构造器,这允许子类在实例化...

    docx4j相关资料

    docx4j的基本结构与使用** docx4j的核心是基于Java的XML解析库,它通过操作XML文档来创建和编辑OOXML文件。在docx4j中,文档被抽象为一系列对象,如`WordprocessingMLPackage`代表.docx文档,`...

    htmltodocx_0_6_5_alpha

    《HTML到DOCX转换工具:htmltodocx_0_6_5_alpha详解》 在信息化高度发达的今天,文档转换成为了日常工作中不可或缺的一部分。HTML作为网页的主要标记语言,广泛应用于网络内容的编写,而DOCX是Microsoft Word的文档...

    docx4j操作word2007

    - **保存与导出**:将修改后的文档保存回.docx格式,或者转换为其他格式,如HTML、PDF等。 5. **高级功能** - **模板处理**:利用docx4j的模板引擎,可以动态生成文档,适用于批量报告生成、邮件合并等场景。 - ...

Global site tag (gtag.js) - Google Analytics