`
李俊良
  • 浏览: 146811 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

word存的html中的unicode中文转码为标准中文

 
阅读更多
 var fs = require("fs");
  
  
   fs.readFile("page.htm",function(err,data){
      var str = data.toString();
      var matchs = str.match(/&#[0-9]{5};/gm);
      for(var i = 0 ; i < matchs.length ; i++){
          var ma = matchs[i];
          var a = ma.replace("&#","").replace(";","");
          a = parseInt(a).toString(16);
          console.log(unescape('%u'+a));
          str = str.replace(ma,unescape("%u"+a));
      }
      fs.writeFile("out.htm",str,function(){
          console.log("写入成功");
     })
     console.log(matchs.length,matchs[0]);
 })

 

分享到:
评论

相关推荐

    itext jar包组合-导出word文档案例,解决中文乱码问题

    在处理中文时,确保设置正确的字体和编码,以避免乱码问题。 3. **设置字体和编码**:使用FontFactory类来注册并设置支持中文的字体,如SimSun或Arial Unicode MS,并确保文档的输出编码是UTF-8。 4. **创建...

    Android word转html

    在转换过程中,若不正确处理字符编码,可能导致中文字符显示为乱码。Word文档通常存储为Unicode(UTF-16),而HTML默认可能是UTF-8或其他编码。因此,转换时必须确保正确识别源文档的编码,并在生成HTML时指定正确...

    中文 Big5/GBK/Unicode/UTF8 内码转换器

    GBK,全称为“国标汉字扩展A区和B区编码”,是中国大陆广泛使用的中文编码,兼容GB2312标准,扩展了更多汉字和符号,支持简体和繁体中文。 Unicode,又称万国码,是一个统一的编码标准,旨在涵盖世界上所有语言的...

    解决MYSQL中文乱码

    本篇文章将深入探讨如何解决 MySQL 数据库中的中文乱码问题,以及与之相关的 JSP 页面显示乱码的解决方案。 首先,让我们理解为什么会出现中文乱码。这通常与字符编码不一致有关。在 Web 开发中,数据可能在多个...

    vs中文乱码

    以下是一些关于如何解决 VS 到 Word 中文乱码问题的详细知识点: 1. **编码理解**: - **Unicode**:这是一种全球通用的字符编码标准,包括了中文在内的多种语言字符。 - **UTF-8**:Unicode 的一种实现方式,是...

    table-export(excel、word等中文无乱码)多版本合集

    "table-export(excel、word等中文无乱码)多版本合集"是一个专门处理表格导出至Excel、Word等格式的工具包,旨在确保在处理中文字符时不会出现乱码问题。这个合集包含了不同版本的table-export实现,以适应各种开发...

    word转pdf文件

    然而,需要注意的是,目前对于中文的支持在某些工具中可能不够完善,可能会出现乱码或排版问题。 HTML转PDF的过程通常涉及到一些开源库,比如Apache POI用于处理Word文档,Jsoup或Nokogiri解析HTML,最后使用像...

    DOC2CHM的使用及解决中文乱码.pdf

    然而,在处理中文内容时,可能会遇到乱码问题,尤其是在某些编辑器如VSCode中。本文将详细介绍DOC2CHM的使用方法以及如何解决中文乱码问题。 首先,使用DOC2CHM的步骤如下: 1. **打开DOC2CHM**:启动软件后,会有...

    真的很完美的汉字代码

    《真的很完美的汉字代码》 在信息技术领域,汉字编码是一个至关重要的环节,它使得...无论是网页设计、数据库管理还是软件开发,都需要对汉字编码有深入的理解,才能有效地处理中文信息,避免乱码问题,提高工作效率。

    解决电脑乱码问题.doc

    "解决电脑乱码问题" 解决电脑乱码问题是我们在使用电脑时经常会遇到的问题,乱码给我们带来了太多的烦恼。为了帮助大家完全摆脱乱码,我们就来探讨一下乱码的形成原因及其消除方法。 一、乱码的类型 乱码有五种...

    ConvertZ中文 Big5/GBK/Unicode/UTF8 内码转换器

    用途: 中文 Big5/GBK/Unicode/UTF8 内码转换器。  注意:档案转换只能将纯文字格式的文件(例如 txt, html 等)转码,  并不适用于如 MS Word, Excel 等 binary 档案。 系统要求: 视窗9x/ME/NT/2000/XP/2003

    css中文显示

    在处理中文字符时,可能会遇到各种问题,如乱码、字体不正确或者显示不全等。下面我们将详细探讨如何使用CSS确保网页中的中文能够正确、美观地呈现。 首先,我们要理解浏览器是如何处理字符编码的。在HTML或CSS文件...

    js 导出table为excel/csv/png/txt/doc文件(支持中文)

    对于中文字符,确保HTML编码正确,避免乱码问题。 2. **CSV导出**:CSV(逗号分隔值)是一种简单的文件格式,用于存储结构化数据。我们可以遍历前面获取的数组,用逗号连接每个单元格,每行结束时添加换行符。`Blob...

    过虑word复制引起的不能提交

    Word文档可能包含各种特殊字符、格式化信息(如字体、颜色、超链接等)以及非标准的Unicode编码,这些在复制到MySQL时可能会引起问题。MySQL数据库通常以特定的字符集存储数据,如UTF-8或GBK,如果复制的文本中包含...

    gb2312.rar

    GB2312是中华人民共和国国家标准的简体中文字符编码,全称为“信息交换用汉字编码字符集·基本集”,在1980年发布,是中国早期广泛使用的汉字编码方案,主要用于存储和处理中文文本。它定义了6763个常用汉字和682个...

    FixVS2010Copy.rar_doc

    - `FixVS2010Copy`可能是包含修复乱码问题的代码或脚本,用户需要打开并按照说明操作。 综上所述,解决Visual Studio 2010代码复制到Word文档出现乱码的问题,关键在于理解和调整编码设置,确保源代码文件与目标...

    ConvertZ_8.02

    ConvertZ 是一个中文内码转换器,用于中文 Big5/GBK/Unicode/UTF8 内码转换。能够让你随心所欲地将简体文件转换成繁体文件,转换速度相当快。 支持同时转换多个文件文件、提供文件及剪贴簿内码转换,且无文件大小...

    Python常见第三方库

    14. uniout:提取字符串中的可读字符,帮助处理乱码问题。 15. awesome-slugify和python-slugify、unicode-slugify:这些库用于将Unicode文本转换为ASCII,生成适合URL的slug。 16. ply:提供词法分析和语法分析...

    处理生僻字

    生僻字,也被称为罕用字或冷僻字,是指在日常生活中不常使用的汉字,它们在语言交流中出现频率较低,但在某些专业领域或古籍中却常见。处理生僻字是信息技术中的一个特殊挑战,因为这些字符的编码复杂,且在不同的...

Global site tag (gtag.js) - Google Analytics