`
sdmzhu3
  • 浏览: 30813 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

html 转移的编码转换

阅读更多
html 转移的编码转换
php的解决方案
<?
echo mb_convert_encoding('&#30334;&#20998;', 'UTF-8', 'HTML-ENTITIES');
?>

python解决方案
def unescape(text):
   """Removes HTML or XML character references 
      and entities from a text string.
   @param text The HTML (or XML) source text.
   @return The plain text, as a Unicode string, if necessary.
   from Fredrik Lundh
   2008-01-03: input only unicode characters string.
   http://effbot.org/zone/re-sub.htm#unescape-html
   """
   def fixup(m):
      text = m.group(0)
      if text[:2] == "&#":
         # character reference
         try:
            if text[:3] == "&#x":
               return unichr(int(text[3:-1], 16))
            else:
               return unichr(int(text[2:-1]))
         except ValueError:
            print "Value Error"
            pass
      else:
         # named entity
         # reescape the reserved characters.
         try:
            if text[1:-1] == "amp":
               text = "&amp;amp;"
            elif text[1:-1] == "gt":
               text = "&amp;gt;"
            elif text[1:-1] == "lt":
               text = "&amp;lt;"
            else:
               print text[1:-1]
               text = unichr(htmlentitydefs.name2codepoint[text[1:-1]])
         except KeyError:
            print "keyerror"
            pass
      return text # leave as is
   return re.sub("&#?\w+;", fixup, text)

分享到:
评论

相关推荐

    编码转换工具集

    3. 网络传输:HTTP协议默认使用ASCII编码,但在传输包含非ASCII字符的数据时,如中文,需要进行编码转换,通常会使用URL编码(%xx形式)或者在HTTP头中指定字符编码,如Content-Type: text/html; charset=utf-8。 4...

    编码检测软件

    - **跨平台问题**:不同操作系统和程序可能默认使用不同的编码,导致文件在转移过程中可能出现编码问题。 3. **编码检测软件的功能** - **自动检测**:软件能自动分析输入数据的字节序列,通过算法推测出最可能的...

    字符集转换程序ChChar_jb51

    - 数据迁移:在不同系统间转移文件时,可能出现字符集不一致的问题,ChChar_jb51可以帮助完成转换。 - 网页开发:处理含有多种语言的网页,需要对HTML或数据库中的字符集进行转换。 - 文件共享:与使用不同编码...

    gps文件格式转换工具gpsbabel

    5. 将数据从一种地理编码格式转换为另一种,例如从WGS84坐标系转换到其他投影坐标系。 总的来说,GPSBabel是一个强大且灵活的工具,对于需要处理多种GPS数据格式的用户来说,它是不可或缺的资源。无论你是户外爱好...

    转换工具999

    1. 文件格式转换:例如,将PDF文件转换为Word、Excel或图像格式,或者将音频和视频文件从一种编码格式转换为另一种,以便在不同设备上播放或进行编辑。 2. 图像处理:转换工具可以改变图片的格式(如JPEG转PNG),...

    免费 java中文乱码字符集处理大全.docx

    当Java程序在这些系统上运行时,需要将Unicode编码转换为GBK或GB2312,反之亦然,转换过程中的错误可能导致乱码。 3. Java程序需要跨平台运行,这意味着在英文或其他非中文系统上运行时,编码转换的兼容性问题会变...

    flv的视频转换和在线播放

    2. **编码参数**:转换过程中,我们需要关注视频的编码参数,如分辨率、比特率、帧率等,这些参数将影响视频质量和文件大小。 3. **音视频同步**:在转换过程中,确保音视频同步是至关重要的,任何同步问题都会影响...

    超级exe、html电子书转txt软件.rar

    - **编码识别**:不同的文件可能使用不同的字符编码,如UTF-8、GBK等,正确识别并转换编码至关重要,否则可能导致乱码。 - **图片和链接处理**:HTML电子书中可能包含图片和链接,转换时需决定是否保留或忽略,以及...

    最常用的HTML转义字符 Escape Sequence

    当浏览器在HTML文档中遇到这些转义字符时,会将它们转换成对应的特殊符号,而不是将它们作为HTML标签的一部分来处理。 HTML转义字符的格式由三个部分组成: 1. 一个和号(&):这是转义序列的开始,用来告诉浏览器...

    FixVS2010Copy.rar_doc

    为了解决这一问题,我们需要理解一些关于编码、文本格式以及如何在不同应用程序之间正确转移数据的关键知识点。 1. **编码与字符集**: - **ASCII编码**:早期的7位ASCII编码只能表示128个字符,包括英文、数字和...

    epub_mobi互转工具

    值得注意的是,虽然此工具能有效地进行格式转换,但可能会遇到版权保护的书籍无法转换的情况,因为这些书籍通常有DRM(数字版权管理)保护,限制了文件的修改和转移。 转换过程中,确保源文件的质量和完整性至关...

    应用层作业(1)1

    Base64编码是一种将二进制数据转换为可打印ASCII字符的编码方式,它将每3个字节(24位)转换为4个6位的字符。由于每个Base64字符代表6位,原始长度的4560字节需要除以3并向上取整得到新的Base64编码后的长度。此外,...

    transfer-zone:转移专区是一个站点,程序员可以通过提供翻译表来快速从一种他们已经知道的另一种语言中快速启动一种新语言。

    如果"转移区"包含HTML相关的转换表,那么对于熟悉其他Web开发语言如PHP或JavaScript的开发者来说,他们可以更轻松地理解和学习HTML,因为他们可以将已知的编程概念与HTML的元素和属性进行对照。 在提供的压缩包文件...

    Codepage Converter-开源

    "Codepage Converter"是一款开源软件,专为解决文件编码转换问题而设计,能够帮助用户轻松地将HTML或文本文件从一种编码格式转换为另一种,比如将常见的ANSI编码转换为更通用的UTF-8或Unicode编码。对于处理多语言或...

    destoon网站转移服务器后搜索汉字出现乱码的解决方法

    在实践中,解决这类问题还需要确保数据库的字符集设置与新的服务器环境相匹配,通常需要检查并可能调整数据库的编码设置(如`CHARSET`和`COLLATE`),同时,确认网站源代码中的编码声明(如HTML的`&lt;meta charset&gt;`...

    功能非常全面的一个论坛源码

    全部编码转换在客户端完成,服务器端取消所有编码转换工作 .帖子表情取消一半 .修复或完善一些LeadCode中存在的错误或缺陷 .原先UBB参数设置中的发帖模式作用目前刚好相反,比如原先设为普遍模式现在将视为高级模式...

    http1.1 http1.1

    转移编码用于指定消息体传输时的编码方式,如`chunked`编码允许分块传输数据而无需预先知道整个消息体的大小。 ##### 5.7 媒体类型 媒体类型(MIME类型)用于指示消息体的具体格式,例如"text/html"表示HTML文档。...

    网站开发防止中文乱码需要了解的codepage的重要性小结

    在例子中,如果write.asp使用Big5编码,而add.asp使用GBK编码的codepage,那么“化六个讨论”这样的文字在传输过程中可能会因为编码转换错误而显示异常。 简体中文系统通常使用GBK或GB2312编码,而繁体中文系统通常...

    实验6 JSP技术.docx

    **设计思路**:首先创建一个简单的登录页面`login.html`,然后将其转换为`login.jsp`,并在最顶部添加`&lt;%@ page %&gt;`指令,指定页面的语言、内容类型和字符编码。 **案例实现**: 1. **原始的login.html文件**:这...

    java基础题

    5. 解决乱码问题的方法包括:使用正确的编码转换、设置编码过滤器、统一编码标准和设置中间件的URL编码类型。 6. Spring的IoC(Inversion of Control,控制反转)特性中,A选项描述错误,因为IoC指的是控制权由应用...

Global site tag (gtag.js) - Google Analytics