`
wuhuizhong
  • 浏览: 688756 次
  • 性别: Icon_minigender_1
  • 来自: 中山
社区版块
存档分类
最新评论

判断一文本字串的编码类型

    博客分类:
  • ROR
阅读更多

rchardet,是python-chardet的port. 而python-chardet, 是mozilla browser的encoding auto-detection实现的port.关于细节, 可以看这里: http://nextlib.lifegoo.com/user/sishen/article/2605 : A composite approach to language/encoding detection

 

安装:

$gem install rchardet

 
使用:

$irb -rubygems
irb(main):001:0> require 'rchardet'
=> true
irb(main):002:0> CharDet.detect("\xA4\xCF")
=> {"encoding"=>"EUC-JP", "confidence"=>0.99}
irb(main):003:0> CharDet.detect("中国")
=> {"encoding"=>"utf-8", "confidence"=>0.7525}

 


针对网页, 发起http request得到rawdata, 然后用rchardet去detect即可.

分享到:
评论

相关推荐

    判断一个字串中是否有汉字的正则表达式

    - **文本分析**:在进行自然语言处理时,需要识别文本中的语言类型,判断其中是否包含特定的语言成分。 - **数据清洗**:在数据预处理阶段,可能需要过滤掉包含特定字符的数据,如去除含有汉字的记录。 - **输入验证...

    正则表达式 Java 判断字串是否合理

    正则表达式是一种强大的文本处理工具,它能够帮助我们匹配、查找、替换等操作符合某种规则的字符串。在Java中,通过`java.util.regex`包提供了对正则表达式的支持。 ### 2. 邮箱地址验证 在实际应用中,经常需要...

    简繁体字转换的代码

    在IT行业中,字符编码与文字转换是一个常见的需求,特别是在处理中文文本时,简体与繁体之间的转换尤为重要。本文将详细讲解如何利用DLL(动态链接库)文件进行简繁体字转换,以及如何在编程中调用DLL中的静态函数。...

    java-servlet-api.doc

    在客户端加入之前,我们不能判断下一个客户端请求是目前会话的一部分。 在下面的情况下,Session会被认为是新的Session。 客户端的Session在此之前还不知道 客户端选择不加入Session,例如,如果客户端拒绝接收来自...

    50个ASP函数[借鉴].pdf

    4. **目录操作**: 包括`判断目录是否存在`、`创建目录`、`删除目录`和`指定目录的文件列表`等,用于管理服务器上的文件和目录。 5. **数据库操作**: 如`创建MsAccess数据库`、`创建MsSQLServer数据库`以及`在数据库...

    用正则表达式来表示中文

    这个正则表达式的含义是:字符串必须由一个或多个在这个范围内的字符组成,用于判断是否为纯中文字符串。 然而,值得注意的是,这个正则表达式只能匹配GBK编码中的部分中文字符,对于更广泛的Unicode汉字(包括繁体...

    C#常用函数和方法集.pdf

    - `char.IsWhiteSpace(字串变量, 位数)`: 这个方法可以用来判断字符串中指定位置的字符是否为空格。 以上总结了C#中一些常用的函数和方法,涵盖了日期时间操作、类型转换、字符串处理、HTTP请求处理、会话管理、...

    asp常用函数库超级详细版

    ASP(Active Server Pages)是一种微软开发的服务器端脚本语言,常用于构建动态网页。这个“ASP常用函数库”文档包含了一系列在ASP编程中常用的函数,涵盖了文件操作、字符串处理、网络信息获取、数据库交互等多个...

    正则表达式

    对正则表达式中前一子表达式的引用所指定的并不是那个子表达式的模式,而是与那个模式相匹配的文本.这样,引用就不只是帮助你输入正则表达式的重复部分的快 捷方式了,它还实施了一条规约,那就是一个字符串各个分离的...

    XML轻松学习手册--XML肯定是未来的发展趋势,不论是网页设计师还是网络程序员,都应该及时学习和了解

    DTD文件也是一个ASCII的文本文件,后缀名为.dtd。例如:myfile.dtd。 为什么要用DTD文件呢?我的理解是它满足了网络共享和数据交互,使用DTD最大的好处在于DTD文件的共享。(就是上文DTD说明语句中的PUBLIC属性)。...

    Java面试复习5附答案

    3. **题目**: 下列哪一个方法不是字串对象的常用方法? - **解析**: 字符串对象提供了诸如`charAt()`, `concat()`, `indexOf()`, `lastIndexOf()`, `match()`, `replace()`, `search()`, `slice()`, `split()`, `...

    PHP基础教程 是一个比较有价值的PHP新手教程!

    通过我们已经学过的知识,你可以编写一个最简单的程序输出一个也许是程序世界中最有名的词语: echo "Hello World!"; ?> First PHP page // Single line C++ style comment /* printing the message */ ...

    Radialix 3.00.00.486 中文破解版

    Radialix 是一款功能比较强大的软件本地化工具,支持以 VC++、Delphi、.Net 等语言编写的软件、以及 INI 格式文本文件的本地化。尤其是它具有非标资源的本地化功能、以及可以设置更多的资源属性。以下是开发商的描述...

Global site tag (gtag.js) - Google Analytics