`
zhuanggl
  • 浏览: 14064 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
最近访客 更多访客>>
社区版块
存档分类
最新评论

unicode中汉字区间问题

    博客分类:
  • java
阅读更多

今天接到一个优化性能的任务,把一个过滤非汉字字符的算法性能提高一下,原来方法使用了如下方法:

if (Character.UnicodeBlock.of(c) == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS)

这个方法内部使用了一个二分查找的算法在一个100多个元素的数组中查找对应的UnicodeBlock,对于一个50K的html文件说,性能非常差。

经过查看发现,其实中文字符的Unicode区间只有以下几种:

所以对于我们这个简单的算法只要判断字符是否在0x4E00~0X9FFF之间就可以了,实现后仅仅这个因素性能提升就可以提升7倍(当然还有方法调用的消耗)。

分享到:
评论

相关推荐

    所有中文字Unicode编码区间及常用中文字Unicode编码

    所有中文字Unicode编码区间及常用中文字Unicode编码,在生成随机验证码时可能使用到

    汉字区间(16进制)

    “汉字区间(16进制)”不仅是Unicode编码体系中的一项重要内容,也是IT行业中处理中文文本不可或缺的基础知识。从验证码校验到数据库优化,再到自然语言处理,掌握汉字的编码范围,能够帮助开发者更好地理解和处理...

    unicode中文编码表

    - **4F00 - 50FF**: 在这部分区间中,我们可以看到不仅有汉字的编码,还混杂了一些拉丁字母和其他符号,这表明Unicode不仅仅限于汉字编码,还包括其他字符集的支持。 - **5100 - 53FF**: 这个区间的编码更加稀疏,...

    通过对字符的unicode编码进行判断来确定字符是否为中文

    ### 通过对字符的Unicode编码进行判断来确定字符是否为中文 在计算机编程中,经常需要对文本中的字符进行处理和判断...总之,通过Unicode编码判断字符是否为中文字符的方法简单而有效,可以在各种应用程序中广泛使用。

    汉字unicode编码表

    1. **Unicode编码范围**:4E00至9FCF是Unicode为现代中文常用汉字分配的编码区间,共包含约20,902个汉字。这一编码范围覆盖了现代中文日常交流所需的绝大多数汉字,包括常用的简体字和繁体字。 2. **Unicode版本5.1...

    各国文字Unicode编码范围.zip

    这个标准由Unicode联盟制定,包括了各种书写系统中的字母、符号、表情等,从拉丁文到汉字,再到阿拉伯文和印度文等,无所不包。Unicode编码的使用极大地促进了跨语言文本处理的效率和准确性。 “各国文字Unicode...

    UNICODE编码表(汉字,规律排列)

    在Unicode编码体系中,对于中文字符(尤其是繁体和简体汉字)的支持是通过**CJK Unified Ideographs**(中日韩统一表意文字)来实现的。这部分编码范围广泛涵盖了汉字的使用需求,特别是针对东亚地区的书写系统。 #...

    基于Python实现的检测中文,英语,韩文,日文源代码,利用不同语言的unicode字符区间不同来进行检测

    使用方法 把langdetect文件夹拷贝到项目中,... 由于日文中的汉字和中文的unicode大部分是通用的,因此无法通过unicode区分日文和中文汉字。 我们可以假设,含有日文假名的就是日文,这样判断一句话是日文还是中文。

    Unicode汉字内码表

    ### Unicode汉字内码表知识点详解 #### 一、Unicode简介 **Unicode** 是一种国际标准字符编码方案,旨在为世界上所有书写系统提供统一且唯一的数字编码。它支持全球范围内多种语言文字的处理与显示,包括但不限于...

    各国文字Unicode编码范围

    它由Unicode联盟制定,包括了各种文字系统,如拉丁字母、汉字、日文、韩文、阿拉伯文等。通过Unicode编码,不同的计算机系统可以无缝地交换和处理文本,无论这些文本是何种语言。 在Unicode中,每种语言或文字系统...

    中文汉字随机码字符

    中文汉字在Unicode中的编码范围主要集中在以下区间: - 基本多文种平面(BMP):`U+4E00` 至 `U+9FFF` - 扩展汉字A区:`U+3400` 至 `U+4DBF` - 扩展汉字B区:`U+20000` 至 `U+2A6DF` 这些区间覆盖了现代汉语中最常...

    常见汉字unicode编码

    通过对“常见汉字Unicode编码”的学习,我们不仅了解了Unicode的基本概念及其在处理多语言文本中的重要作用,还掌握了如何利用这些编码在软件开发中实现特定功能(如验证码)。随着全球化趋势的发展,掌握这类技术...

    unicdoe转中文 泰文 日文 阿拉伯文 英文等等 也可以互相转,输入对应的码可以转成对应unicode区间的string

    unicdoe转中文 泰文 日文 阿拉伯文 英文等等 也可以互相转,输入对应的码可以转成对应unicode区间的string

    汉字unicode码.txt

    - **编码范围**:从提供的数据来看,这些汉字的Unicode编码大多位于U+5000至U+9000区间内,这是汉字Unicode编码的常见范围。 - **编码含义**:每个Unicode编码对应着一个具体的汉字或符号,这意味着通过查找特定的...

    汉字提取拼音首字母函数

    但需要注意的是,这个范围只是常用汉字的一部分,还有很多特殊的汉字分布在不同的Unicode区间内。 #### 四、`pinyin`函数中的Unicode范围映射 在`pinyin`函数中,通过一系列的`Case`语句定义了不同Unicode范围内的...

    Unicode全球分区

    - 例1:汉字“汉”在Unicode中的编码是0x6C49,该字符位于0x0800-0xFFFF之间,所以使用3字节模板进行编码。将0x6C49转换为二进制是***,按模板替换后得到的UTF-8编码为E6B189。 - 例2:Unicode编码0x20C30位于0x...

    unicode编码转换

    根据Unicode标准,大多数常用汉字被分配到了U+4E00至U+9FFF这一区间内,这部分也被称为CJK(中日韩)统一表意文字块。随着Unicode版本的不断更新,越来越多的汉字被加入到这个庞大的字符集中,以满足不同地区和历史...

    UNICODE编码表,方便查找对应关系

    而CJK统一表意文字(CJK Unified Ideographs)是Unicode编码中的一个重要部分,它包括了中文、日文、韩文中的汉字字符。 Unicode编码表是开发人员和用户查找和理解不同字符编码关系的重要工具。在Unicode中,每个...

    Unicode 字符编码表

    然而,Unicode的魅力远不止于此,它还广泛覆盖了包括中文、日文、韩文、阿拉伯文、希伯来文、印地文等多种语言的符号系统。举例而言,U+00A1代表的是西班牙语中的倒转感叹号,U+00A9代表的是版权符号(©),这些都...

    汉字批量转Unicode,生成C语言格式的16进制数组

    对于汉字,Unicode编码通常在基本多文种平面(BMP)内的U+4E00到U+9FFF区间。 TFT_eSPI是一个用于Arduino的图形库,支持各种彩色TFT显示屏。它允许开发者自定义字体,以便在屏幕上显示非标准字符,如汉字。在...

Global site tag (gtag.js) - Google Analytics