unicode中汉字区间问题 - zhuanggl - ITeye博客

`

zhuanggl

浏览: 14064 次
性别:
来自: 杭州

最近访客更多访客>>

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

Willam2004：不能这么说吧，本身这并不是btrace的入门文档。你可以先将b ...
btrace使用实例
fucktianya： SB。这也叫写的详细，连怎么配置都没说。对新手没帮忙。至于你的 ...
btrace使用实例
Willam2004：老庄写的很详细，刚好正在学习btrace。
btrace使用实例
sesame：刚好也在研究BTrace的使用，结果找到的都是自己公司人的。
btrace使用实例
argan： btrace是个好东西，维护好自己定制的一套脚本就很好用了
btrace使用实例

unicode中汉字区间问题

博客分类：

java

算法 C C++C#HTML

阅读更多

今天接到一个优化性能的任务，把一个过滤非汉字字符的算法性能提高一下，原来方法使用了如下方法：

if (Character.UnicodeBlock.of(c) == Character.UnicodeBlock.CJK_UNIFIED_IDEOGRAPHS)

这个方法内部使用了一个二分查找的算法在一个100多个元素的数组中查找对应的UnicodeBlock，对于一个50K的html文件说，性能非常差。

经过查看发现，其实中文字符的Unicode区间只有以下几种：

所以对于我们这个简单的算法只要判断字符是否在0x4E00~0X9FFF之间就可以了，实现后仅仅这个因素性能提升就可以提升7倍（当然还有方法调用的消耗）。

分享到：

apache mod_jk tomcat配置过程

2008-07-20 14:37
浏览 2260
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

所有中文字Unicode编码区间及常用中文字Unicode编码: 所有中文字Unicode编码区间及常用中文字Unicode编码，在生成随机验证码时可能使用到

汉字区间（16进制）: “汉字区间（16进制）”不仅是Unicode编码体系中的一项重要内容，也是IT行业中处理中文文本不可或缺的基础知识。从验证码校验到数据库优化，再到自然语言处理，掌握汉字的编码范围，能够帮助开发者更好地理解和处理...

unicode中文编码表: - **4F00 - 50FF**: 在这部分区间中，我们可以看到不仅有汉字的编码，还混杂了一些拉丁字母和其他符号，这表明Unicode不仅仅限于汉字编码，还包括其他字符集的支持。 - **5100 - 53FF**: 这个区间的编码更加稀疏，...

通过对字符的unicode编码进行判断来确定字符是否为中文: ### 通过对字符的Unicode编码进行判断来确定字符是否为中文在计算机编程中，经常需要对文本中的字符进行处理和判断...总之，通过Unicode编码判断字符是否为中文字符的方法简单而有效，可以在各种应用程序中广泛使用。

汉字unicode编码表: 1. **Unicode编码范围**：4E00至9FCF是Unicode为现代中文常用汉字分配的编码区间，共包含约20,902个汉字。这一编码范围覆盖了现代中文日常交流所需的绝大多数汉字，包括常用的简体字和繁体字。 2. **Unicode版本5.1...

各国文字Unicode编码范围.zip: 这个标准由Unicode联盟制定，包括了各种书写系统中的字母、符号、表情等，从拉丁文到汉字，再到阿拉伯文和印度文等，无所不包。Unicode编码的使用极大地促进了跨语言文本处理的效率和准确性。 “各国文字Unicode...

UNICODE编码表(汉字，规律排列): 在Unicode编码体系中，对于中文字符（尤其是繁体和简体汉字）的支持是通过**CJK Unified Ideographs**（中日韩统一表意文字）来实现的。这部分编码范围广泛涵盖了汉字的使用需求，特别是针对东亚地区的书写系统。 #...

基于Python实现的检测中文,英语,韩文,日文源代码，利用不同语言的unicode字符区间不同来进行检测: 使用方法把langdetect文件夹拷贝到项目中，... 由于日文中的汉字和中文的unicode大部分是通用的，因此无法通过unicode区分日文和中文汉字。我们可以假设，含有日文假名的就是日文，这样判断一句话是日文还是中文。

Unicode汉字内码表: ### Unicode汉字内码表知识点详解 #### 一、Unicode简介 **Unicode** 是一种国际标准字符编码方案，旨在为世界上所有书写系统提供统一且唯一的数字编码。它支持全球范围内多种语言文字的处理与显示，包括但不限于...

各国文字Unicode编码范围: 它由Unicode联盟制定，包括了各种文字系统，如拉丁字母、汉字、日文、韩文、阿拉伯文等。通过Unicode编码，不同的计算机系统可以无缝地交换和处理文本，无论这些文本是何种语言。在Unicode中，每种语言或文字系统...

中文汉字随机码字符: 中文汉字在Unicode中的编码范围主要集中在以下区间： - 基本多文种平面（BMP）：`U+4E00` 至 `U+9FFF` - 扩展汉字A区：`U+3400` 至 `U+4DBF` - 扩展汉字B区：`U+20000` 至 `U+2A6DF` 这些区间覆盖了现代汉语中最常...

常见汉字unicode编码: 通过对“常见汉字Unicode编码”的学习，我们不仅了解了Unicode的基本概念及其在处理多语言文本中的重要作用，还掌握了如何利用这些编码在软件开发中实现特定功能（如验证码）。随着全球化趋势的发展，掌握这类技术...

unicdoe转中文泰文日文阿拉伯文英文等等也可以互相转,输入对应的码可以转成对应unicode区间的string: unicdoe转中文泰文日文阿拉伯文英文等等也可以互相转,输入对应的码可以转成对应unicode区间的string

汉字unicode码.txt: - **编码范围**：从提供的数据来看，这些汉字的Unicode编码大多位于U+5000至U+9000区间内，这是汉字Unicode编码的常见范围。 - **编码含义**：每个Unicode编码对应着一个具体的汉字或符号，这意味着通过查找特定的...

汉字提取拼音首字母函数: 但需要注意的是，这个范围只是常用汉字的一部分，还有很多特殊的汉字分布在不同的Unicode区间内。 #### 四、`pinyin`函数中的Unicode范围映射在`pinyin`函数中，通过一系列的`Case`语句定义了不同Unicode范围内的...

Unicode全球分区: - 例1：汉字“汉”在Unicode中的编码是0x6C49，该字符位于0x0800-0xFFFF之间，所以使用3字节模板进行编码。将0x6C49转换为二进制是***，按模板替换后得到的UTF-8编码为E6B189。 - 例2：Unicode编码0x20C30位于0x...

unicode编码转换: 根据Unicode标准，大多数常用汉字被分配到了U+4E00至U+9FFF这一区间内，这部分也被称为CJK（中日韩）统一表意文字块。随着Unicode版本的不断更新，越来越多的汉字被加入到这个庞大的字符集中，以满足不同地区和历史...

UNICODE编码表，方便查找对应关系: 而CJK统一表意文字（CJK Unified Ideographs）是Unicode编码中的一个重要部分，它包括了中文、日文、韩文中的汉字字符。 Unicode编码表是开发人员和用户查找和理解不同字符编码关系的重要工具。在Unicode中，每个...

Unicode 字符编码表: 然而，Unicode的魅力远不止于此，它还广泛覆盖了包括中文、日文、韩文、阿拉伯文、希伯来文、印地文等多种语言的符号系统。举例而言，U+00A1代表的是西班牙语中的倒转感叹号，U+00A9代表的是版权符号（©），这些都...

汉字批量转Unicode，生成C语言格式的16进制数组: 对于汉字，Unicode编码通常在基本多文种平面（BMP）内的U+4E00到U+9FFF区间。 TFT_eSPI是一个用于Arduino的图形库，支持各种彩色TFT显示屏。它允许开发者自定义字体，以便在屏幕上显示非标准字符，如汉字。在...

Global site tag (gtag.js) - Google Analytics