`
totoxian
  • 浏览: 1074877 次
  • 性别: Icon_minigender_2
  • 来自: 西安
文章分类
社区版块
存档分类
最新评论

[译]Windows 古僻汉字输入方法

阅读更多
周海汉按:原文作者好南儿,采用上海话(吴语)写的blog,有点看不懂吴语。
但他的知识和资料很到位,图文并茂,是篇很好的文章,应该花了不少心血。
本人也不懂吴语,连蒙带猜翻译一下。方便普通话读者。误会之处,请原作者和读者海涵。

原文地址:
http://shanghaian.72pines.com/how-to-input-difficult-han-characters-in-windows/
译文地址:

http://blog.csdn.net/ablo_zhou/archive/2010/02/16/5309912.aspx

Windows 生僻汉字输入方法

2010/01/21 — 好南儿

0.0 汉字与 Unicode

处理古僻汉字,就用 Unicode 字集里的汉字—— 目前收录的统一汉字已经有了 74394 。如果这里还找不到你要的字,那么就用 IDS 表示,文章不打印的话尽量不要自己造字。

Unicode 里汉字字块包括汉日朝统一表意字( CJK 、汉统, 20940 个)、汉日朝统一表意字扩充甲( Ext-A 、扩甲, 6582 个)、汉日朝统一表意字扩充乙( Ext-B 、扩乙, 42711 个)、汉日朝统一表意字扩充丙( Ext-C 、扩丙, 4149 个)、汉日朝部首增补、汉日朝笔 划、汉日朝兼容表意字、汉日朝兼容表意字增补等。下面我主要讨论汉日朝统一表意字四个字块七万五千个汉字。至于一般性的繁体字、异体字,任何支 持 GBK 个输入法(如微软、紫光、 Google )全好解决,本文不再赘叙。

0.0.1 Unicode 里的四块汉日朝统一表意字

Unicode 1.0.1 初建“汉日朝统一表意字”时,收字 20902 个, Unicode 4.1 增加 22 个字符, Unicode 5.2 又增加 16 个。 20902 个字符 GBK 全收入了, 22 个字符 GB 18030 收了 8 个部首。汉统( Unihan) 里的 38 个字符一般的字库顶多显示 8 个,

cjk-20902-8
Unifonts 5.4
可以显示 22 个。


cjk-20902-22

目前还没哪个字库、输入法完整支持汉统 20940 个字符,下面提到哪个字库、输入法,如没特别说明,“汉统”基本上指 20940 个字符的汉统。至于 GBK GB 18030 里的私用区的字符这里不考虑。

尽管扩甲与扩乙里的字 GB 18030 全收录了,但是市面上支持扩甲的字库要比支持扩乙、扩丙的多(详见 0.1 节)。这个我想主要是因为前者位于 Unicode 多语基本面 ( BMP ),而位于表意增补面( SIP )的后者处理起来比较复杂,外加字库文件一般只容纳六万多个字符——而汉统加扩甲再加扩乙就要超过七万个了。

0.0.2 Windows 对扩充汉字的支持

Windows 系统从 2000 版开始以 UTF-16 为机内码,也就是讲从这个版本开始支持位于表意增补面的扩乙、扩丙汉字。不过支持归支持,要正常显示出来还要另外找字库—— Win2k 发布的时候扩乙、扩丙还没有建立啊。

至于 2000 版之前的 Windows ,只好支持位于多语基本面的汉统与扩甲。

0.1 字库

上面讲过,有操作系统对 Unicode 编码的支持,还要靠相应的字库来显示。下载好字库,除了 exe 文件好自动安装之外,字库文件要你自己拖到 Windows Fonts 文件夹里。

0.1.1 宋体 -18030

微软针对 Windows 2000 提供“ GB18030 Support Package” ,用来支持 GB 18030:2000 字集(汉统+扩甲)。

0.1.2 宋体 - 方正超大字符集

MS Office XP 2003“ 简体中文版”里,收字包括汉统+扩甲+部分扩乙(因为它是单个的字库文件,扩乙只好放一部分)。

0.1.3 Windows Vista 7 里的宋体、细明体、黑体、楷体、仿宋

Windows Vista 7 里的黑体、楷体、仿宋全是支持 GB 18030:2000 的(汉统+扩甲),宋体、细明体除了汉统、扩甲,还支持扩乙。

0.1.4 Unifonts

海峰做的 Unifonts 5.4 (中日韩汉字超大字符集通用字体支持包)支持汉统 + 扩甲 + 扩乙 + 扩丙,包括宋体与细明体两套。

直接下载

Vista 以后的宋体字库汉统与扩甲放到了 SimSun 里,扩乙放到 SimSun-ExtB 里;而 Uniconts 扩甲放在 Sun-ExtA 里,扩乙与扩丙放在 Sun-ExtB 里。

0.1.5 楷体 - 方正超大字符集

文渊阁四库全书电子版 3.0 里,汉统+扩甲+扩乙。我也没用过,估计分两个文件的。

下载页面

0.1.6 宋体 - 全汉字集

采采卷耳做的字库,汉统 + 扩甲 + 扩乙。

直接下载

0.1.7 BabelStone Han

Andrew WEST 做的字库,对于汉日朝统一表意字没有完全支持,但是汉统最后的 38 个字符它全能显示。
cjk-20902-38

直接下载

0.2 储存文档注意事项

讲如何输入古僻汉字之前,再啰嗦两句 GBK 外汉字如何储存的问题。txt-unicode

0.2.1 txt

储存的时候要选“ Unicode” ,你选“ ANSI” 只能储存 GBK 范围的汉字。

0.2.2 html

储存时候 charset 要设为“ utf-8” ,你写“ charset=GB2312” 只能储存 GBK 范围的汉字。
charset-utf-8

0.2.3 sql

由于 MySQL 本身的失误 ,用它做数据库的论坛(如 Discuz! )、博客(如 WordPress )通常不支持位于 SIP 的扩充汉字。好南儿博客对于扩充汉字 全用 IDS 表示 ,尽管 MySQL 支持扩甲。

0.2.4 余论

现在除了汉语言文字专题论坛、在线汉语辞典、基于 Wiki 的网站,基本上没有网站支持扩充汉字。搜索引擎里, Google 支持扩充汉字,“更懂中文”的百度不支持。
du-in-google-baidu

1.0 找字

现在正式介绍如何输入了。这节是写给 不常打古僻汉字的同好看的

1.1 “ 字符映射表”

来到“附件\系统工具”里。选好“字体”,选中“高级查看”,再选“字符集”、“分组”。双击需要的字符再点“复制”就能拷到你需要的地方。不过只好找找 GBK 范围内的汉字。
charmap

1.2 MS Word

插入\符号,选“字体”、“子集”,双击字符就能插入。支持汉统+扩甲+扩乙+扩丙,子集可选的取决于字体, Unifonts 扩乙与扩丙全放在 Sun-ExtB 里。
insert-characters-in-word

1.3 其他 Office

2009 版的 OpenOffice.org Writer“ 插入\特殊字符”、永中集成 Office“ 插入\符号”、 WPS 文字“插入\符号”用法类似 MS Word ,不过永中与 WPS 不支持 SIP 的扩充汉字。

1.4.1 BabelMap

BabelMap 5.2 汉统(完整的 20902+38 )+扩甲+扩乙+扩丙全支持,在菜单里可以用部首、拼音(普通话、粤语)查汉字。

部首查字要小心,只有简化字是用大陆现在的标准数笔划,繁体字与没有简化的传承字全要按传统字形数。部首一律是康熙部首。如“骚”是马部九划,“騷”与“搔”分别是馬部十划、手部十划(传统字形“叉”左边还有一点)。
babelmap-5-2-ii

下载页面

1.4.2 BabelPad

BabelPad 5.2 是包括 BabelMap 的文字编辑器(唯独不包括临时装载字库的功能),当然支持汉统(完整的 20902+38 )+扩甲+扩乙+扩丙。
unispim-6-51

下载页面

2.0 打字

上面的办法你偶然输入个把字还可以,但不能用于大量输入。这节就不讲找字了,讲如何打字。

2.1 紫光华宇拼音输入法

紫光 6.6 版支持汉统+扩甲+扩乙+扩丙,是汉拼输入法里唯一的。 拼音模式、笔划模式,全能输入。不过拼音模式收字不全,因为汉日朝统一表意字四个字块里有日语、朝鲜语、越南语、壮语、白语的造字,普通话读音是很困难的,也没有必要。而笔划模式不受影响,横竖楷书体系的字都可以用“ B h s p n d z 折”输入。 unispim-6-6-0-38

记得早期的紫光 2.01 也是很早支持 GBK 的输入法之一,当时 Windows 系统输入法只有全拼输入法支持 GBK ,但是全拼的效率大家全有数。后来紫光以5.0版重出江湖的时候,居然不支持“大字符集”模式 ,好南儿也只好放弃了,直到两年 6.0 出现。

下载页面

2.2 其他拼音输入法

其他拼音输入法也只有吴语输入法(如 上海话输入法 )能输入扩充汉字,不过仅限于扩甲、括乙里的吴语常用字。而基于汉拼的输入法顶多通过自己需要的扩充汉字放在“自定义短语”里这个方式来曲线救国,就像 好南儿推荐紫光 6.5 时代所做的尝试 。这种方式要求输入法支持 Unicode “谷歌”拼音输入法 加加输入法 可以做到。

2.3 海峰五笔

海峰五笔 9.5 支持汉统 + 扩甲 + 扩乙 + 扩丙,可选 86 98 的五笔规则。

直接下载

2.4 其他五笔输入法

菩提五笔 支持汉统 + 扩甲 + 扩乙 + 扩丙; 小鸭五笔 支持汉统 + 扩甲 + 扩乙。

2.5 文渊郑码

支持汉统 + 扩甲 + 扩乙 + 扩丙,扩丙可能有问题。

下载页面

2.6 山人通用输入法

估计支持汉统 + 扩甲 + 扩乙 + 扩丙,估计汉统是完整的 20902+38 。输入码是山人全息编码。

下载页面

2.7 逍遥笔xiaoyaobi-6-5

逍遥笔 6.5 支持汉统 + 扩甲 + 扩乙,手写输入(用鼠标就可以了)。左下角的数字要选好—— 4 GB 2312 5 GBK 6 是汉统+扩甲, 7 再是汉统 + 扩甲 + 扩乙。

直接下载

2.8 五代仓颉

第五代仓颉输入法 2008 年版支持汉统 + 扩甲 + 扩乙。

下载页面

3.0 网上字典

介绍两个网站,主要是查字派用场。

3.1 Unihan

Unicode 官网,当然支持最新版的 Unicode ,支持汉统(完整的 20902+38 + 扩甲 + 扩乙 + 扩丙。

你好用罗马字查(粤语、北语、日语音读与训读、朝鲜语等),网址我不写——汉字同音字多得吓死人,用罗马字查字容易死机的。

也可以 用部首查 ,注意事项同 1.4.1

3.2 叶典

叶典 上面你好用“两分法”寻古僻字。如要寻“⿱勿好”,你也用不着想部首是“丿”、“勹”、“女”还是“子”,就打“勿好”查。
yedict-com
自称支持汉统+扩甲+扩乙+扩丙+扩丁+扩戊。扩丁、扩戊两个字块 Unicode 还没有定呢,让它去。

4.0 Unicode 里没的字

遇到 Unicode 里没有的字,网友大概一般会需要这样描述:““牙合””、“ { 牙合 }” 、“左牙右合”……

4.1 IDS

我还是用 IDS Ideographic Description Sequence ,表意描述序列)比较好,看上去清爽。

先写个表示结构的表意描述符,如“⿰”,再写这个结构里用到的部件“牙合”,并拢来就是“⿰牙合”。

上面这个字还算简单,碰着复杂点的结构,要表意描述符(⿰⿱⿲⿳⿴⿵⿶⿷⿸⿹⿺⿻)嵌套组合。如“渠”是“⿱⿰氵巨木”——先讲它是上下结构,再 讲它上面是个左右结构的部件,左边是“氵”,右边是“巨”,左右结构描述完成,再讲上下结构下面是“木”。而“渠”加著“亻”的后起本字就好描述成“⿰亻 ⿱⿰氵巨木”。再复杂点,山西有种面的名字(“ biangbiang 面”)就是“⿺辶⿳穴⿲月⿱⿲幺言幺⿲長馬長刂心”。

4.2 造字

文章要打印出来,那没办法。如果在网络上面传来传去、电脑上面看看就可以了,那么还是不要去造字。因为造出来的字你的电脑上面可以看,传给人家,人家看不出。举个例子,比较啰嗦,可以不要看——因为好南儿例子举好也不会讲解造字。

09 7 27 号的《新民周刊》有篇王悦阳的《寻觅上海记忆》,在 “谁是张承裕?”一节 里提到“张 聋⿱彭耳”。“⿱彭耳”是个上“彭”下“耳”的字,其实这个字扩充乙块里有了,但排印的时候是另外造字的,网上登出来个是“张聋■”。虽然讲他们造的字我看不到,但是凭吴语语感猜得出那缺字是“⿱彭耳”。 凤凰网转载 ,把“■”当垃圾全部去掉,那么读者就不晓得缺少的字。 人民网转载 还要过分,将所有“张聋■”改成了“张承裕”、“张”。文中一句“张聋■这个古怪的名字的由来本身就充满着传奇色彩”变成了“张承裕这个古怪的名字……”,也不晓得“张承裕”这个名字怪在啥地方。

5.0 参考

白云深处人家 《計算機漢字處理基本知識 漢字字體下載》

分享到:
评论

相关推荐

    windows中文模拟输入

    对于中文输入,通常需要发送一串虚拟键码来构成一个汉字。 3. **中文输入法与键码**: - 在Windows中,中文输入通常依赖于输入法,如微软拼音、搜狗输入法等。这些输入法通过识别用户的键入序列,转换成相应的中文...

    javascript 表单验证禁止输入中文汉字

    在这个场景中,我们需要实现的功能是:在JavaScript中禁止用户在表单字段中输入中文汉字。 首先,我们要理解如何检测用户输入是否包含中文汉字。中文字符通常属于Unicode编码范围中的汉字区,即`[\u4e00-\u9fff]`。...

    使用正则表达式验证中文汉字输入

    在本主题中,“使用正则表达式验证中文汉字输入”着重讲解如何利用正则表达式来确保用户输入的数据仅包含合法的中文汉字。 首先,我们需要了解中文汉字在计算机中的表示方式。中文字符在Unicode编码中占据着一定的...

    酷极中文输入平台

    中文输入法通常有拼音输入、五笔字型、仓颉输入、笔画输入等方法,每种方法都有其特点和适用人群。 酷极中文输入平台的核心功能可能包括以下几个方面: 1. **拼音输入**:这是最常见的中文输入方式,用户根据汉字...

    C#Winform的textbox不能输入汉字的解决方法大全

    C#Winform的textbox不能输入汉字的解决方法大全

    Windows XP电脑入门-汉字输入.docx

    《Windows XP电脑入门:汉字输入》 在使用Windows XP操作系统时,进行汉字输入是一项基本技能。Windows XP系统中,输入法通常以图标的形式出现在任务栏的右下角,形状为一个小键盘,点击后会显示出已安装的所有...

    windows全拼输入法编码表-拼音转汉字

    Windows全拼输入法是一种在Windows操作系统中使用的中文输入方法,通过输入汉语拼音来实现汉字的输入。全拼输入法要求用户完整输入每个汉字的拼音,然后根据拼音进行汉字的选择。这种输入法适合对所有汉字拼音都非常...

    flex解决textarea,input不能输入中文的方法

    ### flex解决textarea,input不能输入中文的方法 在使用Flex进行Web应用开发时,有时会遇到一个让人头疼的问题:在非主应用程序环境下(例如嵌入到HTML页面中的SWF文件),textarea和input控件无法正常输入中文字符...

    CAM350输入汉字

    在提供的文件列表中,"本人自己用的方法.txt"可能包含了用户个人实现汉字输入的经验和技巧,可以参考其中的内容来优化你的操作流程。"资料来源.txt"可能包含更多关于CAM350使用汉字的参考资料,而"help.htm.url"则...

    中文整句智能输入方法研究.pptx

    中文整句智能输入方法研究 本资源摘要信息总结了中文整句智能输入方法的研究结果,该方法基于自然语言处理技术,旨在实现整句的快速、准确输入。该方法的关键技术包括输入方法、识别算法和数据集等。研究中采用基于...

    keil编辑解决无法输入中文,或者中文注释全是问号问题

    Keil 编辑器中文输入问题解决方法 Keil 编辑器是ARM公司开发的集成开发环境(IDE),广泛应用于嵌入式系统开发,特别是STM32微控制器的开发。但是,Keil 编辑器有一个常见的问题,那就是无法输入中文,或者中文...

    Protel99和Protel99SE的PCB编辑器中输入汉字的补丁

    Protel99SE PCB中文汉字输入补丁是一个专门针对Protel99SE设计的修改程序,它可以使得原本不支持汉字输入的PCB编辑器具备输入汉字的功能。这个补丁通过修改原软件的内部编码方式,使软件能够识别并处理汉字字符,...

    Linux下汉字输入实现技术.pdf

    "Linux下汉字输入实现技术.pdf" Linux下汉字输入实现技术是指...本文通过对Linux下汉字输入技术的分析和讨论,总结了在Linux下开发汉字输入法的设计和实现方法,旨在帮助开发者更好地理解和实现Linux下汉字输入技术。

    Windows xp简体中文语言包

    此外,它还包含了中文输入法,如微软拼音输入法,使得用户在英文系统环境下也能方便地输入中文。 值得注意的是,虽然Windows XP是一款经典的操作系统,但其技术支持已于2014年结束。这意味着微软不再提供安全更新或...

    C++ 自动输入文字(汉字和其他字符)

    下面是一个简单的Windows系统下使用`SendInput`函数模拟输入汉字的例子: ```cpp #include <windows.h> void sendKey(WCHAR key) { INPUT input; input.type = INPUT_KEYBOARD; input.ki.wScan = 0; input.ki....

    Android限制只能输入中文的EditText

    如果输入的不是中文字符,我们可以在`onTextChanged()`方法中清空EditText的内容,或者显示一个提示信息告知用户只能输入中文。这样,当用户尝试输入非中文字符时,系统会自动将其过滤掉。 6. **代码示例**: 在...

    行业分类-设备装置-一种笔画动态组字的汉字输入方法.zip

    标题中的“行业分类-设备装置-一种笔画动态组字的汉字输入方法”揭示了这个压缩包的内容聚焦于信息技术领域,特别是与计算机设备和输入法相关的创新技术。这种技术可能是针对汉字输入的一种优化方案,利用笔画动态...

    windows 绿色版 金山快译

    “Windows绿色版金山快译”是一款专为Windows操作系统设计的便捷翻译软件,尤其在中文和英文之间的翻译方面表现出色。它的特点是无需安装,可以直接运行,因此被称为“绿色版”,这使得用户可以方便地携带和使用,不...

    繁简游戏中文通 单击游戏汉字输入工具

    《繁简游戏中文通 单击游戏汉字输入工具》是一款专为游戏玩家设计的输入软件,主要功能在于解决在玩单机游戏过程中输入汉字的难题,尤其是对于那些支持繁体中文和简体中文切换的游戏。这款工具能够帮助玩家快速、...

    PCB中输入汉字

    标题“PCB中输入汉字”涉及的是电子设计自动化(EDA)领域的一个常见问题,即如何在印刷电路板(PCB)设计中嵌入中文字符。通常,PCB设计软件如Altium Designer、Cadence Allegro或Eagle等,原生支持的字符集可能不...

Global site tag (gtag.js) - Google Analytics