`
Liner
  • 浏览: 141262 次
  • 性别: Icon_minigender_1
  • 来自: 西南边陲
社区版块
存档分类
最新评论

我的汉字输入法编码方案

阅读更多
很早就有了这个东西,因为一直没学会编写输入法程序,所以就没有拿出来现眼。
方案尽量简化,主要从汉字本身就具备的偏旁部首出发,用偏旁部首的读音的声母字符,按笔画顺序编码即是。

从前不知道,几乎每一个偏旁部首其实都是有读音有含义的。因为怕学五笔,拼音重码又多——那时紫光还没出来,所以想借用Windows中的输入法生成器做一个简单好用的输入法,查阅了康熙字典和汉语大字典,慢慢就研究了起来——呵呵,谈不上“研究”。

既然花了不少心思做出来,现在还是把它放到这里,虽然现在输入法大战基本上都结束了,我的这个方案也没啥特出的,但可能还是有那么一点点的价值吧。——何 况是自己的博客,放啥自己说了算,呵呵 :)  ——如果你真的想要看看这个方案,建议先看下面3张图片,是偏旁部首的部件集,看图片容易一目了然。

就目前我的观点,各方面表现都十分优秀的输入法好像还没有?从汉字人文的角度上看,台湾的仓颉输入法应该是最有意义的——可惜它在内地没有市场。个人认为输入法的使用其实是有潜移默化的作用的,对汉字的拆字编码应该做到合乎文字本身内在的规律才好!

废话少说,拖出小媳妇来......见公婆咯。。。。

字根部件集:(见下面3张图)

====方案重点节录=========================================================================

拆字规律:
  1. 部件规范原则。字中的构字部件不应只取其形似,部件应是按正确的顺序和规范的笔划书写而成的。如“里”字,不应拆为‘田’+ ‘土’,也不应为‘日’+‘土’,而应是‘日’+ ‘丨’+‘二’(当然,前两者可作为容错码);“求”字,应拆为‘一(横)’+‘氺(水)’ +‘丶(点)’,而非‘十’+‘冫’+‘丶’。
  2. 部件取大原则。如部首‘音’,可视为部首‘立’+‘日’,当前者作为构字部件出现时,不可将之拆成后两者。例如“韶”字,应拆为‘音’+‘刀’+‘口’(ydk),而非‘立’+ ‘日’+‘口’(lrk)。
  3. 必拆原则。除单笔划字无法拆分外(如‘乙’),所有字皆必须拆分(例如输入部件字本身时)。如“音”,是一个独自成立的单字,此时应拆为‘立’+‘日’(lr)。
  4. 先成原则。当笔划所归属部件有歧义时,该笔划划归先形成的部件(按字的书写顺序)。如“元”字,既可看为‘二’+‘儿’,亦可看作‘一(横)’+‘兀’,此时按先成原则确定为前者。
取码规则:
  1. 按汉字的正常书写顺序,考虑规范编码和功能划分:
  2. 对单字:取第一、第二和最后一个部件的码元(即部件声母首字符)。若单字取不足三码,可重复取最后一码,也即所有单字都有三码,如“码”字,只有两个码元(sm),但编写码表时取为smm;如“乙”字,可取为ooo。
  3. 对双字词组:取首字首码、首字末码+末字首码、末字末码(即:11+13+21+23)。
  4. 对三字词组:取首字首码+中字首码+末字首码+末字末码(即:11+21+31+33)。
  5. 对四字以上词语:取首字首码+次字首码+第三字首码+第四字首码(即:11+21+31+41)。
  6. 对高频字:取单字首码。
  7. 对快捷双字词:取首字首码+末字首码(11+21)。
容错考虑:
  1. 部件本身可能会出现一字多音,这样,组码时一个字就可能会有多个编码。我们可以以标准读音为主(标准读音是指能代表部件本身 含义的那个字的读音),兼顾其它常用读音作容错考虑。此类部件可属于多个码元。如‘厂’,标准读音为“hǎn”(音罕。《说文》山石之崖巖,人可居。象 形。高鸿缙《中国字例》“厂字本象石岸之形。……”),正常应属于码元‘h’,但简体字中大多将其作为“廠”字的简化字(似忘其本)。作为容错,它也归属 于码元‘c’。
  2. 字的书写顺序不是很明确时(可能源于书法的原因),可适当考虑多种书写方式时的拆字规则。这也会产生字词的 多个编码。如“曹”字,标准书写顺序为12512212511(引自 “金山词霸”中汉语词典资料。1~5分别代表基本笔划“横、竖、撇、点+捺、折+勾”),拆字为‘一’+‘丨’+‘日’(hor),但也可能拆为‘艹’+ ‘曰’+‘日’(cyr或crr。部件‘曰’正属码元‘y’,容错划归于码元‘r’)。
  3. 因单字容错码的存在,故由单字组成的词组和短语也将存在容错的情形(其数量可能不小)。
========================================================================================

【部件集】详细说明图示

字根部件B-M:
字根部件B-M

字根部件N-Z:
字根部件N-Z

字根部件 aeiouv:
字根部件aeiouv
  • 描述: 部件码 b~m 区段
  • 大小: 46.5 KB
  • 描述: 部件码 n~z 区段
  • 大小: 49.3 KB
  • 描述: 部件码 aeiouv 区段
  • 大小: 17.9 KB
分享到:
评论

相关推荐

    查询汉字输入法编码v2.2

    总的来说,《查询汉字输入法编码v2.2》是一个高效实用的工具,它针对汉字输入法编码查询的需求,提供了简洁、直观的解决方案。无论是对于熟悉多种输入法的用户,还是初学者,都能从中受益,提升汉字输入的效率和准确...

    单片机 嵌入式系统中文输入法的设计+汉字编码原理.rar

    本主题聚焦于“51单片机”上实现的嵌入式系统中文输入法设计及汉字编码原理,这对理解和开发这类系统至关重要。 首先,我们来探讨51单片机。51系列单片机是Intel公司下属的Microchip Technology公司推出的8位微处理...

    unity中文输入法

    "unity中文输入法"是一个专为Unity环境设计的解决方案,旨在帮助用户在Unity编辑器和运行时环境中流畅地输入中文文本。 在Unity中实现中文输入法,主要涉及到以下几个关键知识点: 1. **Input System**: Unity官方...

    行业分类-设备装置-笔画字根全息码汉字输入法.zip

    总的来说,《行业分类-设备装置-笔画字根全息码汉字输入法》提供的是一种适应于各种设备环境的汉字输入解决方案,它通过简化用户记忆负担和优化输入流程,提高了汉字输入的效率和准确性。对于需要频繁输入汉字的用户...

    51单片机的中文输入法设计

    在设计中文输入法时,51单片机需要处理键盘输入、存储拼音库、进行拼音匹配和转换为汉字等功能,这要求高效利用有限的资源。 12864是描述液晶显示屏分辨率的一个术语,指的是128列和64行的点阵,常用于显示文本和...

    行业分类-设备装置-双五笔汉字编码输入法.zip

    它结合了五笔字型和另一套五笔编码方案,旨在提高汉字输入效率。 在描述中,“行业分类-设备装置”进一步强调了这个内容可能与特定行业(例如工业、制造或电信)的设备操作或配置有关,而“双五笔汉字编码输入法”...

    ubuntu 9.04 中文输入法全集(五笔,拼音等)

    这个资源包提供了多种中文输入法方案,包括五笔码和拼音等常见输入方式,使得在Linux环境下输入中文变得更加便捷。下面我们将详细探讨这些输入法及其安装组件。 首先,我们看到的`scim-tables-zh_0.5.8-1_all.deb`...

    极品五笔输入法,汉字输入法

    极品五笔输入法采用的是王永民先生发明的五笔字型编码方案,该方案将汉字拆分为横、竖、撇、捺、折五种基本笔画,以及部分复合结构,每个笔画和结构对应一个特定的编码。通过记忆这些编码,用户可以迅速输入汉字,...

    基于嵌入式Linux的汉字输入法 (1).pdf

    在嵌入式Linux环境下开发汉字输入法是一项关键的技术任务,因为汉字输入法的效率和...通过不断的技术创新和优化,我们可以期待在未来的嵌入式设备上看到更多高效、易用的汉字输入解决方案,从而更好地服务于中文用户。

    Android中文输入法实现-杨武

    此外,减少击键次数以提高输入效率,同时简化编码规则以降低学习难度,是中文输入法设计时必须平衡的两个关键因素。 #### 二、输入法框架(IMF)结构解析 IMF即输入方法框架(Input Method Framework),它是...

    Qt中文输入法

    2. **五笔输入**:对于熟悉五笔码的用户,Qt中文输入法也提供五笔编码输入方式,通过键入五笔码来选择汉字。 3. **词组预测与联想**:输入法会根据已输入的部分字符预测可能的词汇,提高输入效率。 4. **硬件键盘...

    C51实现单片机的中文输入法

    1. **编码方案**:在单片机中处理中文字符,首先要确定字符编码。常见的中文编码有GB2312、GBK、BIG5和Unicode等。GB2312是早期的简体中文编码,包含了6763个常用汉字;GBK则扩展了GB2312,增加了更多的繁体字和生僻...

    搜狗中文输入法在idea卡顿, 解决方案, 下载后替换搜狗安装路径下同名文件

    标题中的问题指向的是Java集成开发环境IntelliJ IDEA(简称IDEA)与搜狗中文输入法之间存在兼容性问题导致的卡顿现象。这通常发生在用户在IDEA中使用搜狗输入法进行编码时,输入法切换或者输入时,IDEA会变得不流畅...

    GB 2312-1980 信息交换用汉字编码字符集 基本集.rar

    GB 2312-1980是中华人民共和国国家技术监督局于1980年发布的信息交换用汉字编码字符集的基本集,它是中国最早的一套国家标准汉字编码方案。该标准旨在为汉字信息处理提供一套统一的编码规则,以实现不同系统之间的...

    GB18030汉字编码以及五笔编码

    GB18030是中国国家标准的一种汉字编码方案,旨在覆盖更多的汉字和扩展字符集,而五笔编码则是一种常见的汉字输入法,通过组合不同的键位来快速输入汉字。 GB18030汉字编码,全称为GB18030-2000《信息技术——多文种...

    Linux下的汉字输入法设计技术.pdf

    【Linux下的汉字输入法设计技术】主要探讨了在Linux操作系统中设计和实现汉字输入法的原理和方法。本文由李培峰、朱巧明和钱培德撰写,着重介绍了基于Unicon内核和Chinput输入法服务器的汉字输入法开发。 Unicon是...

    行业分类-设备装置-九键活版五笔汉字输入法.zip

    《九键活版五笔汉字输入法》是一个专为设备装置设计的输入方案,它针对行业分类中的特定需求,提供了一种高效、便捷的汉字输入方式。九键活版五笔汉字输入法的核心理念是利用九宫格键盘布局,通过简化的五笔编码规则...

Global site tag (gtag.js) - Google Analytics