`
tree_star
  • 浏览: 1407 次
  • 性别: Icon_minigender_1
  • 来自: 济南
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

中文字典实现(一)

阅读更多

   中文单词不同于英文单词,区别在于中文单词组成元素是汉字,而英文单词的组成元素是英文字母,英文字母只有26个,而组成中文单词的常用汉字就多达8000多个。

   一般的,英文单词字典采用trie树数据结构。结合trie(单词查找树)的特性,我们了解到,trie树结点的每一个结点包含组成单词的所有的元素,相应的,一棵英文单词查找树(trie)的结点中包含26个孩子结点,孩子结点与字符[a-z]一一对应(hash),  trie树层的索引与某个英文单词的字母一一对应。利用trie树来实现英文单词的存储是一个很完美的选择,单词查询复杂度为O(单词平均长度),在线性时间内可以进行英文单词的查询,可以认为是最优的方案。

   试想,中文单词是否可以利用trie树数据结构实现呢?我们假设利用trie来实现,则当前结点的孩子结点要包含所有的中文单字,每一个结点将达到8000个结点,显然,这在内存耗费方面是不可取的,该方案否定。

   说不上什么理由,我总感觉到,在查找方面,树有着得天独厚的优势(树这种数据结构是学习的自然,这算不算IT界的仿生学呢?)。

   在此之前需要先介绍下,中文在计算机中是如何存储的?在win平台下,汉字默认是以GB2312存储,每一个汉字占用两个字节,高字节代表区,低字节代表位,称为区位码。在区位码中,01-09区为特殊字符,10-55区为一级汉字(3755个最常用的汉字,按拼音字母的次序排列),56-87区为二级汉字(3008个汉字,按部首次序排列)。ASCII码的范围是0-255,从0-127,此范围内包含标点、大小写英文字符、数字、不可打印字符;128-255为不常用字符。为了不与ASCII常用字符冲突,gb2312编码占用了从128-255的区间,从而保证了计算机可以同时表示中英文字符。

   上一段说过,从10到87区全部存储的汉字,每一区中有94位(汉字),通过hash运算,可将此矩阵列表映射到一个线性空间上。一个中文单词的首汉字就可以存储在此线性表中的某一个元素里了。

  这样就完成了首字的映射,(二)将介绍如何存储剩下的汉字

分享到:
评论

相关推荐

    汉字字典数据库mdb文件+sql文件

    总结起来,这个压缩包提供的汉字字典数据库是中文信息化处理的宝贵资源,无论是对汉字的学习、研究,还是在软件开发中实现高效汉字处理功能,都有着不可替代的作用。通过掌握mdb文件和sql文件的使用,开发者可以更好...

    字典树php实现

    字典树,也称为前缀树或Trie树,是一种用于存储字符串数据结构,它能够高效地支持诸如查找、插入和删除等操作。由于其在字符串处理上的独特优势,字典树被广泛应用于诸多领域,如文本编辑器的自动补全功能、搜索引擎...

    WPF通过资源字典加绑定实现多语言切换

    总结来说,WPF通过资源字典和数据绑定提供了一种强大的机制来实现多语言支持。开发者可以轻松地管理和切换应用程序的语言,以满足全球用户的需要。在实际项目中,还可以结合`.resx`文件和`ResourceManager`类进行更...

    Android实现中华字典APP,安卓经典项目,优秀大作业

    用Android Studio实现了一款中华字典APP,它有搜索汉字的功能,还有【拼音查询】、【部首查询】、【成语查询】和【图文识字】等功能,可以说是一款非常功能齐全而且好用的APP,就是一款字/词典,具体演示效果和运行...

    WPF 利用资源字典和资源文件来实现多语言

    通过以上步骤,我们就能够利用WPF的资源字典和资源文件实现一个完整的多语言应用程序。这种方法使得代码更易于维护,同时提高了用户体验,让应用具备了全球化的能力。在实际开发中,可以根据项目需求灵活运用这些...

    汉字转拼音,拼音字典

    总的来说,汉字转拼音是一个涉及语言学、算法和数据结构的综合性问题,理解和掌握这一技术对于进行中文相关的软件开发至关重要。通过阅读和理解提供的源代码及字典文件,我们可以深入学习这个过程,并可能改进现有的...

    木头字典7.3

     生成字典工具除具有其本的常规字典生成功能外,还能实现拼音字典、汉字字典、英语字典、姓名字典、社会工程字典以及分组字典。修改、合并、分割、清理工具实现字典变幻功能。还提供字典属性查看,字典快速预览辅助...

    汉字拼音对照库新华字典版

    《汉字拼音对照库新华字典版》是一款专为学习和研究汉字拼音而设计的数据库资源。这个数据库基于权威的《新华字典》,包含了大量汉字与其对应的正确拼音信息,旨在提供一个方便、快捷的汉字拼音查询工具。对于中文...

    Python-一份英文中文字典的双解词典数据库

    **Python-一份英文中文字典的双解词典数据库** 在Python编程中,自然语言处理(NLP)是一个重要的领域,它涉及到文本分析、信息提取、机器翻译等多个方面。这份"Python-一份英文中文字典的双解词典数据库"正是为...

    人员名单按姓氏笔画为序-汉字字典表

    名单、姓名 按 姓氏笔画 为序排列 汉字笔画排序字典表

    Python实现字典.zip

    用Python实现简单的字典,建立初始化的英文单词字典内容,每个单词要有对应的中文解释,实现字典的增加(可以通过程序实现单词及中文解释添加)、删除(通过程序实现单词的删除)、查找(通过程序实现单词的查找,要有...

    AJAX字典实现中英文互译

    在"AJAX字典"的场景中,我们通常会构建一个在线翻译工具,用户可以在界面上输入或选择要翻译的词汇,然后通过Ajax技术向服务器发送请求,服务器接收到请求后,利用后台处理程序(如Java,Python等)进行翻译工作,...

    字典树~java语言

    在Java语言中实现字典树,我们通常会创建一个表示节点的类,这个类包含一个字符数组(通常是26个,对应英文字母的数量)作为子节点,以及一个布尔值来标记该节点是否为一个词的结束。下面是一个简化的Java字典树节点...

    15万汉字字典有解释 md b数据库格式 可以用作分词匹配

    综上所述,一个15万汉字字典,以mdb格式存储,并应用于分词匹配,是中文信息处理领域的一大进步。它不仅可以提高分词技术的准确性,还可以广泛应用于搜索引擎、语音识别、文本分类等多个领域,极大地提升相关技术的...

    编写一个对输入的英文单词按照字典排序的程序,界面如图,当在一个文本域输入若干个英文字单词,单击字典排序按钮,另一个文本域

    此外,还需添加两个按钮,一个用于执行字典排序(Dictionary Sort),另一个用于清空所有输入和输出。 2. 字典排序:用户输入的单词应该在点击“字典排序”按钮后,按照字典顺序排列并显示在右侧文本域。这个功能...

    双拼域名字典

    双拼域名字典是一种专门用于生成和查找汉语拼音组合而成的域名资源,它结合了中文词汇的双音节拼音,为互联网上的域名注册提供了一种高效的方法。在互联网域名日益稀缺的今天,双拼域名因其易于记忆和输入的特性,受...

    康熙字典数据库.zip

    2. **字段设计**:每个表中的字段代表《康熙字典》中的一个信息项,如“汉字”字段记录字头,“注音”字段记录字的发音,“释义”字段包含字的解释,“五行”字段可能涉及汉字的五行属性,“笔画”字段记录字的笔画...

    木头超级字典生成器使用完全教程文件.pdf

    生成字典工具除具有其本的常规字典生成功能外,还能实现拼音字典、汉字字典、英语字典、姓名字典、社会工程字典以及分组字典。修改、合并、分割、清理工具实现字典变幻功能。 木头超级字典生成器的主要用途非常广泛...

    基于PHP的汉字查询拼音字典 php版 v1.0.zip

    《基于PHP的汉字查询拼音字典php版v1.0》是一个专为PHP开发者设计的实用工具,旨在帮助用户快速查询汉字对应的拼音信息。在这个压缩包中,包含了一个核心的PHP脚本,可能是一个数据库或者文本文件,用于存储汉字与...

    C#读数据字典生成中文拼音字头

    在IT领域,尤其是在软件开发与数据处理中,将汉字转换为拼音首字母是一个常见的需求,尤其是在中文信息处理、搜索引擎优化、排序与检索等场景中。本文将深入解析如何使用C#语言实现从数据字典中读取信息并生成中文...

Global site tag (gtag.js) - Google Analytics