`
sarasvati2008
  • 浏览: 12295 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论

词典的具体格式

阅读更多
作者:李德辉

和奥普迪方的第一次谈话后决定把重心完全放到词典应用上了,目前的电子词典有很多不尽人意的地方。
目前存在的问题可以这样总结一下:

1.词典格式不良好
金山词霸将意思解释在前边,12345...,例子又全部在后边,你无法知道哪一个例子是对哪一个解释的。而且解释的也很不全,比如一个词有多个词性,adj,n一般会只解释最常用的。

2.多本词典反而造成混乱
看似几百本词典很猛,很全,但是全部加载进来以后,除了你可以漫无目的的拉动右边的滚动条外根锻炼身体以外,根本没有带来再多的好处。
多本词典中交叉重复的内容过多。
多本词典的格式不一致,造成用户疲乏。
多本词典中只有默认词典是有结构的,你查出来都不想看。

3.开放性造成混乱
金山词霸开放了用户词库,星际译王...呃
这里先谈一下星际译王...这个东西我对作者表示佩服,开源的英雄,前辈。
多年前您能想到这样的无限可扩展性确实不易。
星际译王的原理就是 key-text,一个词对应一段文本,文本你爱怎么写就这么写,无限扩展。
但是造成的就是用户好心加入的词库,可能其他人根本无法看懂,我就是其中之一。这里给一个例子,这是没有美化过多牛津词典查出来的结果:

abstract
/ 5AbstrAkt; `AbstrAkt/ adj  1 existing in thought or as an idea but not having a physical or practical existence 抽象的: We may talk of beautiful things, but beauty itself is abstract. 我们尽可谈论美的事物, 然而美本身却是抽象的. * He has some abstract (ie vague, impractical) notion of wanting to change the world. 他有一种要改造世界的空想.  2 (of art) not representing objects in a realistic way but expressing the artist's ideas and feelings about certain aspects of them (指艺术)抽象派的: an abstract painting, painter 抽象画, 抽象派画家. Cf 参看 concrete1

确实很混乱,虽然无限的扩展性,但是没有固定的格式,因此造成多本词典的不一致,随意性太大,你完全找不到你想要的东西。
金山的开发式词库只是在每一行的前边标明了1、2、3、4的行号,类似于星际译王。

我们要做到Sara系统:
1.只有一本统一的字典。
2.词典的结构是统一规定的标准,UI以不同着色的方式来显示这种规定好的结构,用户可以一眼找到自己想要的东西。
3.词典是完全开放的,但是用户做修改词库时修改的结果也必须是具有良好结构的,这样修改系统就必须要能够限制用户的修改还保持良好结构。

PS:
如果你要权威的内容,那么内容肯定是会很多的,电脑永远不可能知道你到底要abstract这个词哪一个词性的哪一个解释,你只能将起列出来,列出来的同时去考虑如何让用户在这一堆东西中尽快找到自己想要的,以及在找到他想要的东西之前不把显示器砸坏,这个才是我们要做的。

还有一点各种语言之间的格式并不是同一的,比如en-cn和cn-en可能查词的格式完全不一样,这一点必须对这两种词典进行研究,从语言学的角度入手,分析怎样的才是良好格式。

PS2:
我们要华丽的拿到第一,好的继续研究
分享到:
评论

相关推荐

    TXT格式《现代汉语词典》

    ### TXT格式《现代汉语词典》相关知识点解析 #### 一、TXT格式介绍 TXT(Text File)是一种常见的文本文件格式,通常用于保存纯文本内容,不含任何格式化信息或图片等多媒体元素。这种格式简单易读,适用于跨平台...

    文曲星电子词典转换器

    5. **生成词典**:完成编辑后,软件会将词汇数据转换为文曲星兼容的格式,生成 `.dict` 或其他指定格式的词典文件。 6. **导入文曲星**:最后,将生成的词典文件通过数据线连接或存储卡等方式导入到文曲星设备中。 ...

    金山词霸自动添加自定义词典小工具

    为了创建自定义词典,我们需要编写代码来解析用户输入的单词和释义,然后按照词典格式的要求将其转换为二进制数据并写入文件。 接下来,我们需要了解如何与金山词霸的API进行交互。虽然金山词霸可能没有公开的官方...

    中文分词词典

    综上所述,“中文分词词典”作为一款专为中文分词设计的工具书,凭借其广泛的词汇覆盖范围、清晰的数据格式以及在多种应用场景下的高效表现,成为自然语言处理领域中不可或缺的一部分。对于开发者而言,合理运用这份...

    MDX词典制作和转换txt工具

    MDX(Multiple Dictionary eXchange)词典是一种用于存储大量词汇和相关数据的文件格式,常见于语言处理、翻译软件和编程环境中。这种格式通常包含了丰富的词汇信息,如单词、短语、释义、例句等,便于快速查找和...

    Python-无损转换OpenCC词典为HanLP格式

    如果没有提供具体的文件内容,我们无法深入讨论其细节,但可以推测这是作者实现转换功能的代码或者是转换后生成的HanLP词典文件。 综上所述,无损转换OpenCC词典至HanLP格式是一个涉及文本解析、数据转换和文件操作...

    简明英汉词典必应版数据库 430万数据,mdx格式,到手即用,可用于制作软件、APP、网站.rar

    MDX文件通常与MCD(Multi Dictionary Content)文件配合使用,MCD文件存储了词典的具体内容,如单词、短语、例句等文本信息。这样的分层设计有利于提高数据读取速度和节省存储空间。 本数据库的430万数据量意味着它...

    用于文本情感分析的情感词典集.rar

    2. **1.xls**:这是一个Excel文件,可能是情感词典的具体实现形式。在Excel中,通常会有一列是单词,另一列记录相应的情感极性,有时还会有其他信息,如词频、强度等级等。这种格式便于用户查看、编辑和使用词典,也...

    拉鲁斯词典

    "g'g'g'"这一标签可能是指该压缩包中的特殊编码或格式,或者是一种特定的检索方式,具体含义可能需要进一步了解。 《拉鲁斯无删减版词典》(Larousse Unabridged dictionary)通常包含大量的词汇条目,覆盖了日常...

    牛津英汉双解电子词典

    《牛津英汉双解电子词典》是一款深受英语学习者喜爱的工具,它以txt格式提供,方便在各种设备上阅读和查阅。这款词典按照字母表顺序排列,为用户提供便捷的查找体验,无论是英文单词还是汉语词汇,都能在这里找到...

    xls格式的岩土英汉词典

    具体来说,《xls格式的岩土英汉词典》设计了两套查找系统,分别是按照中文和英文字母顺序排列的词汇索引。对于中国用户来说,中文索引按照汉语拼音顺序进行排序,这让查找过程变得十分直观。而对于国际用户或经常...

    简单的电子词典

    数据格式可能是结构化的文本文件,如CSV或自定义格式,也可能是二进制文件,以节省存储空间并提高读写速度。 【标签】"c 电子词典"揭示了程序是用C语言编写的,C语言是一种底层、高效的语言,适合处理这类系统级...

    Android电子词典代码

    5. **网络通信**:如果词典数据来自在线服务,应用可能需要使用HttpURLConnection或OkHttp进行网络请求,获取JSON或其他格式的数据,然后解析成Java对象。 6. **数据解析**:XML或JSON数据的解析通常使用如TinyXML...

    诺基亚 s40系统自带词典下载

    描述提到"在存储卡里建立Dictionary文件夹,然后把下载到的两个文件解压到该文件夹下就行了",这给出了安装这些词典数据的具体步骤。首先,用户需要有一个microSD卡(因为早期的诺基亚S40手机往往不支持内部大容量...

    现代汉语词典

    而其中更值得注意的是,电子词典还能提供一些专业术语,如医学、化学等领域中的具体名词,这为用户理解专业知识提供了便利。 以“阿的平”为例,它在电子版《现代汉语词典》中的描述不仅告诉我们它是一个药名,还是...

    android电子词典源代码

    在"第4章 电子词典"的文件中,可能包含了这些模块的具体实现代码。通过阅读和分析源代码,你可以了解每个模块的实现细节,例如如何设计数据库查询接口,如何构建用户友好的界面,以及如何与外部服务进行通信等。此外...

    中文 情感极性词典

    617613.rar可能是包含这个词典数据的压缩文件,一般这种文件会以某种结构化格式(如CSV、JSON或TSV)存储词语和它们对应的情感标签。README-datatang.txt文件通常用于提供关于数据集的详细说明,比如数据来源、创建...

    英汉电子和通信产业缩略语词典

    OCR(光学字符识别)技术虽然能够将印刷文字或图像转换成机器编码的文本数据,但由于印刷质量问题、文字格式复杂性等原因,OCR技术有时会出现识别错误。因此,在使用数字化文档时需要具备一定的判断能力,对文档内容...

    android项目滴答词典

    通过ReadMe.txt文件,开发者可能会分享项目的具体实现细节、使用的技术以及遇到的问题和解决方案。而didaDict1文件可能包含了项目的源代码、资源文件或者其他相关资料,进一步深入研究这些文件将有助于深入理解整个...

    汉英英汉专业技术词典.rar

    通常,词典资源可能包含PDF、TXT或者电子书格式的文件,而“avi”通常是视频文件的扩展名。如果这个文件确实与词典有关,可能是包含了一些相关的讲解或演示视频,但具体情况需要进一步检查文件内容才能确定。 总的...

Global site tag (gtag.js) - Google Analytics