词语的通用度
所谓词语的通用度,是指词语在语言应用的各个领域里常用性的综合指标。0通用度兼顾到词语的分布率和频率两个方面,并且把两者有机地结合起来了。通用度概念中所说的“领域”,既可以指“空间”,也可以指“时间”,它既可指一个词在共时的语言应用中各领域里的通用程度,也可指一个词在历时的各个时期里的语言应用中的通用程度。现在我们假设把抽样统计的全部语料分成k组,每组语料的数量大致相等。某一个词在1,2,......,k组的出现次数分别为n1,n2,...,nk,那么这个词的通用度定义为:

术语实际上就是某个学科领域所使用的“词语”,词语的通用度计算方法在某个独特的学科领域可以用作术语的通用度计算。术语通用度兼顾到术语的分布率和频率两个方面,并且把两者有机地结合起来,正好可以满足我们在选择术语时需综合考虑术语使用的“频率”、“范围”两方面的要求。
上述文字公式引用《教育技术学科术语标准的制定:通用度计算的视角》作者:魏顺平
对于专业词的抽取,通用度越高的,说明在某领域内的代表性越差,通过大量分类语料的考察之后,可以对某领域语料内的词汇做通用度排序,即可根据一定阀值得到比较靠谱的专业词汇。
当然如果有一个较少量的专业词库,根据互信息和通用度综合考虑结果应该更令人满意。

- 大小: 3.6 KB
分享到:
相关推荐
去除这些停用词有助于提高文本分析的效率和准确性,从而在诸如信息检索、情感分析、关键词抽取等任务中发挥重要作用。 停用词数据集是进行NLP工作时不可或缺的工具。标题提到的"停用词数据集-stop-words"包含了不同...
这表明,基于词向量的新词发现和信息抽取策略对于医疗文本结构化具有显著优势,能够更好地适应医疗领域的专业需求,提高信息处理的精准度和速度。 参考文献中可能会涵盖更多关于医疗文本结构化、词向量技术、信息熵...
在专业领域中,中文分词的性能直接关系到后续的处理任务,如机器翻译、信息检索和信息抽取等。由于中文分词的复杂性,尤其是在法律、医疗等专业领域中,传统的方法往往受限于大规模标注语料的缺乏,导致分词性能难以...
有价值的不是知识图谱的框架和算法,而是知识图谱本身,无论是通用的还是专业领域的,高质量的知识图谱是最有价值的。知识图谱的理解可以应用于高级搜索、自动应答、故障检测等领域。 KBQA方法可以分为两类,一类是...
- 随着时间的发展,Google不断改进其搜索引擎技术,成为全球最知名的搜索引擎之一。 **1.2 体验搜索引擎** - **搜索引擎的功能:** - 提供快速、准确的信息检索服务。 - 支持多种查询方式,如关键字搜索、语音...
随着互联网的迅速发展,网络信息量呈爆炸式增长,这使得通用搜索引擎在寻找特定领域信息时面临挑战。垂直搜索引擎的出现解决了这一问题,它们专注于特定行业或主题,对信息进行深度处理,提供更精准的搜索结果。生活...
随着互联网信息的爆炸性增长,传统的通用搜索引擎虽然能够提供大量的信息资源,但在精确度、深度等方面存在一定的局限性。垂直搜索引擎应运而生,它专注于特定领域的信息搜索,能够更有效地解决信息过载的问题,提高...
- 专业领域翻译:针对特定领域的专业术语和表达方式进行优化。 #### 5. 文本摘要生成 - **类型**: - 抽取式摘要:直接从原文中抽取关键句子或短语作为摘要。 - 生成式摘要:根据原文内容生成新的语句作为摘要。...
中文分词的准确度直接影响到后续的文本处理任务,如情感分析、关键词提取、信息抽取等。 三、搜狗词库的使用与配置 1. 下载与解压:首先,你需要从官方或可信渠道下载“sogou-dic-utf8”压缩包,然后使用解压缩...
作为一款通用型汽车故障电脑诊断仪,SY808柴汽版不仅适用于汽油车,同时也适用于柴油车,包括重型卡车、轻型卡车、客车和工程机械等多种类型的柴油车辆。 #### 二、产品特点 ##### 1. **软件设计** - **用户友好...
这一算法通过结合词频、文本频、类频,修正了JS散度,以更好地评估特征词对分类的影响,从而提高分类准确度。 3. **链接主题相关性排序**:采用PageRank算法评估网页中链接的重要性,根据链接与主题的相关性进行...
1. **特定领域知识**:由于依赖于大规模的通用语料库进行训练,ChatGPT在某些特定领域的专业知识上可能存在局限性。例如,在医学、法律等高度专业化的领域内,ChatGPT可能难以提供精准的解答。 2. **不一致性问题*...
在我国现实生活中,学术界多用“人文社会科学”一词,而行政管理部门多用“哲学社会科学”一词,二者可以通用。但是,“哲学社会科学”的称谓是基于哲学的抽象性、统摄性和基础地位,把哲学从两类科学认识即自然科学...
互联网时代的典型搜索需求通常指向提供专业搜索服务的搜索引擎。这类搜索引擎的主要特点是能够将最相关的结果置于前列,并对搜索结果进行摘要展示和关键词高亮处理。为了实现这一目标,全文检索引擎需要具备以下关键...
在当前教育环境下,英语作为一门国际通用语言,其重要性不言而喻。六年级作为学生学习生涯的重要阶段,此时加强英语教学的趣味性和有效性显得尤为重要。针对这一需求,一份专注于提升学生英语词汇量和语言反应能力的...
2. **自底向上**:该方法从非结构化的开放链接数据中抽取实体和关系,然后选择置信度高的实体加入到知识库中,最后构建顶层的本体模式。 - **优势**:可以从大量未加整理的数据中快速构建知识图谱。 - **挑战**:...