简单地说,Zipf发现一个词在一个有相当长度的语篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几乎是一个常数(constant,简称C)。用公式表示,就是r × f = C。例如,他根据M. L. Hanley(1937)中有关James Joyce Ulysses的用词数据,从中抽取了第10、20等序号的词,其序号(r)与在书中的出现次数(f)的乘积分别如下表的III栏。除了最后三个数字出入稍大一点,其他的都在26,000左右。而且,Zipf发现常数C乘以10跟该书的实际总词数260,430很接近,如IV栏所示。
I
Rank
(r)
|
II
Frequency
(f)
|
III
Product of I and II
(r × f = C)
|
IV
Theoretical Length of Ulysses
(C × 10)
|
10
|
2,653
|
26,530
|
265,300
|
20
|
1,311
|
26,220
|
262,200
|
30
|
926
|
27,780
|
277,800
|
40
|
717
|
28,680
|
286,800
|
50
|
556
|
26,500
|
278,000
|
100
|
265
|
26,500
|
265,000
|
200
|
133
|
26,600
|
266,000
|
300
|
84
|
25,200
|
252,000
|
400
|
62
|
24,800
|
248,000
|
500
|
50
|
25,000
|
250,000
|
1,000
|
26
|
26,000
|
260,000
|
2,000
|
12
|
24,000
|
240,000
|
3,000
|
8
|
24,000
|
240,000
|
4,000
|
6
|
24,000
|
240,000
|
5,000
|
5
|
25,000
|
250,000
|
10,000
|
2
|
20,000
|
200,000
|
20,000
|
1
|
20,000
|
200,000
|
29,899
|
1
|
29,899
|
298,990
|
r × f = C这个公式还说明,一个词的出现次数跟它的等级序号成反比。出现次数越多,序号越小。出现次数最多的排第一,出现次数最少的排最后。这原本没有什么特别的:序号就是根据出现次数排的。但它们的乘积是常数这一点,却使得分别以词的序号和出现次数为轴线的双对数表(doubly logarithmic chart)呈现极大的规律性——它几乎是一条45度的直线。
分享到:
相关推荐
总的来说,Python库zipf-1.0.15提供了一种方便的方式来探索和利用Zipf's Law,这对于语言分析、文本挖掘和信息检索等领域都有重要的应用价值。通过理解和使用这个库,开发者能够更好地理解自然语言的统计特性,从而...
Zipf-s-Law-NLP 简短而全面的代码,用于使用zipf定律和pearson相关系数对文本数据进行数学处理 作者简介 姓名:Anirudh Kalla 附属机构:印度科普教育科学研究所 部门:物理 嘿,谢谢您访问这个空间,希望您在这里...
Zipf分布,也被称为 Zipf's law 或 哈夫曼分布,是一种在自然语言处理、信息论、数学和社会科学等领域广泛应用的概率分布。它描述了在一个大文本集合中,单词频率与它们的排名之间存在一个简单的反比关系。在计算机...
该项目可以帮助用户理解文本数据中的词汇分布规律,通过可视化的方式展示词频统计结果,并进行Zipf's Law的相关分析。 【Word-Count-Visualizer组件】 `Word-Count-Visualizer`是项目的核心部分,它负责读取文本...
本章节将从罗杰斯同义词词典(Roget's Thesaurus)出发,探讨其内在的动力律分布特性,并进一步介绍Zipf定律、无标度网络(scale-free networks)的概念及其背后的80/20法则,最后讨论偏爱连接(preferential attachment)...
(2) 数据统计:以构建倒排索引的文档为基础,检验 Heaps’ law 和 Zipf’s law 在该数 据集上是否正确,要求以曲线图或表格的方式来呈现,包含定量的结果。 (3) 开发的信息检索系统:要求支持基本的用户交互,包括...
这包括对文档的建模,以及文档集合中词频分布的分析(Heaps’ law 和 Zipf’s law)。他们还讨论了查询和答案模型,以及这些理论如何应用于网络环境中的倒排索引,这对于搜索引擎的优化至关重要。 #### 金融领域的...
作者还提到,奇普夫定律(Zipf's law)也适用于代码,表明高频率的指令在代码中出现的概率越高。 DeepSemantic 概述 DeepSemantic是本文提出的基于BERT的二进制代码表示方法。该方法包括两个阶段:预训练和微调。...
1. 齐普夫定律:齐普夫定律(Zipf's law)是语言学中的一个经验定律,描述的是自然语言中词频分布的规律性。齐普夫定律指出,在一个大的文本语料库中,最常出现的单词的频率大约是次常见单词频率的两倍,依此类推。...
频度统计用于量化词频,Zipf's law和Heap's law是描述词频分布的两个重要规律。 课程还讨论了语料库的多级加工,这是构建高质量NLP模型的关键。语料库的加工涉及词性标注、句法标注和语义标注,这些任务可以采用...
接着是“Zipf's Law”(齐夫定律),它在语言学和信息论中有重要应用。齐夫定律指出,在一个大文本集合中,单词出现的频率与其排名成反比。也就是说,最常出现的单词将比次常见的单词出现次数多得多。在“Numbers-...
在统计学和语言学中,Zipf定律(也称为Zipf's law或Zeta分布)是一种重要的幂律分布,通常用来描述一种现象:在一个大文本集合中,单词出现的频率与其排名成反比。例如,最常出现的单词会比第二常出现的单词频繁得多...
【齐夫法则】(Zipf's Law)是描述企业规模分布的一种理论,它指出企业规模分布符合Pareto指数接近1的规律。然而,中国的实际情况并不完全符合这一法则,企业规模分布呈现出偏离Zipf分布的现象。这可能是因为中国的...
- **“脏手”现象**:这部分介绍了实际工作中遇到的一些不完美数据,如词典资源、词汇统计、齐夫定律(Zipf's Law)、共现(collocation)等。 2. **数学基础**:这部分是整个书中非常重要的章节,它为读者提供了必要...
Zipf's Law描述了词频与其排名乘积的规律,对于索引优化有指导意义。 五、Queries 查询表达的优化至关重要,因为一个查询可能代表多种信息需求,且可能存在表述不准确的问题。这需要搜索引擎理解查询意图,通过查询...
- **实战准备**:介绍了NLP实践中常用的一些资源,如词典资源、词频统计、齐夫定律(Zipf's law)等,并通过实例展示了如何处理这些数据。 **2. 数学基础** - **概率论基础**:这部分内容为读者提供了进行NLP研究所...
依据齐普夫定律(Zipf's Law),论文推导出了适合中文文本的同频词数的数学表达式。这个数学模型能够更精确地表示出不同长度文本中各个频次的同频词数,从而为后续的关键词提取和文本分类提供了坚实的基础。 ### 二、...