- 浏览: 367043 次
- 性别:
- 来自: 杭州
文章分类
最新评论
-
guji528:
很好,清晰明了!
(8)python教程:几行代码搞定python 设计模式 -
poson:
为什么踩啊?
三言两语谈团队合作 -
andyhelberg:
你好,想请教一下关于应用敏捷开发在软件维护过程的经验。欢迎与我 ...
对scrum开发的感受 -
poson:
chenwq 写道可以提供behavior targeting ...
最近公司培训的算法 -
chenwq:
可以提供behavior targeting 相关材料不?先谢 ...
最近公司培训的算法
标签: | |
Zipf与省力原则[1]
北京大学姜望琪
摘要:本文首先介绍Zipf的生平及以其名字命名的定律,然后讨论了省力原则与Zipf定律的关系:即,省力原则是单一化力量跟多样化力量之间的妥协,Zipf定律是省力原则的体现。并指出,省力原则与语言冗余现象不矛盾。在后半部分,我们讨论了省力原则与语用学的关系。Grice (1978)曾提出修订版奥卡姆剃刀(Occam’s Razor),这跟省力原则有明显的联系。Horn (1984)则进一步把Zipf的省力原则跟Grice的准则结合起来,提出了Q原则和R原则。Sperber和Wilson (1986/1995)的关联原则也谈到了省力问题,但他们的理论的解释力不如Horn的两原则大。最后,我们通过具体讨论如何理解an X,论证了我们的论点。
关键词:Zipf定律;省力原则;Q原则和R原则;
省力原则(the Principle of Least Effort),又称经济原则(the Economy Principle),可以概括为:以最小的代价换取最大的收益。这是指导人类行为的一条根本性原则。在现代学术界,第一个明确提出这条原则的是美国学者George Kingsley Zipf。他为什么要提出这条原则?这条原则到底应该怎么理解?这是本文要探讨的问题。
1. Zipf其人 George Kingsley Zipf 1902年1月出生于一个德裔家庭(其祖父十九世纪中叶移居美国)。
1924年,他以优异成绩毕业于哈佛学院。
1925年在德国波恩、柏林学习。
1929年完成Relative Frequency as a Determinant of Phonetic Change,获得哈佛比较语文学博士学位。然后,他开始在哈佛教授德语。
1931年与Joyce Waters Brown结婚。
1932年出版Selected Studies of the Principle of Relative Frequency in Language。
1935年出版The Psycho- Biology of Language:An Introduction to Dynamic Philology。
1939年被聘为讲师。1949年出版Human Behavior and the Principle of Least Effort:An Introduction to Human Ecology。
1950年9月因患癌症病逝。(Prün & Zipf 2002)
2. Zipf定律
Zipf的专业是比较语文学,但是,以其名字命名的定律却早已走出语言学,进入了信息学、计算机科学、经济学、社会学、生物学、地理学、物理学等众多研究领域[2],在学术界享有极高的声誉。什么是Zipf定律?为什么它有如此巨大的影响?这一节我们讨论这个问题。简单地说,Zipf发现一个词在一个有相当长度的语篇中的等级序号(该词在按出现次数排列的词表中的位置,他称之为rank,简称r)与该词的出现次数(他称为frequency,简称f)的乘积几乎是一个常数(constant,简称C)。用公式表示,就是r × f = C。例如,他根据M. L. Hanley(1937)中有关James Joyce Ulysses的用词数据,从中抽取了第10、20等序号的词,其序号(r)与在书中的出现次数(f)的乘积分别如下表的III栏。除了最后三个数字出入稍大一点,其他的都在26,000左右。而且,Zipf发现常数C乘以10跟该书的实际总词数260,430很接近,如IV栏所示。 I Rank (r)II Frequency (f)III Product of I and II (r × f = C)IV Theoretical Length of Ulysses (C × 10) 102,65326,530265,300 201,31126,220262,200 3092627,780277,800 4071728,680286,800 5055626,500278,000 10026526,500265,000 20013326,600266,000 3008425,200252,000 4006224,800248,000 5005025,000250,000 1,0002626,000260,000 2,0001224,000240,000 3,000824,000240,000 4,000624,000240,000 5,000525,000250,000 10,000220,000200,000 20,000120,000200,000 29,899129,899298,990 表1 (Zipf 1949:24) r × f = C这个公式还说明,一个词的出现次数跟它的等级序号成反比。出现次数越多,序号越小。出现次数最多的排第一,出现次数最少的排最后。这原本没有什么特别的:序号就是根据出现次数排的。但它们的乘积是常数这一点,却使得分别以词的序号和出现次数为轴线的双对数表(doubly logarithmic chart)呈现极大的规律性——它几乎是一条45度的直线。[3] 例如,Zipf为Ulysses的用词制作的双对数表如下:
图1(原载Zipf 1949:24,本简化图来自Ha, Sicilia-Garcia, Ming, & Smith 2003: 315)
Zipf关于r与f关系的论述被称为“Zipf’s law”。展示两者关系的双对数表被称为“Zipf plots”,或“Zipf curves”。某种现象的出现次数如果符合Zipf 定律,这种现象就被认为具备“Zipf distribution”,或“the Zipfian distribution”。[4] 类似的观点其实早就有人提出过。如,美国人口统计学家Alfred Lotka(1880 – 1949)在1926年发现,一个文献目录中有n个文献被提及的作者的数量(设为x)是常数(C)除以na所得的商(其中的幂a常常接近2)。用公式表示,就是x = C / na,称为“the inverse square law(平方反比律)”,或“the power function distribution(幂函数分布)”。Lotka还证明,当a确实等于2时,C约等于0.61。这就是说,在一个文献目录中大约61%的作者只有一篇文献被提及。(A Short Biography of Alfred James Lotka) Zipf在1929年写作Relative Frequency as a Determinant of Phonetic Change的时候,已经对这个问题有了一些初步的认识。在1932年出版的Selected Studies of the Principle of Relative Frequency in Language[5]中,他提到了上述平方反比律,虽然没有提及Lotka的名字。但是,在1935年出版的The Psycho-Biology of Language:An Introduction to Dynamic Philology中,他在引用了Lotka定律后说:然而,另外还有一种观察、标示这种出现次数的方法。它不太依赖语料的容量,却揭示出另一个特征。就像一位朋友向我建议的,我们可以把词汇表中的词按出现次数排列,如,第一个多的,第二个多的,第三个多的,第五百个多的,第一千个多的,等。我们可以在以顺序为横轴,以出现次数为竖轴的双对数表上把它显示出来。(译自Rousseau & Zhang 1992:204)这是Zipf第一次明确表述自己的发现。在该书中,Zipf还讨论了词频与词长的关系。他认为,“语言中的短词很明显地比长词更受到人们的欢迎”。“总的来说,词的长度跟它的出现次数成反比,尽管其比例不一定很严格”(译自Catriona & Hurford 2003: 2)。这种说法跟注4提到的说法——少数词经常出现,多数词偶然出现——结合起来,就变成:少数几个短词经常被人们使用,而其他词则极少使用。除了语言以外,Zipf还把自己发现的规律应用于城市人口、企业收入等现象,研究这些数量跟等级的关系。在1949年出版的Human Behavior and the Principle of Least Effort:An Introduction to Human Ecology中,他进一步扩展了视野,讨论了人类社会的众多社会、文化现象,甚至自然现象。
3. 省力原则但是,跟其他著述更大的不同是,Zipf在1949年的书里提出了一条指导人类行为的基本原则——省力原则。他是怎么提出这条原则的呢?该书正题的第一个词是“人类行为”,副题是“人类生态学导论”,很明显Zipf在此要讨论的不只是人类语言,而是人类的所有行为。Zipf在序言里指出,如果我们把人类行为纯粹看作一种自然现象,如果我们像研究蜜蜂的社会行为、鸟类的筑巢习惯一样研究人类行为,那么,我们就有可能揭示其背后的基本原则。这是他提出“省力原则”的大背景。当Zipf在众多互不相干的现象里都发现类似Zipf定律的规律性以后,他就开始思考造成这种规律性的原因。这是导致他提出“省力原则”的直接因素。在开始正式论证以前,Zipf首先澄清了“省力原则”的字面意义。第一,这是一种平均量。一个人一生要经历很多事情,他在一件事情上的省力可能导致在另一件事情上的费力。反过来,在一件事情上的费力,又可能导致在另一件事情上的省力。第二,这是一种概率。一个人很难在事先百分之百地肯定某种方法一定能让他省力,他只能有一个大概的估计。(p. 6)因为用词研究是理解整个言语过程的关键,而后者又是理解整个人类生态学的关键,他的具体论证从用词经济开始。(p. 19) Zipf认为,用词经济可以从两个角度来讨论:说话人的角度和听话人的角度。从说话人的角度看,用一个词表达所有的意义是最经济的。这样,说话人不需要花费气力去掌握更多的词汇,也不需要考虑如何从一堆词汇中选择一个合适的词。这种“单一词词汇量”就像木工的一种多用工具,集锯刨钻锤于一身,可以满足多种用途。但是,从听话人角度看,这种“单一词词汇量”是最费力的。他要决定这个词在某个特定场合到底是什么意思,而这几乎是不可能的。[6] 相反,对听话人来说,最省力的是每个词都只有一个意义,词汇的形式和意义之间完全一一对应。(pp. 20-21)这两种经济原则是互相冲突、互相矛盾的。Zipf把它们叫做一条言语流中的两股对立的力量:“单一化力量”(the Force of Unification)和“多样化力量”(the Force of Diversification)。他认为,这两股力量只有达成妥协,达成一种平衡,才能实现真正的省力。(pp. 21-22)事实正像预计的那样。请看Zipf的论证:假如只有单一化力量,那么任何语篇的单词数量(number)都会是1,而它的出现次数(frequency)会是100%。另一方面,假如只有多样化力量,那么每个单词的出现次数都会接近1,而单词总数量则由语篇的长度决定。这就是说,number和frequency是衡量词汇平衡程度的两个参数。(pp. 22-23)这时候,Zipf研究过的词频数据派上了用处。如我们在前面引用过的,James Joyce的 Ulysses总单词量是260,430,不同单词数是29,899。其中频率排行第10的单词出现了2,653次,排行第100的单词出现了265次,排行第1000的单词出现了26次。呈现了相当强的规律性。这是为什么? Zipf的解释是,根据r × f = C这个公式,我们可以推导出f = C / r。因为C是常数,我们可以把它设为1,而不影响各个单词之间的f / r比值。也就是说,我们可以进一步推导出f = 1 / r。这样一来,如果频率最高的单词的出现次数是1,第二个高的单词的出现次数就是1 / 2。依此类推,我们就得到了一个如下的简单调和级数(the harmonic series): 1,1/2,1/3,… 1/n (p. 35)如果我们把上述比值加起来,就会得到一个有n个单词的调和级数的合计S(sum),写作Sn。如果用F表示频率最高的单词的出现次数,那么我们就可以得到一个如下的调和级数方程式(the equation of the harmonic series): F " Sn = F/1 + F/2 + F/3 + … + F/n (p. 36)而如果用坐标图把这个方程式显示出来,它几乎跟图1一样,是一条45度的斜线。这当然是因为这个坐标图的基础也是r × f = C。问题是:为什么是45度?概括起来,Zipf的回答是:这是因为有省力原则在起作用。前文已说明,如果一种语言只有一个单词,它的出现率会是100%。相反,如果每个单词都只有一个意义,那么,一个语篇的不同单词数会跟总词数一样,而且各个单词的出现次数都会是1。(严格地说,没有完完全全相同的同义词。)如果用坐标表示,前者是一条竖线,后者是一条横线。把它们合在一起,正好构成一个90度直角。现在的45度斜线,恰恰是前两种情况的中和、妥协。既然前两种情况分别只考虑了说话人利益,或听话人利益,那么,中和前两种情况的第三种情况就既考虑了说话人利益,又考虑了听话人利益,就是“单一化力量”和“多样化力量”之间平衡、妥协的结果。
(Poosala n.d.: 4)这样,Zipf就既为省力原则是“单一化力量”和“多样化力量”之间的平衡、妥协找到了佐证,又解释了为什么会出现Zipf定律这样的现象。
[1] 本文在写作过程中得到了很多朋友的帮助,特别是清华大学的封宗信博士在美国为我复印了Zipf(1949)和Martinet(1962),耶鲁大学的Horn教授向我提供了有关Zipf的网站等信息,国际应用生物科学中心的张巧巧博士给我寄来了她跟Rousseau教授合写的文章等,特此致谢。
[2] 中国科学院上海原子核研究所的马余刚等人近几年提出,原子核碎裂中可能也存在Zipf定律。他们发现,在热发射体的破碎过程中,液汽相变温度处的碎片,其以碎片等级排序的平均电荷(或质量)正好反比于碎片从小到大的排列次序。(韩定定、马余刚2000,马余刚2001)。
[3] 这个45度角有特别重要的意义,我们下文再讨论。
[4] 如图1所示,实际数据跟理论数据是有差距的,特别是在最大和最小的两头。它们都偏离了那条45度线。这说明,Zipf定律描述的只是一种大致情况。如果Zipf定律完全成立,出现次数最多的一个词就会占全文的10%。这跟事实并非完全一致。尽管如此,少数几个词,比如说20%的词,其使用频率占全文的80%,却可能是事实。这跟近年人们谈论很多的2/8现象是一致的,也是Zipf定律被认为广泛存在于各种领域的一个重要原因。
[5] 其中包括他对古罗马作家Plautus(普劳图斯,公元前254-184)作品的词汇出现情况进行的研究。他还跟两个中国人 Mr. Kan Yu Wang和Mr. H. Y. Chang一起研究了孙中山、章太炎、梁启超、陈独秀、胡适等人写作的20个汉语语篇中的词汇出现规律。Rousseau & Zhang (1992)复查了Zipf等人关于汉语的研究,在细节上提出了一些异议,但承认Zipf他们的总的结论是对的。
[6] 如果沿用上述比喻,这等于说,木工的这种多用工具实际上不存在。
发表评论
-
论文阅读总结
2012-02-14 17:29 1048以前阅读论文的套路:搜索、下载、阅读,如果好就打印出来, ... -
程序路径以及配置文件的习惯问题
2012-02-03 11:20 983每次用别人代码的时候,都希望从svn中check out出来就 ... -
常用书籍
2012-01-11 15:27 948Hadoop权威指南(第2版) [平装] http://ww ... -
批评很简单,解决问题很复杂
2011-09-13 10:22 1107在工作中发现问题很简单,你只要仔细看,你就可以发现大量的问题。 ... -
一个团队最首要的是士气
2011-07-06 09:15 793士气遭到打击,短期内很难恢复! 如果几个人士气低迷,很容易影响 ... -
身为程序员犯过的错误
2011-04-11 13:22 873以前犯过的错误时,从来不和主管沟通。 对项目的看法、思考,只 ... -
采取行动,解决问题
2010-08-01 14:42 957陶行知很久以前就说过”知易行难“,就是说我们很容易获取 ... -
数据推送总结
2010-07-25 09:50 1152当我们有一个应用,部署在多个服务器上。这些服务器每天都要更新数 ... -
提高工作效率的15个小技巧
2010-07-24 16:49 10891、多用电话沟通。用邮件可以讨论结果,用聊天工具很多时候只 ... -
如何提高执行力
2010-07-24 12:36 0当接受一个任务的时候,就需要千方百计的想办法完成任务。 -
将公共代码和业务平台分开
2010-07-20 12:36 1008《走出软件作坊》一书的作者阿朱说,要把公共代码和业务平台 ... -
实在是太方便了----建议使用Chrome的AutoPager 插件
2010-07-18 23:42 1736AutoPager 插件可以对javaeye论坛帖子自动翻页, ... -
如何改进算法以及上线策略
2010-07-18 22:39 1005在互联网行业,如果你有很多用户,当你稍微修改一下算法, ... -
实习生待遇怎么才合适
2010-07-18 19:27 1518很多人都说实习生的待遇如何如何的低,觉得实习生吃了很大 ... -
SCRUM Master如何处理插入需求
2010-07-15 20:55 981我们处在一个高速发展的时代。在中国做什么都要快,快才能 ... -
工作中无小事
2010-06-20 18:00 953工作中无小事。很多时候,在工作中无意间做错事情就会砸了自 ... -
用积极的状态工作
2010-04-17 12:43 879很多时候我觉得工作很累,觉得付出少于回报,觉得公司这样那 ... -
我们需要什么样的实习生?---面试感想
2010-04-13 08:45 2673以下针对数据挖掘的实习生,最近对两三个实习生面试之后的感想: ... -
为什么我不会写作文?
2010-01-12 22:14 2263小学的时候,写作 ... -
快乐工作
2010-01-03 17:34 880...
相关推荐
可以用matlab来验证经典的zipf分布定律。
4. **验证与分析**:绘制实际数据与拟合模型的对比图,检查Zipf分布的适用性。这可以通过MATLAB的绘图函数如`plot`或`loglog`完成,后者对于展示幂律分布特别有用。 5. **应用**:Zipf分布可以应用于文本分析,如...
80/20原则,即帕累托原则,是Zipf分布的一个典型例子,表明少量的元素(如最常使用的词汇或最受欢迎的网站)占据了大部分的注意力或活动。 Zipf分布的核心特征是其频率与排名之间存在反比关系,数学表示为f(r) = c...
1. Zipf定律的数学表达:Zipf定律可以用以下公式表达: rP = c/r^α 其中,rP表示某个词汇(或软件)出现的频率,r表示该词汇(或软件)在频率排序中的序号,c是常数项,α是Zipf指数,该指数的大小反应了分布...
通过对Web通信量的分析,人们发现用户对Web对象的访问模式服从Zipf定律或类Zipf定律。在Web缓存的设计中,为得到所期望的Web对象命中率的要求,设计人员可以根据Zipf定律近似计算出相应的缓存大小。因此,Zipf定律为...
该文件中包含了多种随机数的产生,其中的zipf分布是自己所写,很不错的一个m文件。
Zipf's law governs many features of the Internet. Observations of Zipf distributions, while interesting in and of themselves, have strong implications for the design and function of the Internet. The ...
1. **源代码文件**:这些文件(通常是.py文件)实现了Zipf's Law的相关算法和函数,可能包括数据读取、排序、计数和绘制频率分布图等功能。 2. **文档**:可能包含README文件,解释了如何安装、使用和理解库的详细...
zipf_ratio = (rank**-1).to_f zipf_frequency = total_words / (rank * zipf_ratio) puts "Rank\tWord\tFrequency\tTheoretical Zipf Frequency" sorted_word_count.each do |word, count| puts "#{rank}\t#{word...
1. **定义Zipf分布**: 首先,需要理解Zipf分布的数学形式。Zipf分布的概率质量函数(PMF)可以表示为P(k) = (k^(-n)) / Z(n),其中k是排名,n是指数,Z(n)是归一化常数,确保总概率和为1。 2. **计算归一化常数Z(n)...
基于Zipf分布生成随机数作者:Tuyen Tran (tuyen.tran@rutgers.edu)。 2015 年 10 月参考: https : //en.wikipedia.org/wiki/Zipf's_law N 元素数expn 指数M 要生成的样本... 示例:zipf_rand(3,1,4) 答案 = 3 2 1 1
《F3arWin4.4.3:解锁与越狱新纪元》 在iOS世界里,F3arRa1n这个名字无疑是极具影响力的。最近,这个知名的越狱工具团队发布了他们的最新力作——F3arWin4.4.3版本,专为iOS 14.8系统提供了一个完美的越狱解决方案...
以1996年至2004年入境旅游统计数据为样本,借用齐夫(Zipf)参数和差异度、均衡度指标,对四川省入境旅游流规模结构的齐夫(Zipf)特征和差异度进行了对比研究.结果发现齐夫(Zipf)参数可对旅游流规模结构进行分段处理,...
国外关于 Zipf定律的实证研究的区域空间多采用国家层次,而国内关于 Zipf定律的实证研究则涉及国 家、跨省的经济区及行政省的不同层次,于是这就有可能存在经济区域空间划定是否合理的问题。现以长江三角 洲地区为例,...
idl代码与Matlab Zipf-s-Law-NLP 简短而全面的代码,用于使用zipf定律和pearson相关系数对文本数据进行数学处理 作者简介 姓名:Anirudh Kalla 附属机构:印度科普教育科学研究所 部门:物理 嘿,谢谢您访问这个空间...
压缩文件 Zipf分布的四个扩展的实现:Marshall-Olkin扩展Zipf(MOEZipf)Pérez-Casany,M.和Casellas,A.(2013)arXiv:1304.4540,Zipf-Poisson Extreme(Zipf-PE) -... 所有扩展都保持与尾部Zipf模型相关的线性。