关注这个话题是因为: 某天看到tencent wangliang的一篇关于DNA序列搜索的paper,里面提到zipf定律;从而对文献计量学也做了小小的了解,再次记录下。
概述
布拉德福定律、齐普夫定律、洛特卡定律
被认为是文献计量学
中最基本的三个定律
.它们研究的对象
分别是期刊上刊载的论文、文章中每个词的出现频次、科学工作者的著述 ;分析的单元
分别是期刊数、单词量、著者群 ;计量的方法
都是通过对文献的调查和统计 ,取得数据并进行分析归类...
布拉德福定律
布拉德福定律是由英国著名文献学家B.C.Bradford于本世纪30年代率先提出的描述文献分散规律的经验定律。其文字表述为:如果将科技期刊按其刊载某专业论文数量多寡,以递减顺序排列,则可分出一个核心区和相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量成 1:n:n2......的关系。
齐普夫定律
从根本上讲, 齐夫定律 可以表述为, 在自然语言的 语料库 里, 一个单词出现的频率与它在频率表里的排名成 反比. 所以, 频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与power law probability distributions有关的事物的参考。 这个 "定律" 是 哈佛大学的语言学家 George Kingsley Zipf (IPA [zɪf])发表的.
来源:(http://blog.sina.com.cn/s/blog_62796b970100ffbl.html) - 齐夫定律_小木_新浪博客
比如, 在 Brown 语料库中, "the" 是最常见的单词,它在这个语料库中出现了大约7%(10万单词中出现69971次)。正如齐夫定律中所描述的一样,出现次数为第二位的单词"of" 占了整个语料库中的3.5% (36411次), 之后的是"and" (28852次). 仅仅 135 个字汇就占了Brown 语料库的一半。
齐夫定律是一个实验定律, 而非 理论定律. 齐夫分布可以在很多现象中被观察到。齐夫分布的在现实中的起因是一个争论的焦点。齐夫定律很容易用点阵图观察, 坐标为log(排名) 和 log(频率)。 比如, "the" 用上述表述可以描述为x = log(1), y = log(69971)的电. 如果所有的点接近一条直线,那么它就遵循齐夫定律。 最简单的齐夫定律的例子是 "1/f function"。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的 ½。第三常见的频率是最常见的频率的1/3。 第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。然而,在一个广域范围内并且做出适当的近似,许多自然现象都符合齐夫定律。
补充
关于单词在文献中出现频次的齐普夫定律。亦称省力法则。1948年由美国哈佛大学语言学教授G.K.齐普夫对英语文献中单词出现的频次进行大量统计以检验前人的定量化公式而提出的。该定律指出文章中单词的频次(f)与其排列的序号 (r)之间存在着下述定量的关系,齐普夫认为:如果有一个包含n 个词的文章,将这些词按其出现的频次递减地排序,那么序号r和其出现频次f之积fr,将近似地为一个常数,即fr=b,(式中r=1,2,3.…),即词频分布定律最普通而又最典型的表达。 此后, 许多工具书大 都采用类似观点和说法 。如英国著名的语言学著作《语言与语言词典》 中的释义是:“(词频分布定律) 是指谈话者或写作者使用的词的分布和频次的总描述。F×R=C,方程式中F=频次,R=序号,即频率表上的位置;C=常数。方程式表示词使用的总次数和词频表上的位置之间有一个固定比率。”但是齐普夫的表达仅适宜于中频词的情况,高频与低频词与该表述偏差较大。于是对词频分布规律又有许多补充和深化的研究。
词频分布规律是有较为丰富内涵的,学术界认为正态分布是描述自然科学的典型分布,而齐普夫分布将成为揭示社会科学规律的典型分布,所以社会科学界一直很重视这个定律。讨论词频分布何以呈现那种特殊的形状,对其成因提出假说,建立适当的理论模型描绘其分布过程是当前研究工作的热点,目前较重要的假说有2个:①“省力法则
”假说。提出这一假说的是齐普夫。他认为,在语言交流过程中,“省力法则”同时体现在说话人和听话人身上。说话人希望组成语言的词少,而且一词多义,以节省其精力。听话人认为最好是一词一义,使听到的词与其确切涵义容易匹配,减少他理解的功夫。这2种节省精力的倾向最后平衡的结果,便是词频的那种双曲线型分布。②“成功产生成功
”假说。这方面以H.A.西蒙的研究最为著名。西蒙构造了一个概率模型,他所作的一个重要假说是:在文献中,一词使用的次数越多,则再次使用的可能性越大。该模型最后导出的分布与齐普夫分布相当接近,D.J.de S.普赖斯后来建立了一个相类似的模型,又明确地提出了“成功产生成功”的假说。
研究词频分布对编制词表,制定标引规则,进行词汇分析与控制,分析作者著述特征具有一定意义。经验表明,中频词往往是包含大量有检索意义的关键词。而一篇文献全文输入计算机后,计算机是很容易检出中频词的。因此,词频分布也是文献自动分类、自动标引的研究对象。
洛特卡定律
洛特卡定律是由美国学者A.J.洛特卡在本世纪20年代率先提出的描述科学生产率的经验规律,又称“倒数平方定律”。它描述的是科学工作者人数与其所著论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的1/4;写三篇论文的作者数量约为写一篇论文作者数量的1/9;写N篇论文的作者数量约为写一篇论文作者数量的1/ n2……,而写一篇论文作者的数量约占所有作者数量的60%。该定律被认为是第一次揭示了作者与数量之间的关系。
总结与感想:
1 这个主题从另一个角度说明了,各行各业的数据分析和挖掘方法虽有同有异,但大多都有规律可循;很多问题在模型层次上可能是相通的。
2 字串学始终很重要,不管是做搜索引擎,还是商业智能。。。。或者我手头的基因组序列数据分析与内在模式识别等
3 大多数基本的统计学方法是非常重要的,不但需要熟悉和熟练,而且要能懂得变通和转换。
分享到:
相关推荐
文献计量学的三大定律——布拉德福定律、齐普夫定律和洛特卡定律,分别揭示了文献分布、词频统计和作者分布的规律。这些定律帮助我们理解科学出版物的核心期刊、研究热点和作者产出的不平衡现象。它们虽然看似不同,...
接下来,布拉德福定律是信息检索中的一个经典法则。它指出,核心期刊中包含的最相关文献数量较少,但这些核心期刊能涵盖大部分重要信息;而外围期刊虽然数量庞大,但包含的相关文献相对较少。这一规律有助于我们优化...
布拉德福定律是文献计量学中的一个重要理论,由S.C.布拉德福在1948年提出。该定律指出,某一特定学科主题的高质量研究成果往往集中在少数核心期刊中,而其他较次要的成果则分散在更多的期刊上,形成一种“核心—边缘...
3. **洛特卡定律**、**齐普夫定律**、**引文分析规律**、**布拉德福定律**:这四个定律未在报告的具体步骤中详细展开,但它们分别是关于作者分布、词汇频次、引用模式和信息源分布的规律,通常在文献计量分析中用于...
- **布拉德福文献分散定律**:英国文献学家S.C.布拉德福教授通过对文献的研究发现,相关论文在期刊中的分布是极不均匀的。对于某一特定学科而言,少数期刊包含了大量相关的论文,而多数期刊则包含较少的相关论文。...
《CNKI 期刊文献计量分析》这篇文档主要探讨了中国学术期刊网络出版总库中关于“降解地膜”研究的文献计量分析。通过对检索结果的处理和统计,揭示了该领域研究的发展趋势、地域分布以及载文期刊的特点。 1. 发文...
1. 文献计量学的发展:情报学与数学、计算科学的结合,推动了文献计量学的理论体系建立,如布拉德福定律、洛特卡定律和齐夫定律等,这些定律帮助我们理解和评估科研人员的论文质量以及学术期刊的影响。在经济和科技...
此外,加菲尔德教授通过“引文集中定律”和“影响因子”概念,进一步发展了文献计量学,特别是“影响因子”成为衡量期刊整体学术影响力的常用指标。 2. “影响因子”在中国的发展与应用 自1972年加菲尔德提出...
信息资源的分布规律如洛特卡定律、齐夫定律和布拉德福定律揭示了信息在时间和空间上的分布模式。知识则是社会实践经验的总结,分为编码知识(显性知识)和非编码知识(隐性知识)。文献作为知识的载体,包括印刷型、...
这一概念最早源于布拉德福定律和加菲尔德文献集中定律。布拉德福定律指出,某一学科领域的论文多数集中在少量的专业期刊中,形成“核心区”和“相关区”,其中核心区期刊数量较少,却承载了大量该领域的论文。而...
它基于科学计量方法,对全球众多国家和学科的数千种期刊进行数量统计分析,从中筛选出各学科的核心期刊,为科研人员提供查阅专业文献和发表论文的权威参考。本文以2001年SCI期刊引用报告JCR(Journal Citation ...
核心期刊的概念源于布拉德福定律(Bradford's law),它描述了文献在期刊中的分布规律,即少量核心期刊刊载大量相关领域的重要文献,而大量期刊仅刊载少量文献。核心期刊因其刊载高影响力论文和研究成果而受到学术界...
15. 核心期刊:根据布拉德福定律,阅读核心期刊能高效获取重要情报。 16. 核心期刊的特性:学科性、学术性和时间性,其期刊影响因子反映了其在学术领域的影响力。 17. 印刷型文献:历史悠久,是最早的文献形式之一...
布拉德福定律指出,文献信息在期刊上的分布呈现不均匀性,存在核心期刊、相关期刊和相邻期刊三个区域。这一规律帮助我们识别核心期刊,以最小的成本获取高价值的信息资源,并指导图书馆合理规划馆藏规模和布局。此外...
例如,布拉德福定律揭示了文献分布的不均匀性,指出核心期刊在某一学科中的关键地位。这一理论对于信息采集和馆藏规划具有重要意义,帮助我们识别并重点收集那些载文率高、信息量大的核心期刊,以高效利用有限的资源...
最后,信息的分布规律如布拉德福定律、诺特卡定律、齐普夫定律和文献增长规律,提供了理解和预测科学文献分布的工具。这些定律有助于优化信息检索和利用的效率。 总的来说,信息资源管理是一个多维度的学科,涉及到...
12. 信息分布规律:洛特卡定律和普赖斯定律描述了信息生产者的分布,而布拉德福定律和齐夫定律则揭示了信息内容的离散分布。 13. 时间和空间在信息交流中的作用:体现在载体变换、载体位移、符号转换和符号保持等...