关注这个话题是因为: 某天看到tencent wangliang的一篇关于DNA序列搜索的paper,里面提到zipf定律;从而对文献计量学也做了小小的了解,再次记录下。
概述
布拉德福定律、齐普夫定律、洛特卡定律
被认为是文献计量学
中最基本的三个定律
.它们研究的对象
分别是期刊上刊载的论文、文章中每个词的出现频次、科学工作者的著述 ;分析的单元
分别是期刊数、单词量、著者群 ;计量的方法
都是通过对文献的调查和统计 ,取得数据并进行分析归类...
布拉德福定律
布拉德福定律是由英国著名文献学家B.C.Bradford于本世纪30年代率先提出的描述文献分散规律的经验定律。其文字表述为:如果将科技期刊按其刊载某专业论文数量多寡,以递减顺序排列,则可分出一个核心区和相继的几个领域,每区刊载的论文量相等,此时核心期刊和相继区域期刊数量成 1:n:n2......的关系。
齐普夫定律
从根本上讲, 齐夫定律 可以表述为, 在自然语言的 语料库 里, 一个单词出现的频率与它在频率表里的排名成 反比. 所以, 频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与power law probability distributions有关的事物的参考。 这个 "定律" 是 哈佛大学的语言学家 George Kingsley Zipf (IPA [zɪf])发表的.
来源:(http://blog.sina.com.cn/s/blog_62796b970100ffbl.html) - 齐夫定律_小木_新浪博客
比如, 在 Brown 语料库中, "the" 是最常见的单词,它在这个语料库中出现了大约7%(10万单词中出现69971次)。正如齐夫定律中所描述的一样,出现次数为第二位的单词"of" 占了整个语料库中的3.5% (36411次), 之后的是"and" (28852次). 仅仅 135 个字汇就占了Brown 语料库的一半。
齐夫定律是一个实验定律, 而非 理论定律. 齐夫分布可以在很多现象中被观察到。齐夫分布的在现实中的起因是一个争论的焦点。齐夫定律很容易用点阵图观察, 坐标为log(排名) 和 log(频率)。 比如, "the" 用上述表述可以描述为x = log(1), y = log(69971)的电. 如果所有的点接近一条直线,那么它就遵循齐夫定律。 最简单的齐夫定律的例子是 "1/f function"。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的 ½。第三常见的频率是最常见的频率的1/3。 第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。然而,在一个广域范围内并且做出适当的近似,许多自然现象都符合齐夫定律。
补充
关于单词在文献中出现频次的齐普夫定律。亦称省力法则。1948年由美国哈佛大学语言学教授G.K.齐普夫对英语文献中单词出现的频次进行大量统计以检验前人的定量化公式而提出的。该定律指出文章中单词的频次(f)与其排列的序号 (r)之间存在着下述定量的关系,齐普夫认为:如果有一个包含n 个词的文章,将这些词按其出现的频次递减地排序,那么序号r和其出现频次f之积fr,将近似地为一个常数,即fr=b,(式中r=1,2,3.…),即词频分布定律最普通而又最典型的表达。 此后, 许多工具书大 都采用类似观点和说法 。如英国著名的语言学著作《语言与语言词典》 中的释义是:“(词频分布定律) 是指谈话者或写作者使用的词的分布和频次的总描述。F×R=C,方程式中F=频次,R=序号,即频率表上的位置;C=常数。方程式表示词使用的总次数和词频表上的位置之间有一个固定比率。”但是齐普夫的表达仅适宜于中频词的情况,高频与低频词与该表述偏差较大。于是对词频分布规律又有许多补充和深化的研究。
词频分布规律是有较为丰富内涵的,学术界认为正态分布是描述自然科学的典型分布,而齐普夫分布将成为揭示社会科学规律的典型分布,所以社会科学界一直很重视这个定律。讨论词频分布何以呈现那种特殊的形状,对其成因提出假说,建立适当的理论模型描绘其分布过程是当前研究工作的热点,目前较重要的假说有2个:①“省力法则
”假说。提出这一假说的是齐普夫。他认为,在语言交流过程中,“省力法则”同时体现在说话人和听话人身上。说话人希望组成语言的词少,而且一词多义,以节省其精力。听话人认为最好是一词一义,使听到的词与其确切涵义容易匹配,减少他理解的功夫。这2种节省精力的倾向最后平衡的结果,便是词频的那种双曲线型分布。②“成功产生成功
”假说。这方面以H.A.西蒙的研究最为著名。西蒙构造了一个概率模型,他所作的一个重要假说是:在文献中,一词使用的次数越多,则再次使用的可能性越大。该模型最后导出的分布与齐普夫分布相当接近,D.J.de S.普赖斯后来建立了一个相类似的模型,又明确地提出了“成功产生成功”的假说。
研究词频分布对编制词表,制定标引规则,进行词汇分析与控制,分析作者著述特征具有一定意义。经验表明,中频词往往是包含大量有检索意义的关键词。而一篇文献全文输入计算机后,计算机是很容易检出中频词的。因此,词频分布也是文献自动分类、自动标引的研究对象。
洛特卡定律
洛特卡定律是由美国学者A.J.洛特卡在本世纪20年代率先提出的描述科学生产率的经验规律,又称“倒数平方定律”。它描述的是科学工作者人数与其所著论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的1/4;写三篇论文的作者数量约为写一篇论文作者数量的1/9;写N篇论文的作者数量约为写一篇论文作者数量的1/ n2……,而写一篇论文作者的数量约占所有作者数量的60%。该定律被认为是第一次揭示了作者与数量之间的关系。
总结与感想:
1 这个主题从另一个角度说明了,各行各业的数据分析和挖掘方法虽有同有异,但大多都有规律可循;很多问题在模型层次上可能是相通的。
2 字串学始终很重要,不管是做搜索引擎,还是商业智能。。。。或者我手头的基因组序列数据分析与内在模式识别等
3 大多数基本的统计学方法是非常重要的,不但需要熟悉和熟练,而且要能懂得变通和转换。
分享到:
相关推荐
文献计量学的三大定律——布拉德福定律、齐普夫定律和洛特卡定律——是该学科研究的基础。布拉德福定律揭示了文献在核心期刊的分布情况,齐普夫定律展示了词频统计的特点,而洛特卡定律则关注作者产出的规律性。尽管...
接下来,布拉德福定律是信息检索中的一个经典法则。它指出,核心期刊中包含的最相关文献数量较少,但这些核心期刊能涵盖大部分重要信息;而外围期刊虽然数量庞大,但包含的相关文献相对较少。这一规律有助于我们优化...
3. **洛特卡定律**、**齐普夫定律**、**引文分析规律**、**布拉德福定律**:这四个定律未在报告的具体步骤中详细展开,但它们分别是关于作者分布、词汇频次、引用模式和信息源分布的规律,通常在文献计量分析中用于...
vue.js vue.min.js vue-router.js vue-router.min.js
内容概要:本文档是关于DM8数据库系统的SQL语言使用手册,全面介绍了其SQL语言的基础特性、功能、语法规则及相关使用方法。手册首先概述了DM_SQL的特点和它支持的各种数据类型(例如:数值、字符串、日期时间类型等)及其对应的表达式。接下来深入探讨了一系列高级话题,涵盖数据定义语句-DDL、数据操纵语句-DML和数据控制语句,具体讲解了多种表类型(常规表、HUGE表、外部表)的创建与管理,以及索引机制(全文索引、位图连接索引等)。此外还提供了丰富的实例示范,确保读者能直观理解并应用于实际项目。同时,文档也阐述了各种系统级别的功能,如日志和检查点管理、MPP管理和统计信息生成等功能的使用方法。 适合人群:具有一定数据库基础知识并且有意深入了解DM8数据库系统特性的开发工程师、数据库管理人员或相关专业技术人员。 使用场景及目标:①指导开发人员掌握DM8中各类SQL命令的实际运用技巧;②帮助运维人员学会通过SQL来进行有效的数据维护与优化,从而提升数据库的整体性能。 其他说明:该手册不仅仅是SQL理论的讲述,而是通过大量的实例演示让使用者更加熟悉日常的工作任务。对于复杂的企业级应用场景尤其有
1108_ba_open_report
anslow_02_0109
opencv下载安装教程
aronson_01_0707
Wang Chi, Szeto Donald - Designing Deep Learning Systems. A software engineer's guide
使用Python语言对Django框架进行设计,选用豆瓣读书网站(https://book.douba n.com/)作为研究对象,基于用户的阅读行为数据,运用网络爬虫技术来抓取所需数据,随后对这些数据进行深度清理,存储到数据库中。借助ECharts的可视化工具,深入分析和直观展示,实现数据分析与可视化。
barbieri_01_0108
brown_3ck_01_0718
关键词:学生选课系统;Python语言;MySQL数据库 学生选课系统采用B/S架构,数据库是MySQL。网站的搭建与开发采用了先进的Python进行编写,使用了Django框架。该系统从三个对象:由管理员和学生、教师来对系统进行设计构建。主要功能包括:个人信息修改,对学生、教师信息、课程信息、课程分类、选择课程、班级、成绩通知、教室信息、系统管理等功能
ganga_02_0909
毕设-springboot大学生竞赛管理系统(免费领取)
agenda_3cd_01_0716
Swift语言教程:从入门到实践 Swift是苹果公司开发的一种多范式编程语言,用于iOS、macOS、watchOS和tvOS应用开发。它结合了C和Objective-C的优点,同时提供了现代编程语言的许多特性,如安全性、速度以及表达力。以下是从入门到实践的Swift语言教程。 一、Swift基础 1. Swift环境设置 Xcode安装:下载并安装最新版本的Xcode,这是开发Swift应用的集成开发环境(IDE)。 创建项目:在Xcode中创建一个新的Swift项目,了解项目结构。 2. 基本语法 变量与常量:使用var声明变量,使用let声明常量。 数据类型:整数(Int)、浮点数(DoubleFloat)、字符串(String)、布尔值(Bool)等。 类型安全:Swift是强类型语言,每个变量和常量在声明时都需要指定类型(尽管Swift也能自动推断类型)。 运算符:算术运算符、比较运算符、逻辑运算符等。 3. 控制流 条件语句:if、else if、else。 循环语句:for循环、while循环、repeat-while循环。 控制转移语句:break、continue
【宝城期货-2025研报】钢材、铁矿石日报:关税扰动不断,钢矿弱势运行.pdf