今天拜读了数学之美的第一章,例举的例子感觉真是浅显易懂,这里不禁要对吴军老师的写作功底拜服,下面谈谈对信息模型的理解,数字、文字和语言作为信息的载体,他们的目的都是记录和传播信息,就像我们的老祖先一样乌拉乌拉几句,对方就明白了,你丫的骂我,拿起石头就扔过去了,其实他们的这种交流可以概括为
信息1--编码(也就是怪叫)---信息2(听到的声音)-----解码----信息1(得到原始信息),其实这就是一个简单的信息模型 信息1刚开始也就是我们的信息源 -- 信息2也就是声音可以看做信道,看到没我们的老祖先也懂得合理利用信息模型。
当我们祖先的叫声种类和形式越来越多时,事情也越来越多时大家都记不住了怎么办,于是文字、数字变产生了,用来记录,大家抓的兔子越来越多,大家的money越来越多,怎么办,刚开始还可以数手指头,手指头数着数着不够了怎么办,聪明的现代人肯定会说脚趾头啊,说这句的人太聪明了,其实玛雅人就是这样的。于是大于10的怎么办,必须有一种形式啊,于是进制变产生了,笨笨的我们的祖先还有欧洲的祖先,不会用脚指头,于是便逢十进一 10进制变产生了,聪明的玛雅人知道脚趾头不够用了才想到进制,于是他们便是20进制,想想玛雅的孩子多苦,背诵一个乘法表19*19那就是一个围棋盘啊,而我们只需要九九乘法口诀就搞定一切了。看样子有时太聪明也是不好滴。但是在采取十进制的时候由于我们的祖先比较财富比较多,于是我们的十进制是采用乘法表示 例如 99999=9*10000+9*1000 +9*100+9*10 +9 那我们七个数字就可以表示一百万啊,当时作为先进的欧洲代表罗马人由于财富很少,但是在他们眼里那也是很有钱了,他们采用的是加减法表示也就是一个数字的值是10个数字的中选取几个数字的和或者差, 可想而知,他们要表示1百万那手得抽经了,但是由于他们过着茹毛饮血的生活 物质及其匮乏,他们就是这样坚持了几千年,认为加减法完全够了,知道后来工业革命后,有很多钱了有很多钞票了,这才发现写不过来,才发明了M在M上划线表示几万和几十万。 这里中国的个十百千兆 和罗马人的ⅠⅡⅢⅣⅤ都引入了朴素编码的概念,在中国编码规则是乘法,在罗马是加法,明显中国的比罗马的做法要高明很多,编码更有效。当我们的词汇越来越多时,多的我们记不住的时候产生新的词汇有点不合适了,于是古人便使用一个字或者一个词风别代表多个意思如
日 名词太阳、表示太阳东升西降也就是一天,还有就是骂人的意思了。于是概念的一次概括和归类就开始了,这种概念的聚类,在原理上与我们今天的自然语言处理或者机器学习的聚类有很大的相似性。
古代人的在木有发明纸张以前,都是靠竹简,你想想老以前始皇帝皮奏折都是找人用筐来计量的,都是几筐几筐的,你想想大臣们刻几个字多么不容易,所以我觉得这也是中国文言文为什么流行的原因,精简、信息量大,类似于我们今天的电报,你父病危速归,也就是信息熵非常大,也就是可以通过简单几个字就明白全部意思。关于信息熵后面再扯。古人这么不容易,天天刻竹简,于是有人想偷懒,慢慢的把常用的字的笔画越来少,越来越好写,刚开始大家还不屑,你这孩子怎么能随便修改文字,那可是仓颉大圣创下的啊,慢慢的大家都绝得笔画少不错,也就是慢慢接受了,其实是手痛给累的。因此我们现在的汉字是常用的笔画很少很精简,容易写,那些生僻字 笔画多难写,这其实很符合最短编码原理(熟悉计算机的同学可能知道霍夫曼树),书写使用文言文,而我们日常确使用白话交流,这中现象和通信工程的原理又类似,信道宽,信息不必压缩,信道窄,则信息必须压缩,古人交流时信道宽,传输不费力,不用压缩直接白话文交流,而书写,想象 几箩筐竹简吧,还是压缩压缩少些几个字吧,这就需要古人把白话文压缩成当时能看懂的文言文,书写,阅读者在解压缩,看看我们的古人多么聪明,虽然他们不懂信息论。但是汉朝以后的大儒们对论语的解读确实各有各的看法,因此从这点看信息熵的大小也根据时代有关呢
欢迎喜欢深入了解推荐系统和mahout的兄弟加入群 推荐系统之Mahout 135918911
相关推荐
Python自然语言处理-BERT模型实战课程旨在帮助同学们快速掌握当下NLP领域最核心的算法模型BERT的原理构造与应用实例。通俗讲解BERT模型中所涉及的核心知识点(Transformer,self-attention等),基于google开源BERT...
BERT(Bidirectional Encoder Representations from Transformers)是一种预训练语言表示模型,旨在为自然语言处理任务提供高质量的特征表示。bert-base-chinese 是 BERT 模型的一种变体,它在中文语料库上进行预...
《自然语言处理-基于预训练模型的方法》是一本深入探讨NLP领域中预训练模型的著作,由车万翔、郭江、崔一鸣合著。该书详细介绍了预训练模型在自然语言处理中的重要性和广泛应用,涵盖了从基础知识到前沿技术的多个...
Transformer模型是深度学习自然语言处理领域的一个里程碑式创新,由Vaswani等人在2017年的论文《Attention is All You Need》中提出。它彻底摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),转而完全依赖...
综上所述,基于预训练模型的方法在自然语言处理中具有广泛的应用前景,它改变了我们处理语言任务的方式,使得计算机更加接近人类地理解和生成自然语言。随着技术的不断发展,预训练模型将在更多领域展现出其强大的...
Transformer模型是深度学习领域中自然语言处理(NLP)的一次重大突破,由Google的研究团队在2017年提出并发表在《Attention is All You Need》论文中。该模型摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN)...
在自然语言处理中,Seq2Seq(Sequence to Sequence)模型是一个关键概念,它由Sutskever等人在2014年提出,用于解决序列转换问题。Seq2Seq模型主要由两个部分组成:编码器(Encoder)和解码器(Decoder)。编码器...
### 自然语言处理-大模型-LLMs-面试题解析 #### 一、自然语言处理基础知识 1. **什么是自然语言处理(NLP)?** - 自然语言处理是一门计算机科学领域与人工智能领域的分支学科,它研究如何处理及运用自然语言;自然...
Python自然语言处理-BERT模型实战课程旨在帮助同学们快速掌握当下NLP领域最核心的算法模型BERT的原理构造与应用实例。通俗讲解BERT模型中所涉及的核心知识点(Transformer,self-attention等),基于google开源BERT...
《统计自然语言处理》是刘挺教授在哈尔滨工业大学讲授的一门课程,主要涉及的是自然语言处理(NLP)领域的核心理论与技术。NLP是计算机科学的一个分支,旨在理解和生成人类自然语言,使计算机能更好地与人类进行交互...
循环神经网络(Recurrent Neural Network, RNN)是一种非常适合处理序列数据的深度学习模型,因此在自然语言处理中广泛用于构建语言模型。RNN的特点在于它有记忆单元,可以捕捉到上下文信息。在处理文本时,RNN会...
### 自然语言处理中的中文停用词理解与应用 #### 前言 在自然语言处理(NLP)领域,停用词表是一项基础而重要的资源。停用词是指在信息检索、文本挖掘等场景中通常会被过滤掉的词汇,因为它们在文本中的出现频率很...
四、自然语言处理-05Seq2Seq模型与案例-语料文件
四、自然语言处理-05Seq2Seq模型与案例-代码文件
四、自然语言处理-05Seq2Seq模型与案例-语料文件与代码文件
在IT领域,自然语言处理(Natural Language Processing, NLP)是一项关键的技术,它涉及计算机对人类语言的理解、分析和生成。Python作为一种语法简洁、库丰富的编程语言,是NLP研究和应用的首选工具。本资料"Python...
目标检测模型、智能优化算法、神经网络预测、信号处理、元胞自动机、图像处理、智能控制、路径规划、无人机等多种领域的算法仿真实验,更多源码,请上博主主页搜索。 ---------------------------------------------...
自然语言处理(Natural Language Processing, NLP)是计算机科学...总之,注意力模型是自然语言处理中的一个重要里程碑,它极大地推动了NLP技术的发展,使得模型能够更有效地处理复杂的语言结构和丰富的上下文信息。
本书共 14 章,涵盖基础技术、核心技术和模型分析,全面系统地介绍了自然语言处理的基础概念、任务和方法。 知识点摘要: 1. 自然语言处理的定义和历史发展:自然语言处理研究的目标是让计算机能够像人类一样,...