自然语言处理--信息模型 -

davidxiaozhi

浏览: 243965 次
性别:
来自: 北京

最近访客更多访客>>

djyy3273

denon8

pudi

bolixiyang

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

自然语言处理--信息模型

博客分类：

数学之美系列笔记

数学之美信息论通信原理 mahout

今天拜读了数学之美的第一章，例举的例子感觉真是浅显易懂，这里不禁要对吴军老师的写作功底拜服，下面谈谈对信息模型的理解，数字、文字和语言作为信息的载体，他们的目的都是记录和传播信息，就像我们的老祖先一样乌拉乌拉几句，对方就明白了，你丫的骂我，拿起石头就扔过去了，其实他们的这种交流可以概括为

信息1--编码（也就是怪叫）---信息2（听到的声音）-----解码----信息1（得到原始信息），其实这就是一个简单的信息模型信息1刚开始也就是我们的信息源 -- 信息2也就是声音可以看做信道，看到没我们的老祖先也懂得合理利用信息模型。

当我们祖先的叫声种类和形式越来越多时，事情也越来越多时大家都记不住了怎么办，于是文字、数字变产生了，用来记录，大家抓的兔子越来越多，大家的money越来越多，怎么办，刚开始还可以数手指头，手指头数着数着不够了怎么办，聪明的现代人肯定会说脚趾头啊，说这句的人太聪明了，其实玛雅人就是这样的。于是大于10的怎么办，必须有一种形式啊，于是进制变产生了，笨笨的我们的祖先还有欧洲的祖先，不会用脚指头，于是便逢十进一 10进制变产生了，聪明的玛雅人知道脚趾头不够用了才想到进制，于是他们便是20进制，想想玛雅的孩子多苦，背诵一个乘法表19*19那就是一个围棋盘啊，而我们只需要九九乘法口诀就搞定一切了。看样子有时太聪明也是不好滴。但是在采取十进制的时候由于我们的祖先比较财富比较多，于是我们的十进制是采用乘法表示例如 99999=9*10000+9*1000 +9*100+9*10 +9 那我们七个数字就可以表示一百万啊，当时作为先进的欧洲代表罗马人由于财富很少，但是在他们眼里那也是很有钱了，他们采用的是加减法表示也就是一个数字的值是10个数字的中选取几个数字的和或者差，可想而知，他们要表示1百万那手得抽经了，但是由于他们过着茹毛饮血的生活物质及其匮乏，他们就是这样坚持了几千年，认为加减法完全够了，知道后来工业革命后，有很多钱了有很多钞票了，这才发现写不过来，才发明了M在M上划线表示几万和几十万。这里中国的个十百千兆和罗马人的ⅠⅡⅢⅣⅤ都引入了朴素编码的概念，在中国编码规则是乘法，在罗马是加法，明显中国的比罗马的做法要高明很多，编码更有效。当我们的词汇越来越多时，多的我们记不住的时候产生新的词汇有点不合适了，于是古人便使用一个字或者一个词风别代表多个意思如

日名词太阳、表示太阳东升西降也就是一天，还有就是骂人的意思了。于是概念的一次概括和归类就开始了，这种概念的聚类，在原理上与我们今天的自然语言处理或者机器学习的聚类有很大的相似性。

古代人的在木有发明纸张以前，都是靠竹简，你想想老以前始皇帝皮奏折都是找人用筐来计量的，都是几筐几筐的，你想想大臣们刻几个字多么不容易，所以我觉得这也是中国文言文为什么流行的原因，精简、信息量大，类似于我们今天的电报，你父病危速归，也就是信息熵非常大，也就是可以通过简单几个字就明白全部意思。关于信息熵后面再扯。古人这么不容易，天天刻竹简，于是有人想偷懒，慢慢的把常用的字的笔画越来少，越来越好写，刚开始大家还不屑，你这孩子怎么能随便修改文字，那可是仓颉大圣创下的啊，慢慢的大家都绝得笔画少不错，也就是慢慢接受了，其实是手痛给累的。因此我们现在的汉字是常用的笔画很少很精简，容易写，那些生僻字笔画多难写，这其实很符合最短编码原理(熟悉计算机的同学可能知道霍夫曼树),书写使用文言文，而我们日常确使用白话交流，这中现象和通信工程的原理又类似，信道宽，信息不必压缩，信道窄，则信息必须压缩，古人交流时信道宽，传输不费力，不用压缩直接白话文交流，而书写，想象几箩筐竹简吧，还是压缩压缩少些几个字吧，这就需要古人把白话文压缩成当时能看懂的文言文，书写，阅读者在解压缩，看看我们的古人多么聪明，虽然他们不懂信息论。但是汉朝以后的大儒们对论语的解读确实各有各的看法，因此从这点看信息熵的大小也根据时代有关呢

欢迎喜欢深入了解推荐系统和mahout的兄弟加入群推荐系统之Mahout 135918911

1
顶

0
踩

分享到：

linux-模拟dos2unix命令 | 自然语言处理--从规则到统计

2013-02-01 09:45
浏览 1187
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

AI从头到脚详解如何创建部署Azure Web App的OpenAI项目源码: 【AI】从头到脚详解如何创建部署Azure Web App的OpenAI项目源码

人脸识别_卷积神经网络_CNN_ORL数据库_身份验证_1741779511.zip: 人脸识别项目实战

人工智能-人脸识别代码: 人工智能-人脸识别代码，采用cnn的架构识别代码

汽车配件制造业企业信息化整体解决方案.pptx: 汽车配件制造业企业信息化整体解决方案

短期风速预测模型，IDBO-BiTCN-BiGRU-Multihead-Attention IDBO是，网上复现评价指标：R方、MAE、MAPE、RMSE 附带测试数据集运行（风速数据）提示：在: 短期风速预测模型，IDBO-BiTCN-BiGRU-Multihead-Attention IDBO是，网上复现评价指标：R方、MAE、MAPE、RMSE 附带测试数据集运行（风速数据）提示：在MATLAB2024a上测试正常 ,短期风速预测模型; IDBO-BiTCN-BiGRU-Multihead-Attention; 评价指标: R方、MAE、MAPE、RMSE; 复现; 测试数据集; MATLAB 2024a,短期风速预测模型：IDBO-BiTCN-BiGRU-Attention集成模型

手势识别_数据融合_运动融合帧_Pytorch实现_1741857761.zip: 手势识别项目实战

智慧园区IBMS可视化管理系统建设方案PPT(61页).pptx: 在智慧园区建设的浪潮中，一个集高效、安全、便捷于一体的综合解决方案正逐步成为现代园区管理的标配。这一方案旨在解决传统园区面临的智能化水平低、信息孤岛、管理手段落后等痛点，通过信息化平台与智能硬件的深度融合，为园区带来前所未有的变革。首先，智慧园区综合解决方案以提升园区整体智能化水平为核心，打破了信息孤岛现象。通过构建统一的智能运营中心（IOC），采用1+N模式，即一个智能运营中心集成多个应用系统，实现了园区内各系统的互联互通与数据共享。IOC运营中心如同园区的“智慧大脑”，利用大数据可视化技术，将园区安防、机电设备运行、车辆通行、人员流动、能源能耗等关键信息实时呈现在拼接巨屏上，管理者可直观掌握园区运行状态，实现科学决策。这种“万物互联”的能力不仅消除了系统间的壁垒，还大幅提升了管理效率，让园区管理更加精细化、智能化。更令人兴奋的是，该方案融入了诸多前沿科技，让智慧园区充满了未来感。例如，利用AI视频分析技术，智慧园区实现了对人脸、车辆、行为的智能识别与追踪，不仅极大提升了安防水平，还能为园区提供精准的人流分析、车辆管理等增值服务。同时，无人机巡查、巡逻机器人等智能设备的加入，让园区安全无死角，管理更轻松。特别是巡逻机器人，不仅能进行360度地面全天候巡检，还能自主绕障、充电，甚至具备火灾预警、空气质量检测等环境感知能力，成为了园区管理的得力助手。此外，通过构建高精度数字孪生系统，将园区现实场景与数字世界完美融合，管理者可借助VR/AR技术进行远程巡检、设备维护等操作，仿佛置身于一个虚拟与现实交织的智慧世界。最值得关注的是，智慧园区综合解决方案还带来了显著的经济与社会效益。通过优化园区管理流程，实现降本增效。例如，智能库存管理、及时响应采购需求等举措，大幅减少了库存积压与浪费；而设备自动化与远程监控则降低了维修与人力成本。同时，借助大数据分析技术，园区可精准把握产业趋势，优化招商策略，提高入驻企业满意度与营收水平。此外，智慧园区的低碳节能设计，通过能源分析与精细化管理，实现了能耗的显著降低，为园区可持续发展奠定了坚实基础。总之，这一综合解决方案不仅让园区管理变得更加智慧、高效，更为入驻企业与员工带来了更加舒适、便捷的工作与生活环境，是未来园区建设的必然趋势。

相亲交友系统源码 V10.5支持婚恋相亲M红娘系统.zip: 相亲交友系统源码 V10.5支持婚恋相亲、媒婆返利、红娘系统、商城系统等等这款交友系统功能太多了，适合婚恋相亲，还有媒婆婚庆等等支持 PC和 H5还有小程序，可封装红年、APP，里面带安装教程

单片机也能玩双核之你想不到c技巧系列-嵌入式实战（资料+视频教程）: 本资源《单片机也能玩双核之你想不到的C技巧系列——嵌入式实战》涵盖双核单片机开发、C语言高级技巧、嵌入式系统优化等核心内容，结合实战案例与视频教程，帮助开发者深入理解并掌握高效编程技巧。适用人群：适合嵌入式开发工程师、单片机开发者、电子信息相关专业学生，以及希望提升 C语言编程能力和嵌入式项目经验的技术人员。能学到什么：双核单片机开发思路，提高并行处理能力。 C语言高级技巧，提升代码优化与执行效率。嵌入式系统调试方法，掌握实际项目中的调试策略。实战案例解析，学习如何在实际工程中应用双核技术。阅读建议：建议先学习基础知识，再结合示例代码与视频教程进行实操，重点关注代码优化、调试技巧与双核应用模式，通过实战演练提高嵌入式开发能力。

计算机视觉_OpenCV_人脸识别_成本节约检测方案_1741779495.zip: 人脸识别项目源码实战

`机器学习_深度学习_Keras_教程用途`.zip: 人脸识别项目源码实战

地铁网络_Dijkstra_最短路径_查询工具_1741862725.zip: c语言学习

红外光伏缺陷目标检测模型，YOLOv8模型基于红外光伏缺陷目标检测数据集训练，做了必要的数据增强处理，以达到缺陷类别间的平衡可检测大面积热斑，单一热斑，二极管短路和异常低温四类缺陷测试集指标如: 红外光伏缺陷目标检测模型，YOLOv8模型基于红外光伏缺陷目标检测数据集训练，做了必要的数据增强处理，以达到缺陷类别间的平衡可检测大面积热斑，单一热斑，二极管短路和异常低温四类缺陷测试集指标如图所示 ,核心关键词：红外光伏缺陷目标检测模型; YOLOv8模型; 数据增强处理; 缺陷类别平衡; 大面积热斑; 单一热斑; 二极管短路; 异常低温。,基于YOLOv8的红外光伏缺陷检测模型

基于PLC的自动浇花控制系统西门子1200PLC博途仿真，提供HMI画面，接线图，IO分配表，演示视频，简单讲解视频博图15.1及以上版本均可使用 ,核心关键词： PLC自动浇花控制系统; 西: 基于PLC的自动浇花控制系统西门子1200PLC博途仿真，提供HMI画面，接线图，IO分配表，演示视频，简单讲解视频博图15.1及以上版本均可使用 ,核心关键词： PLC自动浇花控制系统; 西门子1200PLC博途仿真; HMI画面; 接线图; IO分配表; 演示视频; 简单讲解视频; 博图15.1及以上版本。,基于PLC的自动浇花系统：西门子1200PLC博途仿真实践教程

智慧园区标准化综合解决方案PPT(60页).pptx: 在智慧园区建设的浪潮中，一个集高效、安全、便捷于一体的综合解决方案正逐步成为现代园区管理的标配。这一方案旨在解决传统园区面临的智能化水平低、信息孤岛、管理手段落后等痛点，通过信息化平台与智能硬件的深度融合，为园区带来前所未有的变革。首先，智慧园区综合解决方案以提升园区整体智能化水平为核心，打破了信息孤岛现象。通过构建统一的智能运营中心（IOC），采用1+N模式，即一个智能运营中心集成多个应用系统，实现了园区内各系统的互联互通与数据共享。IOC运营中心如同园区的“智慧大脑”，利用大数据可视化技术，将园区安防、机电设备运行、车辆通行、人员流动、能源能耗等关键信息实时呈现在拼接巨屏上，管理者可直观掌握园区运行状态，实现科学决策。这种“万物互联”的能力不仅消除了系统间的壁垒，还大幅提升了管理效率，让园区管理更加精细化、智能化。更令人兴奋的是，该方案融入了诸多前沿科技，让智慧园区充满了未来感。例如，利用AI视频分析技术，智慧园区实现了对人脸、车辆、行为的智能识别与追踪，不仅极大提升了安防水平，还能为园区提供精准的人流分析、车辆管理等增值服务。同时，无人机巡查、巡逻机器人等智能设备的加入，让园区安全无死角，管理更轻松。特别是巡逻机器人，不仅能进行360度地面全天候巡检，还能自主绕障、充电，甚至具备火灾预警、空气质量检测等环境感知能力，成为了园区管理的得力助手。此外，通过构建高精度数字孪生系统，将园区现实场景与数字世界完美融合，管理者可借助VR/AR技术进行远程巡检、设备维护等操作，仿佛置身于一个虚拟与现实交织的智慧世界。最值得关注的是，智慧园区综合解决方案还带来了显著的经济与社会效益。通过优化园区管理流程，实现降本增效。例如，智能库存管理、及时响应采购需求等举措，大幅减少了库存积压与浪费；而设备自动化与远程监控则降低了维修与人力成本。同时，借助大数据分析技术，园区可精准把握产业趋势，优化招商策略，提高入驻企业满意度与营收水平。此外，智慧园区的低碳节能设计，通过能源分析与精细化管理，实现了能耗的显著降低，为园区可持续发展奠定了坚实基础。总之，这一综合解决方案不仅让园区管理变得更加智慧、高效，更为入驻企业与员工带来了更加舒适、便捷的工作与生活环境，是未来园区建设的必然趋势。

大型集团用户画像系统化标准化数字化用户主数据管理项目规划方案.pptx: 大型集团用户画像系统化标准化数字化用户主数据管理项目规划方案

基于STM32的水质浊度检测仪设计与实现（详细设计说明书+ 10008-基于STM32的水质浊度检测仪设计与实现（详细设计说明书+原理图PCB工程+源码工程+实物照片）本次设计是设计一款水质检: 基于STM32的水质浊度检测仪设计与实现（详细设计说明书+ 10008-基于STM32的水质浊度检测仪设计与实现（详细设计说明书+原理图PCB工程+源码工程+实物照片）本次设计是设计一款水质检测设备，实现温度检查、水质检测的功能，将检测到的数据显示到显示器中，并实时记录系统的参数本次系统需要对温度检测，使用的传感器为DS18B20，通过单总线的方式来完成系统温度检测使用水质检测模块检查水的质量通过传感器检测到的数据计算后的值实时刷新到显示器中，主要的功能包括以下几点： ①可以对温度实时检测； ②可以对水质实际值实时检测； ③水质浑浊预警主要特点： 1．以STM32单片机为核心，配合水质模块； 2．主要完成系统的功能控制、状态显示、信息检测以及报警硬件组建所单片机和传感器等元器件的选择； 3．完成系统控制的软件设计编程； 4．实现对水质检测、温度检查、预警的功能内容包含： 1、原理图工程 2、PCB工程 3、源码工程 4、实物照片 5、详细介绍说明书-22531字 6、实物照片 7、浊度传感器资料

人脸识别_seetaface6_SDK_多功能应用开发工具包_1741771332.zip: 人脸识别项目实战

华中科技大学计算机科学研究生复试上机测试题.zip: 华中科技大学计算机科学研究生复试上机测试题.zip

YOLOv8部署到web上（Django+html）: YOLOv8部署到web上（Django+html）

最近访客 更多访客>>