(四)训练Part 1 zz

carus

浏览: 30932 次
性别:
来自: 北京

最近访客更多访客>>

予亦亦

xylinmy

xinbindanzi

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

文本分类入门

训练，顾名思义，就是training（汗，这解释），简单的说就是让计算机从给定的一堆文档中自己学习分类的规则（如果学不对的话，还要，打屁屁？）。

　　开始训练之前，再多说几句关于VSM这种文档表示模型的话。

　　举个例子，假设说把我正在写的“文本分类入门”系列文章的第二篇抽出来当作一个需要分类的文本，则可以用如下的向量来表示这个文本，以便于计算机理解和处理。

　　w2=（文本，5，统计学习，4，模型，0，……）

　　这个向量表示在w2所代表的文本中，“文本”这个词出现了5次（这个信息就叫做词频），“统计学习”这个词出现了4次，而“模型”这个词出现了0次，依此类推，后面的词没有列出。

　　而系列的第三篇文章可以表示为

　　w3=（文本，9，统计学习，4，模型，10，……）

　　其含义同上。如果还有更多的文档需要表示，我们都可以使用这种方式。

　　只通过观察w2和w3我们就可以看出实际上有更方便的表示文本向量的方法，那就是把所有文档都要用到的词从向量中抽离出来，形成共用的数据结构（也可以仍是向量的形式），这个数据结构就叫做词典，或者特征项集合。

　　例如我们的问题就可以抽离出一个词典向量

　　D=（文本，统计学习，模型，……）

　　所有的文档向量均可在参考这个词典向量的基础上简化成诸如

　　w2=（5，4，0，……）

　　w3=（9，4，10，……）

　　的形式，其含义没有改变。

　　5，4，10这些数字分别叫做各个词在某个文档中的权重，实际上单单使用词频作为权重并不多见，也不十分有用，更常见的做法是使用地球人都知道的TF/IDF值作为权重。（关于TF/IDF的详细解释，Google的吴军研究员写了非常通俗易懂的文章，发布于Google黑板报，链接地址是http://googlechinablog.com/2006/06/blog-post_27.html，有兴趣不妨一读）TF/IDF作为一个词对所属文档主题的贡献程度来说，是非常重要的度量标准，也是将文档转化为向量表示过程中的重要一环。

　　在这个转化过程中隐含了一个很严重的问题。注意看看词典向量D，你觉得它会有多大？或者说，你觉得它会包含多少个词？

　　假设我们的系统仅仅处理汉语文本，如果不做任何处理，这个词典向量会包含汉语中所有的词汇，我手头有一本商务印书馆出版的《现代汉语词典》第5版（2005年5月出版），其中收录了65，000个词，D大致也应该有这么大，也就是说，D是一个65，000维的向量，而所有的文本向量w2,w3,wn也全都是65，000维的！（这是文本分类这一问题本身的一个特性，称为“高维性”）想一想，大部分文章仅仅千余字，包含的词至多几百，为了表示这样一个文本，却要使用65，000维的向量，这是对存储资源和计算能力多大的浪费呀！（这又是文本分类问题的另一个特性，称为“向量稀疏性”，后面会专门有一章讨论这些特性，并指出解决的方法，至少是努力的方向）

　　中国是一个人口众多而资源稀少的国家，我们不提倡一味发展粗放型的经济，我们所需要的可持续发展是指资源消耗少，生产效率高，环境污染少……跑题了……

　　这么多的词汇当中，诸如“体育”，“经济”，“金融”，“处理器”等等，都是极其能够代表文章主题的，但另外很多词，像“我们”，“在”，“事情”，“里面”等等，在任何主题的文章中都很常见，根本无法指望通过这些词来对文本类别的归属作个判断。这一事实首先引发了对文本进行被称为“去停止词”的预处理步骤（对英文来说还有词根还原，但这些与训练阶段无关，不赘述，会在以后讲述中英文文本分类方法区别的章节中讨论），与此同时，我们也从词典向量D中把这些词去掉。

　　但经过停止词处理后剩下的词汇仍然太多，使用了太多的特征来表示文本，就是常说的特征集过大，不仅耗费计算资源，也因为会引起“过拟合问题”而影响分类效果[22]。

　　这个问题是训练阶段要解决的第一个问题，即如何选取那些最具代表性的词汇（更严格的说法应该是，那些最具代表性的特征，为了便于理解，可以把特征暂时当成词汇来想象）。对这个问题的解决，有人叫它特征提取，也有人叫它降维。

　　特征提取实际上有两大类方法。一类称为特征选择（Term Selection），指的是从原有的特征（那许多有用无用混在一起的词汇）中提取出少量的，具有代表性的特征，但特征的类型没有变化（原来是一堆词，特征提取后仍是一堆词，数量大大减少了而已）。另一类称为特征抽取（Term Extraction）的方法则有所不同，它从原有的特征中重构出新的特征（原来是一堆词，重构后变成了别的，例如LSI将其转为矩阵，文档生成模型将其转化为某个概率分布的一些参数），新的特征具有更强的代表性，并耗费更少的计算资源。（特征提取的各种算法会有专门章节讨论）

　　训练阶段，计算机根据训练集中的文档，使用特征提取找出最具代表性的词典向量（仍然是不太严格的说法），然后参照这个词典向量把这些训练集文档转化为向量表示，之后的所有运算便都使用这些向量进行，不再理会原始的文本形式的文档了（换言之，失宠了，后后）。

　　下一章继续训练，咱们之间还没完。（怎么听着像要找人寻仇似的）

分享到：

(五)训练Part 2 | 机器学习中的相似性度量zz

2011-10-17 10:17
浏览 655
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

三年级英语上册 Unit 1 Hello教案1 陕旅版-陕旅版小学三年级上册英语教案.doc: 1. 学生应能听、说、读、写英语字母Aa到Zz，并能按字母顺序背诵默写。 2. 能根据实物或图片正确读出所学单词。 3. 熟练使用日常交际用语。 4. 在非语言提示下，能理解清晰的话语和录音。 5. 学唱英语歌曲，诵读英语...

B start to read 教案.doc: " Part(B)的阅读和复习部分，旨在帮助学生巩固字母Uu至Zz的听说读写能力，以及1-10数字的英语发音和应用。教案强调了教学目标、重点难点、教具选择、教学流程和各个环节的设计意图。 1. **教学目标**： - 学生需要...

pythonopencv源码人脸关键点定位: 2. **加载预训练模型**：对于基于深度学习的方法，需要预先下载训练好的模型权重文件。 3. **读取图像或视频流**：使用OpenCV提供的函数读取输入数据。 ```python import cv2 # 读取图像 img = cv2.imread...

【KUKA 机器人资料】：激光跟踪焊接机器人系统技术方案.pdf: KUKA机器人相关资料

基于Matlab的模拟退火算法在旅行商问题(TSP)优化中的应用及其实现: 内容概要：本文详细介绍了利用Matlab实现模拟退火算法来优化旅行商问题（TSP）。首先阐述了TSP的基本概念及其在路径规划、物流配送等领域的重要性和挑战。接着深入讲解了模拟退火算法的工作原理，包括高温状态下随机探索、逐步降温过程中选择较优解或以一定概率接受较差解的过程。随后展示了具体的Matlab代码实现步骤，涵盖城市坐标的定义、路径长度的计算方法、模拟退火主循环的设计等方面。并通过多个实例演示了不同参数配置下的优化效果，强调了参数调优的重要性。最后讨论了该算法的实际应用场景，如物流配送路线优化，并提供了实用技巧和注意事项。适合人群：对路径规划、物流配送优化感兴趣的科研人员、工程师及高校学生。使用场景及目标：适用于需要解决复杂路径规划问题的场合，特别是涉及多个节点间最优路径选择的情况。通过本算法可以有效地减少路径长度，提高配送效率，降低成本。其他说明：文中不仅给出了完整的Matlab代码，还包括了一些优化建议和技术细节，帮助读者更好地理解和应用这一算法。此外，还提到了一些常见的陷阱和解决方案，有助于初学者避开常见错误。

基于STM32的永磁同步电机Simulink代码生成与57次谐波抑制的霍尔FOC控制: 内容概要：本文详细介绍了如何利用Simulink进行自动代码生成，在STM32平台上实现带57次谐波抑制功能的霍尔场定向控制（FOC）。首先，文章讲解了所需的软件环境准备，包括MATLAB/Simulink及其硬件支持包的安装。接着，阐述了构建永磁同步电机（PMSM）霍尔FOC控制模型的具体步骤，涵盖电机模型、坐标变换模块（如Clark和Park变换）、PI调节器、SVPWM模块以及用于抑制特定谐波的陷波器的设计。随后，描述了硬件目标配置、代码生成过程中的注意事项，以及生成后的C代码结构。此外，还讨论了霍尔传感器的位置估算、谐波补偿器的实现细节、ADC配置技巧、PWM死区时间和换相逻辑的优化。最后，分享了一些实用的工程集成经验，并推荐了几篇有助于深入了解相关技术和优化控制效果的研究论文。适合人群：从事电机控制系统开发的技术人员，尤其是那些希望掌握基于Simulink的自动代码生成技术，以提高开发效率和控制精度的专业人士。使用场景及目标：适用于需要精确控制永磁同步电机的应用场合，特别是在面对高次谐波干扰导致的电流波形失真问题时。通过采用文中提供的解决方案，可以显著改善系统的稳定性和性能，降低噪声水平，提升用户体验。其他说明：文中不仅提供了详细的理论解释和技术指导，还包括了许多实践经验教训，如霍尔传感器处理、谐波抑制策略的选择、代码生成配置等方面的实际案例。这对于初学者来说是非常宝贵的参考资料。

基于S7-200 PLC和组态王的机械手搬运控制系统设计与调试: 内容概要：本文详细介绍了基于西门子S7-200 PLC和组态王的机械手搬运控制系统的实现方案。首先，文章展示了梯形图程序的关键逻辑，如急停连锁保护、水平移动互锁以及定时器的应用。接着，详细解释了IO分配的具体配置，包括数字输入、数字输出和模拟量接口的功能划分。此外，还讨论了接线图的设计注意事项，强调了电磁阀供电和继电器隔离的重要性。组态王的画面设计部分涵盖了三层画面结构（总览页、参数页、调试页）及其动画脚本的编写。最后，分享了调试过程中遇到的问题及解决方案，如传感器抖动、输出互锁设计等。适合人群：从事自动化控制领域的工程师和技术人员，尤其是对PLC编程和组态软件有一定基础的读者。使用场景及目标：适用于自动化生产线中机械手搬运控制系统的开发与调试。目标是帮助读者掌握从硬件接线到软件逻辑的完整实现过程，提高系统的稳定性和可靠性。其他说明：文中提供了大量实践经验，包括常见的错误和解决方案，有助于读者在实际工作中少走弯路。

西门子1200PLC污水处理项目：PLC程序、通讯配置与HMI设计详解: 内容概要：本文详细介绍了基于西门子1200PLC的污水处理项目，涵盖了PLC程序结构、通信配置、HMI设计以及CAD原理图等多个方面。PLC程序采用梯形图和SCL语言相结合的方式，实现了复杂的控制逻辑，如水位控制、曝气量模糊控制等。通讯配置采用了Modbus TCP和Profinet双协议，确保了设备间高效稳定的通信。HMI设计则注重用户体验，提供了详细的报警记录和趋势图展示。此外，CAD图纸详尽标注了设备位号，便于后期维护。操作说明书中包含了应急操作流程和定期维护建议，确保系统的长期稳定运行。适合人群：从事工业自动化领域的工程师和技术人员，尤其是对PLC编程、HMI设计和通信配置感兴趣的从业者。使用场景及目标：适用于污水处理厂及其他类似工业控制系统的设计、实施和维护。目标是帮助工程师掌握完整的项目开发流程，提高系统的可靠性和效率。其他说明：文中提供的具体代码片段和设计思路对于理解和解决实际问题非常有价值，建议读者结合实际项目进行深入学习和实践。

5电平三相MMC的VSG控制与MATLAB-Simulink仿真：调频调压效果验证: 内容概要：本文详细介绍了基于5电平三相模块化多电平变流器(MMC)的虚拟同步发电机(VSG)控制系统的构建与仿真。首先，文章描述了MMC的基本结构和参数设置，包括子模块电容电压均衡策略和载波移相策略。接着，深入探讨了VSG控制算法的设计，特别是有功-频率和无功-电压下垂控制的具体实现方法。文中还展示了通过MATLAB-Simulink进行仿真的具体步骤，包括设置理想的直流电源和可编程三相源来模拟电网扰动。仿真结果显示，VSG控制系统能够在面对频率和电压扰动时迅速恢复稳定，表现出良好的调频调压性能。适合人群：从事电力电子、电力系统自动化及相关领域的研究人员和技术人员。使用场景及目标：适用于研究和开发新型电力电子设备，特别是在新能源接入电网时提高系统的稳定性。目标是通过仿真验证VSG控制的有效性，为实际应用提供理论支持和技术指导。其他说明：文章提供了详细的代码片段和仿真配置，帮助读者更好地理解和重现实验结果。此外，还提到了一些常见的调试技巧和注意事项，如选择合适的仿真步长和参数配对调整。

工业自动化中基于PLC1200的SCL与梯形图混编立体库及码垛系统的通信与控制: 内容概要：本文详细介绍了在一个复杂的工业自动化项目中，如何利用西门子S7-1200 PLC为核心，结合基恩士视觉相机、ABB机器人以及G120变频器等多种设备，构建了一个高效的立体库码垛系统。文中不仅探讨了不同设备之间的通信协议（如Modbus TCP和Profinet），还展示了SCL和梯形图混合编程的具体应用场景和技术细节。例如，通过SCL进行视觉坐标解析、机器人通信心跳维护等功能的实现，而梯形图则用于处理简单的状态切换和安全回路。此外，作者分享了许多实际调试过程中遇到的问题及其解决方案，强调了良好的注释习惯对于提高代码可维护性的关键作用。适用人群：从事工业自动化领域的工程师和技术人员，尤其是对PLC编程、机器人控制及多种通信协议感兴趣的从业者。使用场景及目标：适用于需要整合多种工业设备并确保它们能够稳定协作的工作环境。主要目标是在保证系统高精度的同时降低故障率，从而提升生产效率。其他说明：文中提到的一些具体技术和方法可以作为类似项目的参考指南，帮助开发者更好地理解和应对复杂的工业控制系统挑战。

【KUKA 机器人资料】：KUKA机器人_Interbus_输入输出端口配置说明书.pdf: KUKA机器人相关资料

java脱敏工具类，敏感数据脱敏: java脱敏工具类

基于自抗扰控制的表贴式永磁同步电机双环控制系统设计与实现: 内容概要：本文详细介绍了基于自抗扰控制（ADRC）的表贴式永磁同步电机（SPMSM）双环控制系统的建模与实现方法。该系统采用速度环一阶ADRC控制和电流环PI控制相结合的方式，旨在提高电机在复杂工况下的稳定性和响应速度。文章首先解释了选择ADRC的原因及其优势，接着展示了ADRC和PI控制器的具体实现代码，并讨论了在Matlab/Simulink环境中搭建模型的方法和注意事项。通过对不同工况下的仿真测试，验证了该控制策略的有效性，特别是在负载突变情况下的优越表现。适合人群：从事电机控制、自动化控制及相关领域的研究人员和技术人员，尤其是对自抗扰控制感兴趣的工程师。使用场景及目标：适用于需要高精度、高响应速度的工业伺服系统和其他高性能电机应用场景。目标是提升电机在复杂环境下的稳定性和抗扰能力，减少转速波动和恢复时间。其他说明：文中提供了详细的代码示例和调试技巧，帮助读者更好地理解和实施该控制策略。同时，强调了在实际应用中需要注意的问题，如参数调整、输出限幅等。

java设计模式之责任链的demo: java设计模式之责任链的使用demo

电力电子领域中两相交错并联Buck/Boost变换器的三种控制方式及其仿真分析: 内容概要：本文详细介绍了两相交错并联Buck/Boost变换器的硬件结构和三种控制方式（开环、电压单环、双环）的实现方法及仿真结果。文中首先描述了该变换器的硬件结构特点，即四个MOS管组成的H桥结构，两相电感交错180度工作，从而有效减少电流纹波。接着，针对每种控制方式，具体讲解了其配置步骤、关键参数设置以及仿真过程中需要注意的问题。例如，在开环模式下，通过固定PWM占空比来观察原始波形；电压单环则引入PI控制器进行电压反馈调节；双环控制进一步增加了电流内环，实现了更为精确的电流控制。此外，文章还探讨了单向结构的特点，并提供了仿真技巧和避坑指南。适合人群：从事电力电子研究的技术人员、高校相关专业师生。使用场景及目标：适用于希望深入了解两相交错并联Buck/Boost变换器的工作原理和技术细节的研究者，旨在帮助他们掌握不同控制方式的设计思路和仿真方法。其他说明：文中不仅提供了详细的理论解释，还有丰富的实例代码片段，便于读者理解和实践。同时，作者分享了许多宝贵的实践经验，有助于避免常见的仿真错误。

第十六届蓝桥杯大赛软件赛省赛第二场 C/C++ 大学 A 组: 第二场c++A组

数控磨床编程.ppt: 数控磨床编程.ppt

COMSOL数值模拟：N2和CO2混合气体在THM热流固三场耦合下增强瓦斯抽采的技术研究与应用: 内容概要：本文详细介绍了利用COMSOL软件进行N2和CO2混合气体在热-流-固三场耦合作用下增强煤层气抽采的数值模拟。首先，通过设定煤岩材料参数，如热导率、杨氏模量等，构建了煤岩物理模型。接着，引入达西定律和Maxwell-Stefan扩散方程，建立了混合气体运移方程，考虑了气体膨胀系数和吸附特性。在应力场求解方面，采用自适应步长和阻尼系数调整，确保模型稳定。同时，探讨了温度场与气体运移的耦合机制，特别是在低温条件下CO2注入对煤体裂隙扩展的影响。最后，通过粒子追踪和流线图展示了气体运移路径和抽采效率的变化。适合人群：从事煤层气开采、数值模拟以及相关领域的科研人员和技术工程师。使用场景及目标：适用于需要优化煤层气抽采工艺的研究机构和企业，旨在通过数值模拟提高抽采效率并减少环境影响。其他说明：文中提供了详细的MATLAB和COMSOL代码片段，帮助读者理解和复现模型。此外，强调了模型参数选择和求解器配置的重要性，分享了作者的实际经验和常见问题解决方法。

计算给定G、相位裕度、交叉频率和安全裕度要求的引线补偿器: 基于Bode的引线补偿器设计计算给定G、相位裕度、交叉频率和安全裕度要求的引线补偿器。计算给定电厂G、PM和Wc要求的铅补偿器，并运行ControlSystemDesigner进行验证。

【KUKA 机器人TCP测量】：mp2_tool_fixed_en.ppt: KUKA机器人相关文档

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论