2012年的第一天,开始了我的第六篇周记的写作,其实本该在昨天就写的东西,由于昨晚喝酒确实过量,回来就睡觉了,就放在这新的一年来书写吧。
过去的一周,是2011年的最后一周了,有一门英语口语,一门英语笔试。口语有点坑爹啊,严重的准备了一个对话,其他的都只是稍微看了一下,就希望到时候抽签的时候能抽到唯一准备好的一个,可是,有时候,事事旺旺不如人所愿,没能如愿的抽到准备好的对话,更为坑爹的是,还抽了一个我们一直认为最难的对话,没办法,硬着头皮,花了5分钟,做了个练习然后匆匆上去讲了,哎呀,有时候嘛,是塞翁失马焉知非福啊,这些即兴的对话感觉比死记硬背的更有感觉,其实,有时候,不是我们不能说,只是我们说的机会太少而已,英语,确实不会是很大的问题,只要我们好好去做了。接下来又有一门英语笔试,虽然知道是重要的公必,但是还是在考前一天才开始看了一下,英语不是我最怕的,虽然我不擅长。。。
这周做了最多的是基于贝叶斯的文本分类算法,本来准备在这周完成的,现在还是没能顺利完成,到目前为止,花了有两天半的时间在弄这个程序,大体上有了一个比较清楚的思路了,其实在这一个学期以来,现在的这个程序才算是跟研究的方向有一些相关的,需要做的工作首先是对预料的预处理,首先要对训练预料进行词频统计,而在统计之前,需要先对一堆的文本文件进行分词,用到了两个分词程序,一个是实验室的FMM,最大正向匹配的分词方法,这个方法比较慢,分大概四千多的文本文件需要耗时16个小时左右,效率太低,但是分完词后的文档格式比较好。第二个程序是中科院的分词程序,这个程序效率确实相当的高,四千多的文档,仅仅5分钟以内搞掂,不过分完后,似乎空格没有进行去除,格式有点乱,也许是二者不可得兼吧。不过总体来看,中科院的工具还是更胜一筹了,毕竟技术实力摆在那里,不得不承认的。分词后,还要对文本进行去除停用词,对文本里的一些无意义的词进行去除,留下更能表达文本信息的词。下一步就是对处理后的文档的每一类进行词频统计,将每一类的所有文件进行统计,统计在这个类的所有文件中出现的词以及该词出现的次数。统计完后,算是完成了预处理了。最后就是根据贝叶斯公式对这些文本进行处理,根据接下来计算的概率来判定文本属于哪一个分类。这是下周需要完成的东西。
通过这个程序,我还是学到了一些东西,之前虽然知道有这个朴素贝叶斯方法可以对文本进行分类,但是确无从下手,现在可以比较清楚的知道如何应用算法去实现这些功能,也对文本处理有了一些认识,对以后进行中文处理有一定的好处。有点可惜就是,我还没有能力自己写一个分词的程序,只是用了现成的分词来处理文本的,尽量自己去弄懂如何去分词和对词性标注吧,努力!
分享到:
相关推荐
人才招聘网站 免费JAVA毕业设计 2024成品源码+论文+录屏+启动教程 启动教程:https://www.bilibili.com/video/BV1jKDjYrEz1 项目讲解视频:https://www.bilibili.com/video/BV1Tb421n72S 二次开发教程:https://www.bilibili.com/video/BV18i421i7Dx
EI复现:碳减排背景下综合能源服务商合作策略的纳什谈判理论与自适应交替方向乘子法求解,EI复现: 《考虑碳减排的综合能源服务商合作运行优化策略》 纯手工复现,主要通过纳什谈判理论进行博弈,并采用自适应交替方向乘子法进行分布式求解 ,核心关键词:EI复现; 碳减排; 综合能源服务商; 合作运行优化策略; 纳什谈判理论; 博弈; 自适应交替方向乘子法; 分布式求解,EI复现:纳什谈判理论下的碳减排能源服务商合作运行优化策略
一种高精度太阳能跟踪控制系统设计与实现.pdf
基于AHP-CRITIC组合变权与指标劣化度修正的赋权方法研究,38考虑劣化度APH-CRITIC组合变权 组合变权赋权方法,基于AHP和改进CRITIC计算主客观权重,引入指标劣化度构造变权函数对综合权重进行修正,还方法可以捕捉指标时序的劣化程度,实现数据的有效跟踪,评价更加合理。 可根据需求进行改进。 ,关键词:组合变权赋权方法;AHP;CRITIC;指标劣化度;变权函数;时序劣化程度;数据跟踪;评价合理。,基于AHP-CRITIC组合变权法:综合主客观权重与指标劣化度评价
"深入解析:车桥耦合程序,全注释代码与ANSYS及MATLAB联合应用,集车辆、桥梁模型与路面不平整度于一身的仿真系统",车桥耦合程序,每行代码都有注释 ansys 和matlab联合使用 车辆模型,桥梁模型和路面不平整度已写入程序 提供参考文章 桥梁模型可根据自己的模型修改。 ,车桥耦合程序;ANSYS;Matlab联合使用;车辆模型;桥梁模型;路面不平整度;模型修改,"ANSYS-Matlab车桥耦合程序,详解与优化"
基于MATLAB的SVM算法与颜色纹理分析的交通信号灯识别系统,MATLAB代码:SVM+颜色+纹理的交通信号灯识别。 ,SVM; 颜色识别; 纹理识别; 交通信号灯识别,MATLAB SVM算法:交通信号灯颜色与纹理识别
基于S7-200 PLC与组态王技术的切片机控制系统设计优化与实践应用,No.791 基于S7-200 PLC和组态王组态切片机控制系统设计 ,基于S7-200 PLC; 组态王组态; 切片机控制系统设计; 791号项目,基于PLC与组态王设计的切片机控制系统设计No.791
《pfc2D颗粒流软件及其在裂纹声发射监测中的应用研究》,pfc2D颗粒流软件,裂纹声发射监测 ,pfc2D; 颗粒流软件; 裂纹; 声发射监测; 监测技术,"PFC2D颗粒流软件在裂纹声发射监测中的应用"
"10kW双级式光伏并网逆变器Matlab仿真研究:前级Boost升压与后级DC-AC逆变控制策略的稳定性与波形分析",10kW双级式光伏并网逆变器matlab仿真 【1】前级boost升压+后级DC AC逆变; 【2】前级使用mppt最大功率追踪,输出最大功率电压; 【3】后级使用dq轴双闭环控制:外环直流电压环+内环电感电流环; 【4】10kHz开关频率,使用离散仿真,更模拟实际工况; 【5】在光伏波动的情况下依然可以稳定运行,具体波形如图所示。 【6】送一份5页的简单说明文档。 ,核心关键词: 1. 10kW双级式光伏并网逆变器 2. 前级boost升压+后级DC AC逆变 3. MPPT最大功率追踪 4. DQ轴双闭环控制 5. 10kHz开关频率 6. 离散仿真 7. 光伏波动 8. 稳定运行 9. 波形 10. 说明文档,Matlab仿真研究:10kW双级式光伏并网逆变器及其控制策略
基于西门子1200博图v15.1版本的单部四层自动化系统:全功能集成的真实运行仿真体验,单部四层,基于西门子1200博图v15.1版本 可直接仿真运行,视频就是真实运行画面,功能集全 ,核心关键词:单部四层; 西门子1200博图v15.1版本; 可仿真运行; 功能集全 分号分隔的结果为:单部四层; 西门子1200博图v15.1版本; 可直接仿真运行; 功能集全;,"西门子1200博图V15.1四层仿真系统,功能全面真实运行"
基于GPU的海战场环境研究.pdf
FPGA驱动双目视觉系统:立体匹配、视差图与深度图生成技术的研究与应用,FPGA双目视觉 立体视觉 视差图 深度图 双目立体匹配sgm sgbm tang 20k 高云fpga usb摄像头采集图像 ,FPGA双目视觉;立体视觉;视差图;深度图;双目立体匹配sgm;sgbm;高云FPGA;USB摄像头图像采集。,基于FPGA的双目视觉系统:立体匹配与深度图生成
MIM结构超表面全息技术:高效率、几何相位与FDTD仿真的综合案例研究,MIM结构 高效率超表面全息 几何相位 fdtd仿真 复现:2015年Nature nanotechnology : Metasurface holograms reaching 80% efficiency 介绍:MIM金Au-MgF2-金Au结构 纳米天线 激发磁偶极子模式,具有超高效率,纳米柱由几何相位设计,实现高效相位调制模式; 案例内容:主要包括金Au纳米天线单元结构仿真、几何相位计算,转效率计算,画图脚本,Gs算法设计全息相位,超表面全息仿真模型及脚本计算等 案例包括fdtd模型、fdtd设计脚本、GS算法的Matlab计算代码和结果,以及一份word教程,MIM结构仿真结果与文献完全一致,可以用于其他功能超表面的设计; ,MIM结构; 高效率超表面全息; 几何相位; fdtd仿真; metasurface holograms; 金Au纳米天线; 磁偶极子模式; 纳米柱; 超表面设计。,MIM结构超表面全息:高效率、几何相位与FDTD仿真案例研究
自习室座位预约系统 免费JAVA毕业设计 2024成品源码+论文+录屏+启动教程 启动教程:https://www.bilibili.com/video/BV1jKDjYrEz1 项目讲解视频:https://www.bilibili.com/video/BV1Tb421n72S 二次开发教程:https://www.bilibili.com/video/BV18i421i7Dx
基于太赫兹硅脊波导阵列的拓扑零模 式研究.pdf
Matlab在非线性微分方程数值模拟中的多维应用:涵盖平衡点曲线、势能曲线、相图与势阱图、时程曲线分析、庞加莱截面及分岔图与功率谱密度曲线的综合研究,Matlab求解非线性微分方程进行数值模拟,包括 1.平衡点曲线(可以三维图);2.势能曲线(可以三维图);3.相图和势阱图(三维);4.时程曲线分析;5.相图分析;6.庞加莱截面;7.分岔图;8.功率谱密度曲线等。 ,关键词:Matlab;非线性微分方程;数值模拟;平衡点曲线(三维图);势能曲线(三维图);相图和势阱图(三维);时程曲线分析;庞加莱截面;分岔图;功率谱密度曲线。,Matlab微分方程多维度模拟研究
基于Matlab GUI界面的动态手势识别系统:支持向量机SVM的机器学习应用与拓展,- 标题: 基于Matlab的动态手势识别 - 关键词:matlab GUI界面 动态手势识别 SVM 支持向量机 机器学习 手势数据集 - 步骤: - 动态检测:打开相机 载入数据库 获取当前帧 截取需要区域 识别手势 显示在GUI上 - 简述:支持检测图片,支持实时打开相机检测,机器学习算法识别率高,可识别1到10个手势,如需其他手势可自行训练拓展。 ,matlab GUI界面; 动态手势识别; SVM; 机器学习; 手势数据集; 动态检测; 实时相机检测; 识别率高,基于Matlab GUI的动态手势识别系统:SVM支持向量机算法高效识别
基于机器 学习的高层 建筑风荷载功率谱 预测算法研究.pdf
matlab实现ELM分类完整程序+数据
"变焦技术下的光学系统设计与应用:变焦物镜、变焦投影物镜及变焦扩束镜的集成研究",变焦光学系统、变焦物镜、变焦投影物镜、变焦扩束镜 ,核心关键词:变焦光学系统; 变焦物镜; 变焦投影物镜; 变焦扩束镜;,光学系统:变焦物镜与扩束镜应用