2012年的第一天,开始了我的第六篇周记的写作,其实本该在昨天就写的东西,由于昨晚喝酒确实过量,回来就睡觉了,就放在这新的一年来书写吧。
过去的一周,是2011年的最后一周了,有一门英语口语,一门英语笔试。口语有点坑爹啊,严重的准备了一个对话,其他的都只是稍微看了一下,就希望到时候抽签的时候能抽到唯一准备好的一个,可是,有时候,事事旺旺不如人所愿,没能如愿的抽到准备好的对话,更为坑爹的是,还抽了一个我们一直认为最难的对话,没办法,硬着头皮,花了5分钟,做了个练习然后匆匆上去讲了,哎呀,有时候嘛,是塞翁失马焉知非福啊,这些即兴的对话感觉比死记硬背的更有感觉,其实,有时候,不是我们不能说,只是我们说的机会太少而已,英语,确实不会是很大的问题,只要我们好好去做了。接下来又有一门英语笔试,虽然知道是重要的公必,但是还是在考前一天才开始看了一下,英语不是我最怕的,虽然我不擅长。。。
这周做了最多的是基于贝叶斯的文本分类算法,本来准备在这周完成的,现在还是没能顺利完成,到目前为止,花了有两天半的时间在弄这个程序,大体上有了一个比较清楚的思路了,其实在这一个学期以来,现在的这个程序才算是跟研究的方向有一些相关的,需要做的工作首先是对预料的预处理,首先要对训练预料进行词频统计,而在统计之前,需要先对一堆的文本文件进行分词,用到了两个分词程序,一个是实验室的FMM,最大正向匹配的分词方法,这个方法比较慢,分大概四千多的文本文件需要耗时16个小时左右,效率太低,但是分完词后的文档格式比较好。第二个程序是中科院的分词程序,这个程序效率确实相当的高,四千多的文档,仅仅5分钟以内搞掂,不过分完后,似乎空格没有进行去除,格式有点乱,也许是二者不可得兼吧。不过总体来看,中科院的工具还是更胜一筹了,毕竟技术实力摆在那里,不得不承认的。分词后,还要对文本进行去除停用词,对文本里的一些无意义的词进行去除,留下更能表达文本信息的词。下一步就是对处理后的文档的每一类进行词频统计,将每一类的所有文件进行统计,统计在这个类的所有文件中出现的词以及该词出现的次数。统计完后,算是完成了预处理了。最后就是根据贝叶斯公式对这些文本进行处理,根据接下来计算的概率来判定文本属于哪一个分类。这是下周需要完成的东西。
通过这个程序,我还是学到了一些东西,之前虽然知道有这个朴素贝叶斯方法可以对文本进行分类,但是确无从下手,现在可以比较清楚的知道如何应用算法去实现这些功能,也对文本处理有了一些认识,对以后进行中文处理有一定的好处。有点可惜就是,我还没有能力自己写一个分词的程序,只是用了现成的分词来处理文本的,尽量自己去弄懂如何去分词和对词性标注吧,努力!
分享到:
相关推荐
虽然提供的内容来自于《绯闻女孩》的第六季第六集剧本,但它涉及了一些可以关联到现实世界和社交互动的普遍主题。以下是一些从中提取的知识点: 1. **人际关系与信任**:剧中角色之间的关系充满了误解和背叛,这在...
这篇文档的内容虽然来自于电视剧《绯闻女孩》的第六季第一集剧本,但它涉及到的主题和知识点仍然可以关联到现实世界中的几个关键领域: 1. **社交媒体影响力**:故事中提到的"Gossip Girl"是一个社交媒体角色,它...
本主题“第6季字符串处理裴新凤(1)”聚焦于西北工业大学NOJ在线评测系统的第六季比赛中的字符串相关题目,这些题目旨在帮助学习者提升对字符串操作的理解和运用能力。"The Clock"这一描述可能暗示着一个特定的题目,...
在本课程中,我们探讨了高级持续渗透的第六季,主要关注如何构建和利用后门。后门在黑客攻击中扮演着关键角色,允许攻击者在未经授权的情况下远程控制或监视目标系统。本季课程以PHP安全为背景,特别是针对使用...
锐普PPT演世界第6季《IN词百科》是一个以时代潮流词汇为主题的PPT模板集合,旨在帮助用户更好地理解和运用这些流行语汇,提升个人或团队在展示、演讲中的表达力和时尚感。该模板集包含了一系列与“IN词”相关的页面...
在《绯闻女孩》第六季第四集中,丹·汉弗瑞(Dan Humphrey)继续他的系列小说《名利场》(Vanity Fair),揭露曼哈顿名流社会的秘密和丑闻。丹的系列小说让他获得了更多的读者和影响力,使他更加接近曼哈顿名流社会...
第六季涉及的后渗透测试模块: 1. `windows/gather/arp_scanner`:在Meterpreter会话中运行,使用ARP协议来检测网络中活动的Windows主机。 2. `windows/gather/enum_ad_computers`:枚举活动目录中的计算机,对于...
到了第六季,我们的焦点转向了"post"阶段的模块,这些模块通常在已经获得Meterpreter会话之后使用,以更深入地探测网络环境: 1. `windows/gather/arp_scanner` - 在Meterpreter会话中运行的ARP扫描器,可以在域环境...
在Gossip Girl第六季第九集完整中英文对照剧本中,我们可以发现以下几个知识点: 1. Manhattan Elite文化:剧本中多次提到曼哈顿名流们的绯闻和私生活,体现了上流社会的奢华和浮华。这种文化注重外在的财富、地位...
360技术嘉年华第六季--测试之美PPT合集 部分主题:360开测视音频技术探索与应用、华为智能化测试方法与实践、手卫商业化测试自动化实现、移动广告算法模型测试探索、机器学习在搜索质量分析中的应用、兼容性测试中...
生活大爆炸第六季观后感范文.doc
### 巨量算数:知识守护成长,教育驱动未来——解读抖in领学官第六季,洞察抖音教育新生态 #### 一、前言:互联网背景下的教育变革 随着互联网技术的飞速发展,传统的教育模式正在经历着深刻的变革。线上直播教育...
【标题】和【描述】提到的是“高考语文晨读系列第六季追求完美与留下遗憾专题六周六晚练篇”的学习资料,主要针对的是高考语文的复习和练习。【标签】表明这是关于“教育”和“考试”的内容。【部分内容】包含了几道...
【Android性能优化典范 - 第6季 - 胡凯】主要涵盖了Android应用性能优化的关键方面,特别是关于程序启动时间和安装包大小的优化。以下是详细的知识点解析: 1. **程序启动时间优化**: - **启动时间的重要性**:...
2. 剧情发展:描述的是第六季第七集中的一些情节,涉及到角色间的复杂关系和他们的决策。例如,有人试图重新开始,而另一些人则在进行权力斗争。 3. 时尚元素:剧中提及角色想要设计一个以高中女生为受众的时尚系列...
1. 《绯闻女孩》(Gossip Girl)是一部电视剧,此处提及的是第六季第三集。该剧主要讲述曼哈顿上流社会年轻人的生活,具有强烈的时尚元素和社会话题。 2. 中英文对照剧本:这表明文件内容是电视剧的剧本,同时提供了...
1. 《绯闻女孩》(Gossip Girl)是一部以曼哈顿上流社会为背景的电视剧,第六季第二集的中英文对照剧本提供了深入理解剧情和角色互动的素材,对于学习英语和了解美剧文化都有帮助。 2. 剧中的"Gossip Girl"是一个匿名...
1. **文件格式**:文件名是"Gossip Girl《绯闻女孩(2007)》第六季第八集完整中英文对照剧本.docx",这表明文件是一种`.docx`格式,是Microsoft Word的文档文件。这种格式允许创建和编辑包含文本、图片、表格和格式...
虽然提供的文件标题和描述是关于"Gossip Girl(绯闻女孩)"这部电视剧的第六季第五集的中英文对照剧本,但是我们仍然可以从这个情境中提炼出一些与IT行业相关的知识点: 1. **多媒体内容创作**:Gossip Girl是一部...