`
海上机械师
  • 浏览: 1674 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论

提供了基于概率模型,基于vMF分布的文本聚类方法

阅读更多
目前最常用的文本挖掘包是 tm 包,该包已经成了事实上的分析标准, 几乎所有的其他 R 包都是基于这个框架的。但是 tm 包具有一些缺陷, 在R中进行分析的时候不是很方便。


        最明显的问题是中文支持得不够好, 其函数的设计并没有考虑到国际化的需求和 UTF-8 的支持,很多函数操作中文时不方便。 此外,tm 包的开发大量使用了 S3 的面向对象方法,其最大的价值是为后续的开发者提供了接口, 但是这些对象对于使用者来说并没有什么便利,增加了学习的复杂度, 而且由于 S3 封装性上天然的缺陷,初学者容易出错而且提示不清楚。另外, tm 包及相关体系完全基于文档词条矩阵的数据结构,在大量数据的工程化实现方面非常便利, 但是所有的这些包包括 tm 在内并没有简单的能够高性能运算的机制, 该设计的优势在R中完全没有被体现。
        基于目前 R 中可用的文本挖掘资源的不足,tmcn 试图去解决这些问题, 先从中文支持开始,然后逐渐更新去解决各种问题,但是也会考虑到 tm 的框架, 在框架之外进行一些有益的补充。
(摘录自tmcn官方主页:http://jianl.org/cn/R/tmcn.html)


        后续的李舰老师还基于tmcn模块开发了,CRF模块以及word2vec模块。
        CRF模块可见李舰老师R语言大会分享内容;
        word2vec模块,可见笔者博客:重磅︱文本挖掘深度学习之word2vec的R语言实现
NLP︱R语言实现word2vec(词向量)经验总结(消除歧义、词向量的可加性)


————————————————————————————————————————


一、字符编码UTF-8 GBK unicode


GB2312(CP936)+改进=GBK--→unicode--→UTF-8


1、GBK
        1993年,Unicode 1.1版本推出,收录中国大陆、台湾、日本及韩国通用字符集的汉字,总共有20,902个。
        中国大陆订定了等同于Unicode 1.1版本的“GB 13000.1-93”“信息技术通用多八位编码字符集(UCS)第一部分:体系结构与基本多文种平面”。
        由于GB 2312-80只收录6763个汉字,有不少汉字,如部分在GB 2312-80推出以后才简化的汉字(如“啰”),部分人名用字(如中国前总理朱镕基的“镕”字),台湾及香港使用的繁体字,日语及朝鲜语汉字等,并未有收录在内。于是厂商微软利用GB 2312-80未使用的编码空间,收录GB 13000.1-93全部字符制定了GBK编码。
        根据微软资料,GBK是对GB2312-80的扩展,也就是CP936字码表(Code Page 936)的扩展(之前CP936和GB 2312-80一模一样),最早实现于Windows 95简体中文版。虽然GBK收录GB 13000.1-93的全部字符,但编码方式并不相同;因为GBK向下兼容GB2312,而GB 13000.1-93等同于Unicode 1.1,二者的编码方式完全不兼容。
        汉字内码扩展规范,称GBK,全名为《汉字内码扩展规范(GBK)》
(来自维基百科)




        列举几个GBK的编码:
[html] view plain copy print?在CODE上查看代码片派生到我的代码片
81 0   1   2   3   4   5   6   7   8   9   A   B   C   D   E   F 
4 丂  丄  丅  丆  丏  丒  丗  丟  丠  両  丣  並  丩  丮  丯  丱   
5 丳  丵  丷  丼  乀  乁  乂  乄  乆  乊  乑  乕  乗  乚  乛  乢   
6 乣  乤  乥  乧  乨  乪  乫  乬  乭  乮  乯  乲  乴  乵  乶  乷   
7 乸  乹  乺  乻  乼  乽  乿  亀  亁  亂  亃  亄  亅  亇  亊   
8 亐  亖  亗  亙  亜  亝  亞  亣  亪  亯  亰  亱  亴  亶  亷  亸   
9 亹  亼  亽  亾  仈  仌  仏  仐  仒  仚  仛  仜  仠  仢  仦  仧   
A 仩  仭  仮  仯  仱  仴  仸  仹  仺  仼  仾  伀  伂  伃  伄  伅   
B 伆  伇  伈  伋  伌  伒  伓  伔  伕  伖  伜  伝  伡  伣  伨  伩   
C 伬  伭  伮  伱  伳  伵  伷  伹  伻  伾  伿  佀  佁  佂  佄  佅   
D 佇  佈  佉  佊  佋  佌  佒  佔  佖  佡  佢  佦  佨  佪  佫  佭   
E 佮  佱  佲  併  佷  佸  佹  佺  佽  侀  侁  侂  侅  來  侇  侊   
F 侌  侎  侐  侒  侓  侕  侖  侘  侙  侚  侜  侞  侟  価  侢   




2、UTF-8


        互联网的普及,强烈要求出现一种统一的编码方式。UTF-8就是在互联网上使用最广的一种Unicode的实现方式。其他实现方式还包括UTF-16(字符用两个字节或四个字节表示)和UTF-32(字符用四个字节表示),不过在互联网上基本不用。重复一遍,这里的关系是,UTF-8是Unicode的实现方式之一。


        GBK转化为UTF-8一定要经过unicode的过程。


————————————————————————————————————————


二、tmcn包的内容


        tmcn内容大致包括,格式转化、字符操作


1、GBK字符集


[html] view plain copy print?在CODE上查看代码片派生到我的代码片
#GBK字符集 
data(GBK) 
head(GBK) 
[html] view plain copy print?在CODE上查看代码片派生到我的代码片
  GBK py0        py Radical Stroke_Num_Radical                   Stroke_Order Structure   Freq 
1  吖   a      ā yā      口                  3                   丨フ一丶ノ丨      左右     26 
2  阿   a     ā ɑ ē      阝                  2                 フ丨一丨フ一丨      左右 526031 
3  啊   a ɑ á à ǎ ā      口                  3           丨フ一フ丨一丨フ一丨    左中右  53936 
4  锕   a         ā      钅                  5       ノ一一一フフ丨一丨フ一丨    左中右      3 
5  錒   a         ā      釒                  8 ノ丶一一丨丶ノ一フ丨一丨フ一丨      左右      0 
6  嗄   a     á shà      口                  3     丨フ一一ノ丨フ一一一ノフ丶      左右     11 


2、格式转化


        检验编码类型用的是:Encoding()函数,还有isUTF8(txt1)  isGBK(txt2)   isGBK(txt3)


[html] view plain copy print?在CODE上查看代码片派生到我的代码片
isUTF8(txt1) 
isGBK(txt2) 
isGBK(txt3) 
        常规的字符格式转化用iconv


[html] view plain copy print?在CODE上查看代码片派生到我的代码片
txt1 <- c("\u4E2D\u56FDR\u8BED\u8A00\u4F1A\u8BAE")  #UTF-8编码 
txt2 <- iconv(txt1, "UTF-8", "GBK")                 #icov把txt1字符串从utf8转化为GBK 
        也可以通过Encoding来表示:
[html] view plain copy print?在CODE上查看代码片派生到我的代码片
txt3 <- txt1 
Encoding(txt3) <- "GBK"                             #改变编码,encoding是检验编码类型的 


        tmcn中比较好的格式转化的函数:
[html] view plain copy print?在CODE上查看代码片派生到我的代码片
toUTF8(txt1)        #其他格式(GBK UTF-8)输出中文 
catUTF8(txt1)       #中文以及其他格式输出UTF8 
revUTF8("<U+4E2D><U+56FD>R<U+4F1A><U+8BAE>")  #把UTF8变成中文 


toUTF8()比较棒!可以多加留意!


3、繁简体以及拼音生成


[html] view plain copy print?在CODE上查看代码片派生到我的代码片
#繁体与拼音改写 
toTrad(txt1)                        #繁体字 
toTrad("中國R語言會議", rev = TRUE) #rev=TRUE代表由繁到简,默认为FALSE为由简到繁 
toPinyin(txt1, capitalize = TRUE)   #由中文变成拼音,capitalize默认为FALSE,代表首字符小写 


4、字符操作


        字符操作有根据正则表达式匹配,以及修缮语料的前后空格。但是不能去掉中间的空格。
[html] view plain copy print?在CODE上查看代码片派生到我的代码片
#字符操作 
txt2 <- c("  Ben Franklin and Jefferson Davis", "\tMillard Fillmore") 
#根据正则表达式匹配 
strextract(txt2, "(?<first>[[:upper:]][[:lower:]]+)", perl = TRUE)   #根据正则表达式匹配内容 
#修缮语料两边(去掉文章前后的空格,换行符) 
strstrip(c("\taaaa ", " bbbb    ","  有这么坑爹的吗?","真、    的这么坑爹吗?"))          


————————————————————————————————————————


三、李舰老师在R语言大会展示内容的摘录


        李健老师在2013年的R语言大会就已经把R语言的NLP相关的包都罗列并翻译了一遍,真是厉害。原官方网站链接可见:https://cran.r-project.org/web/views/NaturalLanguageProcessing.html


分析框架部分


1、openNLP


Apá3Tùƒ:̨?1gmu"•©|±ÿ¥È–
        可以单句识别、句分解、句结构分析,构建语法树等;相对比较底层的一般文本挖掘任务,该包基础上进行二次开发比较好。
而且该包对中文的支持不是特别好。
        笔者做过测试,可见博客: R+openNLP︱openNLP的六大可实现功能及其在R语言中的应用


2、qdap


        一个综合了定量分析以及定性分析的大杂烩,包含了一些自然语言的函数。


3、koRpus
        综合文本分析的包,词频分析较多;可读性分析以及语种识别比较有特色。


词分析


4、RKEA
        提供了KEA的接口可以用来进行关键词提取。


5、wordcloud
        画词云,现在已经升级了,可见我的博客:R语言︱文本挖掘——词云wordcloud2包


6、zipfR
        提供了一些关于词频分布的统计模型,尤其是词频分布中最常用的个zipf定律。


7、wordnet包
        提供了英文文本数据库的接口


8、koNLP
        一个韩文的自然语言处理的包


9、snowball snowballC Rstem
        词干提取的包
http://v.youku.com/v_show/id_XMTgyNDI1MDY2MA==.html?f=28673651
http://v.youku.com/v_show/id_XMTgyNDI1MDY2MA==.html
http://v.youku.com/v_show/id_XMTgyNDI1MDY2MA==.html?f=28673522&spm=a2hzp.%208253876%20.0.0.lcv4mE&from=y1.7-3
http://v.youku.com/v_show/id_XMTgyNDI1MDY2MA==.html?f=28673522&from=y1.2-3.4.2&spm=a2h0j.8191423.item_XMTgyNDI1MDY2MA==.A
http://v.youku.com/v_show/id_XMTgyMjQ4NzE1Mg==.html?f=28673522&from=y1.7-3&spm=a2hzp.%208253876%20.0.0.lcv4mE
http://v.youku.com/v_show/id_XMTgyNDI1MDY2MA==.html
http://v.youku.com/v_show/id_XMTgyNDI1MDY2MA==.html?f=28673522&spm=a2hzp.%208253876%20.0.0.lcv4mE&from=y1.7-3
http://v.youku.com/v_show/id_XMTgyNDI1MDY2MA==.html?f=28673522&from=y1.2-3.4.2&spm=a2h0j.8191423.item_XMTgyNDI1MDY2MA==.A
http://v.youku.com/v_show/id_XMTgyMjQ4NzE1Mg==.html?&f=28673522&from=y1.2-3.4.1&spm=a2h0j.8191423.item_XMTgyMjQ4NzE1Mg==.A
http://list.youku.com/albumlist/show/id_28673522.html?spm=a2h0j.8191423.Drama.5~5~H3~A
http://list.youku.com/albumlist/show?id=28673522&ascending=1&page=1
http://v.youku.com/v_show/id_XMTgyMjQ4NzE1Mg==.html?f=28673522&spm=a2h0j.8251843.0.0
http://v.youku.com/v_show/id_XMTgyMjQ4NzE1Mg==.html?f=28673522&o=1&spm=a2h0j.8251843.playList.5~1!2~3~A
http://v.youku.com/v_show/id_XMTgyMjQ5MTQyMA==.html?f=28670289&o=1&spm=a2h0j.8251843.playList.5!7~5~A
http://v.youku.com/v_show/id_XMTgyMjQ5MDMyMA==.html?f=28670289&o=1&spm=a2h0j.8251843.playList.5!6~5~A
http://v.youku.com/v_show/id_XMTgyMjQ5MDMyMA==.html?f=28670289&o=1&spm=a2h0j.8251843.playList.5!6~5~A
http://v.youku.com/v_show/id_XMTgyMjQ5MDMyMA==.html?f=28670289&o=1&spm=a2h0j.8251843.playList.5!6~5~A
http://v.youku.com/v_show/id_XMTgyMjQ5MDMyMA==.html?f=28670289&o=1&spm=a2h0j.8251843.playList.5!6~5~A
http://v.youku.com/v_show/id_XMTgyMjQ5MDMyMA==.html?f=28670289&o=1&spm=a2h0j.8251843.playList.5!6~5~A
http://v.youku.com/v_show/id_XMTgyMjQyOTI0MA==.html?&f=28670289&from=y1.2-3.4.4&spm=a2h0j.8191423.item_XMTgyMjQyOTI0MA==.A
http://v.youku.com/v_show/id_XMTgyMjQ4NzE1Mg==.html?&f=28670289&from=y1.2-3.4.3&spm=a2h0j.8191423.item_XMTgyMjQ4NzE1Mg==.A
http://v.youku.com/v_show/id_XMTgyMjQ3ODc4OA==.html?f=28670289&from=y1.2-3.4.5&spm=a2h0j.8191423.item_XMTgyMjQ3ODc4OA==.A
http://v.youku.com/v_show/id_XMTgyMjQ5MDMyMA==.html?&f=28670289&from=y1.2-3.4.6&spm=a2h0j.8191423.item_XMTgyMjQ5MDMyMA==.A
http://v.youku.com/v_show/id_XMTgyMjQ5MTQyMA==.html?f=28670289&from=y1.2-3.4.7&spm=a2h0j.8191423.item_XMTgyMjQ5MTQyMA==.A
http://v.youku.com/v_show/id_XMTgyMjQyODM0MA==.html?&f=28670289&from=y1.2-3.4.2&spm=a2h0j.8191423.item_XMTgyMjQyODM0MA==.A
>>>http://v.youku.com/v_show/id_XMTgyMjQyODM0MA==.html优酷视频相关报道
>>>http://v.youku.com/v_show/id_XMTgyMjQyOTI0MA==.html每日文娱播报报道
>>>http://v.youku.com/v_show/id_XMTgyMjQ3ODc4OA==.html腾讯娱乐相关报道
>>>http://v.youku.com/v_show/id_XMTgyMjQ4NzE1Mg==.html凤凰娱乐相关报道
>>>http://v.youku.com/v_show/id_XMTgyMjQ5MDMyMA==.html网易娱乐相关报道
>>>http://v.youku.com/v_show/id_XMTgyMjQ5MTQyMA==.html新华网娱乐相关报道
http://v.youku.com/v_show/id_XMTgyMjQ5MTQyMA==?spm=a2hnw.20010079.yk-slide-225634.5~5!2~5~5~5!2~5!2~A&from=y1.3-news-newgrid-123-10079.225634.2-3
http://v.youku.com/v_show/id_XMTgyMjQyODM0MA==?spm=a2hnw.20010079.yk-slide-225634.5~5!2~5~5~5!2~5!2~A&from=y1.3-news-newgrid-123-10079.225634.2-3
http://v.youku.com/v_show/id_XMTgyMjQyOTI0MA==?spm=a2hnw.20010079.yk-slide-225634.5~5!2~5~5~5!2~5!2~A&from=y1.3-news-newgrid-123-10079.225634.2-3
http://v.youku.com/v_show/id_XMTgyMjQ3ODc4OA==?spm=a2hnw.20010079.yk-slide-225634.5~5!2~5~5~5!2~5!2~A&from=y1.3-news-newgrid-123-10079.225634.2-3
http://v.youku.com/v_show/id_XMTgyMjQ4NzE1Mg==?spm=a2hnw.20010079.yk-slide-225634.5~5!2~5~5~5!2~5!2~A&from=y1.3-news-newgrid-123-10079.225634.2-3
http://v.youku.com/v_show/id_XMTgyMjQ5MTQyMA==?spm=a2hnw.20010079.yk-slide-225634.5~5!2~5~5~5!2~5!2~A&from=y1.3-news-newgrid-123-10079.225634.2-3
http://v.youku.com/v_show/id_XMTgyMjQ5MTQyMA==.html?from=y1.2-1-87.4.1-1.1-1-2-0-0%26source%3Dautoclick
http://index.youku.com/vr_keyword/id_http://v.youku.com/v_show/id_XMTgyMjQyODM0MA==.html?spm=a2h0j.8191423.sMain.5~5~A
http://index.youku.com/vr_keyword/id_http://v.youku.com/v_show/id_XMTgyMjQyOTI0MA==.html?spm=a2h0j.8191423.sMain.5~5~A
http://index.youku.com/vr_keyword/id_http://v.youku.com/v_show/id_XMTgyMjQyODM0MA==.html?spm=a2h0j.8191423.sMain.5~5~A
http://index.youku.com/vr_keyword/id_http://v.youku.com/v_show/id_XMTgyMjQyOTI0MA==.html?spm=a2h0j.8191423.sMain.5~5~A
http://index.youku.com/vr_keyword/id_http://v.youku.com/v_show/id_XMTgyMjQ3ODc4OA==.html?spm=a2h0j.8191423.sMain.5~5~A
http://index.youku.com/vr_keyword/id_http://v.youku.com/v_show/id_XMTgyMjQ4NzE1Mg==.html?spm=a2h0j.8191423.sMain.5~5~A
http://index.youku.com/vr_keyword/id_http://v.youku.com/v_show/id_XMTgyMjQ5MDMyMA==.html?spm=a2h0j.8191423.sMain.5~5~A
http://index.youku.com/vr_keyword/id_http://v.youku.com/v_show/id_XMTgyMjQ5MTQyMA==.html?spm=a2h0j.8191423.sMain.5~5~A
http://v.youku.com/v_show/id_XMTgyMjQyODM0MA==.html?spm=a2h0j.8191423.sMain.5~5~A
http://v.youku.com/v_show/id_XMTgyMjQyOTI0MA==.html?spm=a2h0j.8191423.sMain.5~5~A
http://v.youku.com/v_show/id_XMTgyMjQyODM0MA==.html?spm=a2h0j.8191423.sMain.5~5~A
http://v.youku.com/v_show/id_XMTgyMjQyOTI0MA==.html?spm=a2h0j.8191423.sMain.5~5~A
http://v.youku.com/v_show/id_XMTgyMjQ3ODc4OA==.html?spm=a2h0j.8191423.sMain.5~5~A
http://v.youku.com/v_show/id_XMTgyMjQ4NzE1Mg==.html?spm=a2h0j.8191423.sMain.5~5~A
http://v.youku.com/v_show/id_XMTgyMjQ5MDMyMA==.html?spm=a2h0j.8191423.sMain.5~5~A
http://v.youku.com/v_show/id_XMTgyMjQ5MTQyMA==.html?spm=a2h0j.8191423.sMain.5~5~A
http://v.youku.com/v_show/id_XMTgyMjQyODM0MA==.htmlhttp://dianshiju.xkyn.com/shipin/youku-XMTgyMjQyODM0MA==.html
http://v.youku.com/v_show/id_XMTgyMjQyOTI0MA==.htmlhttp://dianshiju.xkyn.com/shipin/youku-XMTgyMjQyOTI0MA==.html
http://v.youku.com/v_show/id_XMTgyMjQ3ODc4OA==.htmlhttp://dianshiju.xkyn.com/shipin/youku-XMTgyMjQ3ODc4OA==.html
http://v.youku.com/v_show/id_XMTgyMjQ4NzE1Mg==.htmlhttp://dianshiju.xkyn.com/shipin/youku-XMTgyMjQ4NzE1Mg==.html
http://v.youku.com/v_show/id_XMTgyMjQ5MDMyMA==.htmlhttp://dianshiju.xkyn.com/shipin/youku-XMTgyMjQ5MDMyMA==.html
http://v.youku.com/v_show/id_XMTgyMjQ5MTQyMA==.htmlhttp://dianshiju.xkyn.com/shipin/youku-XMTgyMjQ5MTQyMA==.html
http://v.youku.com/v_show/id_XMTgyMjQ5MDMyMA==.htmlhttp://zuihao.xkyn.com/ms-XMTgyMjQyODM0MA==.html
http://v.youku.com/v_show/id_XMTgyMjQ4NzE1Mg==.htmlhttp://zuihao.xkyn.com/ms-XMTgyMjQyOTI0MA==.html
http://v.youku.com/v_show/id_XMTgyMjQ3ODc4OA==.htmlhttp://zuihao.xkyn.com/ms-XMTgyMjQ3ODc4OA==.html
http://v.youku.com/v_show/id_XMTgyMjQyOTI0MA==.htmlhttp://zuihao.xkyn.com/ms-XMTgyMjQ4NzE1Mg==.html
http://v.youku.com/v_show/id_XMTgyMjQyODM0MA==.htmlhttp://zuihao.xkyn.com/ms-XMTgyMjQ5MDMyMA==.html
http://v.youku.com/v_show/id_XMTgyMjQ5MTQyMA==.htmlhttp://zuihao.xkyn.com/ms-XMTgyMjQ5MTQyMA==.html
http://v.youku.com/v_show/id_XMTgyMjQyODM0MA==.html?from=y1.7-2http://dianshiju.xkyn.com/shipin/youku-XMTgyMjQyODM0MA==.html
http://v.youku.com/v_show/id_XMTgyMjQyOTI0MA==.html?from=y1.6-85.3.1.4d7066f48dc711e59e2ahttp://dianshiju.xkyn.com/shipin/youku-XMTgyMjQyOTI0MA==.html
http://v.youku.com/v_show/id_XMTgyMjQ3ODc4OA==.html?from=y1.6-85.3.1.4d7066f48dc711e59e2ahttp://dianshiju.xkyn.com/shipin/youku-XMTgyMjQ3ODc4OA==.html
http://v.youku.com/v_show/id_XMTgyMjQ4NzE1Mg==.html?spm=a2h0j.8191423.sMain.5~5~Ahttp://dianshiju.xkyn.com/shipin/youku-XMTgyMjQ4NzE1Mg==.html
http://v.youku.com/v_show/id_XMTgyMjQ5MDMyMA==.html?spm=a2h0j.8191423.sMain.5~5~Ahttp://dianshiju.xkyn.com/shipin/youku-XMTgyMjQ5MDMyMA==.html
http://v.youku.com/v_show/id_XMTgyMjQ5MTQyMA==.html?from=y1.7-2http://dianshiju.xkyn.com/shipin/youku-XMTgyMjQ5MTQyMA==.html
http://v.youku.com/v_show/id_XMTgyMjQ5MDMyMA==.html?from=y1.7-2http://zuihao.xkyn.com/ms-XMTgyMjQyODM0MA==.html
http://v.youku.com/v_show/id_XMTgyMjQ4NzE1Mg==.html?from=y1.6-85.3.1.4d7066f48dc711e59e2ahttp://zuihao.xkyn.com/ms-XMTgyMjQyOTI0MA==.html
http://v.youku.com/v_show/id_XMTgyMjQ3ODc4OA==.html?from=y1.6-85.3.1.4d7066f48dc711e59e2ahttp://zuihao.xkyn.com/ms-XMTgyMjQ3ODc4OA==.html
http://v.youku.com/v_show/id_XMTgyMjQyOTI0MA==.html?spm=a2h0j.8191423.sMain.5~5~Ahttp://zuihao.xkyn.com/ms-XMTgyMjQ4NzE1Mg==.html
http://v.youku.com/v_show/id_XMTgyMjQyODM0MA==.html?from=s1.8-3-3.2http://zuihao.xkyn.com/ms-XMTgyMjQ5MDMyMA==.html
http://v.youku.com/v_show/id_XMTgyMjQ5MTQyMA==.html?from=s1.8-3-3.2http://zuihao.xkyn.com/ms-XMTgyMjQ5MTQyMA==.html
语义分析


10、topicmodels lda
        topicmodels提供了c接口使用LDA和相关的主题模型。lda也是主题建模。


11、RTextTools
        自动文本分类


12、skmeans
        几种模糊KMeans算法。


13、textcat
        可以进行基于n-gram短语的文本聚类


14、movMF
        提供了基于概率模型,基于vMF分布的文本聚类方法


15、lsa
        潜语义分析,对文档词条矩阵进行奇异值分解来降维,然后计算相似度。进行文本相似性分析。


16、kernlab
        提供了一些核机器学习的方式进行文本分类、聚类、新颖性检测降维等。


17、textir
        提供了一些函数进行文本和语义挖掘。
分享到:
评论

相关推荐

    层次分析matlab代码-MBHC-FMM:基于模型的Bregman散度和Fishers混合模型(MBHC-FMM)的层次聚类

    该存储库提供了MATLAB的实现:具有Bregman散度和Fisher混合模型(MBHC-FMM)的基于模型的层次聚类。 它使用MBHC-FMM方法对3D定向数据执行聚类。 它已应用于聚类图像法线(3D单位矢量)以分析深度图像。 有三个演示...

    VMF的发展前景展望.zip

    VMF技术基于概率模型、机器学习和控制理论等多学科知识,通过收集车辆的速度、加速度、转向角等动态数据,结合道路条件、交通规则及驾驶员行为模式,预测未来一段时间内的车辆运动状态。在自动驾驶系统中,VMF是实现...

    spherecluster:单位球面的聚类例程

    从vMF分布得出的每个点$x_i$和平均方向$\|\mu\|_2 = 1$生活在单位超球面$\S^{N-1}$ (即$\|x_i\|_2 = 1$ )的表面上$\|\mu\|_2 = 1$ 。 较大的$\kappa$会导致点集中度更高。 如果我们的数据作为一种模式米塞斯...

    matlab开发-DistributionFit

    `DistributionFit` 项目提供了一种便捷的方式来比较和选择适合特定数据集的概率分布,这对于理解和建模复杂数据至关重要。在进行此类分析时,记得始终考虑数据的背景和分布的理论意义,以确保所选模型的解释性和实用...

    多媒体实验之VMF视频捕捉程序

    多媒体实验,我自己写的VMF视频捕捉程序,实现全部功能。注意:点“捕捉”按钮后光标会变成运行光标,不用紧张,你直接点停止就可以停止捕捉了,捕捉后的视频保存在根目录Capture.avi中,拍摄的图片保存在save文件夹...

    VMF-Text-Tests:VMF文本测试套件

    VMF文字测试 现在,测试已成为存储库的一部分。 执行测试 要求 Java&gt; = 1.8 Internet连接(依赖项会自动下载) IDE: 插件(对于命令行用法不是必需的) 集成开发环境 在您喜欢的IDE中打开VMF-Text-Tests 项目(已...

    多元逻辑斯蒂回归matlab代码-snob:用于自动聚类的灵活混合物模型

    用于自动聚类的灵活混合物模型 SNOB是有限混合模型的Matlab实现。 Snob使用最小消息长度标准来估计混合模型的结构(即子种群的数量;哪个样本属于哪个子种群)并估计所有混合模型参数。 SNOB允许用户指定所需的子...

    fbx2vmf:将 .fbx 文件转换为 .vmf 文件

    总的来说,fbx2vmf工具提供了一个方便的方法来将3D模型从.FBX格式转换为.VMF格式,这对于那些使用Source引擎开发游戏或地图的团队来说非常实用。通过理解这个工具的工作原理和C++实现,我们可以进一步提升对3D模型...

    VMF2OBJ:使用材质(包括画笔,位移,实体和模型)将源引擎的VMF文件转换为OBJ文件-Source material

    使用材质(包括画笔,位移,实体和模型)将任何游戏的源引擎VMF文件转换为OBJ文件 观看演示视频: 怎么跑 在根目录中,运行: mvn package;java -jar ./target/VMF2OBJ-1.1.2-jar-with-dependencies.jar [VMF_FILE...

    动态映射函数最新进展及其在 GNSS遥感水汽中的应用研究 (2009年)

    给出了基于欧洲中尺度数值预报中心(ECMWF)构建的高精度动态映射函数VMF1和GMF的研究进展及方法,对NMF、VMF1和GMF三种映射函数进行了时空分析,结合实例分析了三种映射函数在GNSS遥感水汽中的应用。实验结果证实,...

    k-means聚类算法及matlab代码-dpMMlowVar:贝叶斯非参数小方差渐近聚类算法

    这是贝叶斯非参数小方差渐近聚类算法库:DP均值,动态均值,DP-vMF均值,DDP-vMF均值。 出于比较原因,该库还实现了k均值和球形k均值。 该库带有一个可执行文件,该可执行文件允许使用DP-vMF-means,DP-means,球形k...

    基于HOLTEK单片机的智能车

    本文将深入探讨基于HOLTEK单片机的智能车设计与实现,帮助读者理解如何利用这种微控制器来打造一个功能强大的智能车辆。 首先,我们要了解HOLTEK单片机。HOLTEK是一家专注于微控制器(MCU)设计与制造的公司,其...

    minecraft_to_vmf:最终目标是使用户能够将Minecraft地图转换为VMF(源)地图

    在转换过程中,这些区块ID需要映射到VMF文件中对应的材质和模型。这个映射过程复杂且细致,因为VMF支持的细节程度远超Minecraft,包括光照、纹理、实体和触发器等。 JavaScript文件在这个过程中扮演了重要角色。...

    vmf_tool:用于解释和编辑.vmf文件的库

    vmf_tool 用于解释和编辑.vmf文件的库 创建该库是为了编辑Valve的.vmf(阀门映射格式) 作为一部分创建 核心解析器非常懒惰,任何看起来像.vmf的东西都将被解析。 解析后,源文件的任何问题都可以追溯到粗略的行号...

    LOG PDF.rar_Log pdf_Log核密度_Log核密度估计_imageujb_log-pdf

    6. **logVmf.m**:对数向量平均场(Vector Mean Field, VMF)分布的函数,VMF分布是表示方向数据(如单位向量)的常用工具,在机器学习和计算机视觉中有所应用。 7. **logKde.m**:这是核心密度估计的函数,可能是...

    vmf-parser:用于解析和编写可变消息格式的库

    虚拟机解析器用于在JavaScript中解析和编写可变消息格式(VMF)的库。介绍该库能够使用纯JavaScript读写变量消息格式。 如果提供了消息类型对象,则可以使用内置功能读取符合MIL-STD-2045 47001D的标题信息,并且...

    Holtek Programer

    The EW-VMF is one of Holtek's device writers and is an upgraded version of the HT-VMF-02 writer. The EW-VMF supports EV Boards programmed using the old writers but also adds certain programming ...

    GPS对流层延迟改正映射函数模型研究进展

    VMF1模型和GMF模型就是其中的典型代表。 学者们对映射函数模型的研究不断深化,通过使用地面气象参数、地区性大气模型,或者建立格网列表文件进行插值等方法,尝试建立更加接近真实大气折射规律的经验模型。这些...

    Atom-atom-narrow,缩小范围。贡献T9MD/原子.zip

    Atom是一个由GitHub开发的免费、开源的文本编辑器,它基于Web技术,如HTML、CSS和JavaScript构建。这个“Atom-atom-narrow.zip”文件似乎是一个特定的定制或优化版本,名为“Atom-atom-narrow”,它专注于提供一个更...

Global site tag (gtag.js) - Google Analytics