接到mail, 公布出来省得再有提问 :)
首先, 我要实现的canopy和kmeans算法都是固定的,本来我不必要重新实现这些算法。我是暂时加入mahout-*.jar,因为里面的SparseVector,省得我再去实现一遍。
但我没用其中的算法, 因为我去年就发现mathout的实现有以下以个问题:
1.
它的CanopyMapper默认读取的是SparseVector.asFormatString之后的字符串形成的Text。我估计他们没有做过大数
集的测试,因为这个String占的空间非常大。SparseVector的每个元素由index和value组成, index是int型占4字节,
value是double型占8字节,
他们转成字符串加起来远不止12字节。这势必会造成空间上的膨胀,事实上我测试过用一个4.1m的新闻分词后,如果采用这种形式建立VSM,将是11M.
2. 他们对Canopy算法的理解有误区。这是canopy提出者的原文
http://www.kamalnigam.com/papers/canopy-kdd00.pdf
注意它摘要的话:
The key idea involves using a cheap,approximate distance measure
to efficiently divide the data into overlapping subsets we call
canopies. Then clustering is performed by measuring exact distances only between points that occur in a common canopy
.
作者提出的这两点,第一点mahout是采用命令行参数指定的Distance
Measure,这很灵活,虽然使用者可能不懂canopy,没体现cheap这特点,但也不能说mathout有错。 关键是第二点,在k-means
这一步只需要计算出现在同一canopy中所有数据点的精确距离。这是canopy之所以高效至关重要的一点。这一点,mathout的代码没有体现。事
实上我去年打过patch给他们,由于我对apache的format不熟,而且没有写JUnit相关的test,所以没有被接受。我怀疑mahout的
canopy实现作者只看过google的那段canopy视频。
3. 注意mathout中org.apache.mahout.clustering.canopy.Canopy这个类中的计算canopy质心的方法:
public Vector computeCentroid() {
Vector result = new SparseVector(pointTotal.cardinality());
for (int i = 0; i < pointTotal.cardinality(); i++)
result.set(i, new Double(pointTotal.get(i) / numPoints));
return result;
}
它构造一个稀疏矩阵, 但这个矩阵每个元素都是赋了值的,就算是为0也赋值。用SparseVector去存,反而会极大地增大其容量。再者在大规模数据中,词条向量应该会有百万级别的元素,这样存太没道理了。加上按照刚才1. 中指出的存成String,光存一个canopy质心就可以达到数百K字节.
4. 如果读者测试了mathout的Naive
Bayes关于20_newsgroups的示例,你会发现它根本不能工作。代码不能工作就提交上去。我们作了一些改动,结果它的算法精确度非常之低,结
果自己重写了,当然也避免重复劳动,用了些mahout已有的代码。对搜狐新闻,拿Je
MMAnalyzer分词器分词,分类精度提到90.2%。另外,也是存储空间的问题,
20_newsgroups解压下来只有90.4MB,这当然不会有问题。但它计算词频采用的key是label,
term,代表类与词;value是这个类中该词条的词频。有时候数据集大了词条非常多,在我的实验当中多至数百万,而且类有N个的话。那么它要数百
万*N个记录。这一点完全可以避免。
分享到:
相关推荐
通过使用PageRank、LSI等算法,Redpoll能够从大量文本数据中提取有价值的信息,帮助用户更好地理解和利用数据。 总之,Hadoop作为大数据处理领域的关键技术,不仅提供了强大的数据处理能力,还构建了一个丰富的生态...
MapReduce研究 调试、监控等 优化、扩展等 常用API Hadoop改造 数据挖掘项目Redpoll Canopy, k-means Naive bayes, SVM
onnxruntime-1.16.0-cp311-cp311-win_amd64.whl
基于springboot的流浪猫狗救助系统源码数据库文档.zip
摘 要 如今的信息时代,对信息的共享性,信息的流通性有着较高要求,因此传统管理方式就不适合。为了让美容院信息的管理模式进行升级,也为了更好的维护美容院信息,美容院管理系统的开发运用就显得很有必要。并且通过开发美容院管理系统,不仅可以让所学的SpringBoot框架得到实际运用,也可以掌握MySQL的使用方法,对自身编程能力也有一个检验和提升的过程。尤其是通过实践,可以对系统的开发流程加深印象,无论是前期的分析与设计,还是后期的编码测试等环节,都可以有一个深刻的了解。 美容院管理系统根据调研,确定其实现的功能主要包括美容用品管理,美容项目管理,美容部位管理,销量信息管理,订单管理,美容项目预约信息管理等功能。 借助于美容院管理系统这样的工具,让信息系统化,流程化,规范化是最终的发展结果,让其遵循实际操作流程的情况下,对美容院信息实施规范化处理,让美容院信息通过电子的方式进行保存,无论是管理人员检索美容院信息,维护美容院信息都可以便利化操作,真正缩短信息处理时间,节省人力和信息管理的成本。 关键字:美容院管理系统,SpringBoot框架,MySQL
numpy-1.21.1-cp39-cp39-linux_armv7l.whl
基于JavaWeb+springboot的宠物救助及领养平台源码数据库文档.zip
基于springboot员工在线餐饮管理系统源码数据库文档.zip
matplotlib-3.5.3-cp37-cp37m-linux_armv7l.whl
基于springboot+web的留守儿童网站源码数据库文档.zip
STM32神舟III号例程源码SysTick系统滴答(神舟III号-库函数版)提取方式是百度网盘分享地址
STM32开发相关软件ISP 程序下载STM32开发相关软件ISP 程序下载提取方式是百度网盘分享地址
onnxruntime-1.17.0-cp310-cp310-win_amd64.whl
Pillow-9.5.0-cp39-cp39-linux_armv7l.whl
基于springboot高性能计算中心的高性能集群共享平台源码数据库文档.zip
SciPy-1.11.1-cp311-cp311-linux_armv7l.whl
主机硬件信息邮件及微信推送
numpy-1.23.4-cp39-cp39-linux_armv7l.whl
基于springboot视频点播系统源码数据库文档.zip
基于springboot竞赛管理系统源码数据库文档.zip