关于redpoll中使用mahout模块,而没有沿用其中算法的解答

coderplay

浏览: 579079 次
性别:
来自: 广州杭州

最近访客更多访客>>

x_h_j123

liuxiao723846

汀雨晓洛

springcdma

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

redpoll

算法 IDEA Apache junit Google

接到mail, 公布出来省得再有提问 :)

首先, 我要实现的canopy和kmeans算法都是固定的,本来我不必要重新实现这些算法。我是暂时加入mahout-*.jar,因为里面的SparseVector,省得我再去实现一遍。

但我没用其中的算法,　因为我去年就发现mathout的实现有以下以个问题:

1. 它的CanopyMapper默认读取的是SparseVector.asFormatString之后的字符串形成的Text。我估计他们没有做过大数集的测试，因为这个String占的空间非常大。SparseVector的每个元素由index和value组成, index是int型占4字节, value是double型占8字节, 他们转成字符串加起来远不止12字节。这势必会造成空间上的膨胀，事实上我测试过用一个4.1m的新闻分词后，如果采用这种形式建立VSM，将是11M.

2. 他们对Canopy算法的理解有误区。这是canopy提出者的原文http://www.kamalnigam.com/papers/canopy-kdd00.pdf
注意它摘要的话:
The key idea involves using a cheap,approximate distance measure to efficiently divide the data into overlapping subsets we call canopies. Then clustering is performed by measuring exact distances only between points that occur in a common canopy .
作者提出的这两点，第一点mahout是采用命令行参数指定的Distance Measure，这很灵活，虽然使用者可能不懂canopy,没体现cheap这特点，但也不能说mathout有错。　关键是第二点，在k-means 这一步只需要计算出现在同一canopy中所有数据点的精确距离。这是canopy之所以高效至关重要的一点。这一点，mathout的代码没有体现。事实上我去年打过patch给他们，由于我对apache的format不熟，而且没有写JUnit相关的test,所以没有被接受。我怀疑mahout的 canopy实现作者只看过google的那段canopy视频。

3. 注意mathout中org.apache.mahout.clustering.canopy.Canopy这个类中的计算canopy质心的方法:

	public Vector computeCentroid() {
		Vector result = new SparseVector(pointTotal.cardinality());
		for (int i = 0; i < pointTotal.cardinality(); i++)
			result.set(i, new Double(pointTotal.get(i) / numPoints));
		return result;
	}

它构造一个稀疏矩阵,　但这个矩阵每个元素都是赋了值的，就算是为0也赋值。用SparseVector去存，反而会极大地增大其容量。再者在大规模数据中，词条向量应该会有百万级别的元素，这样存太没道理了。加上按照刚才1. 中指出的存成String，光存一个canopy质心就可以达到数百K字节.

4. 如果读者测试了mathout的Naive Bayes关于20_newsgroups的示例，你会发现它根本不能工作。代码不能工作就提交上去。我们作了一些改动，结果它的算法精确度非常之低，结果自己重写了，当然也避免重复劳动，用了些mahout已有的代码。对搜狐新闻，拿Je MMAnalyzer分词器分词，分类精度提到90.2%。另外，也是存储空间的问题, 20_newsgroups解压下来只有90.4MB，这当然不会有问题。但它计算词频采用的key是label, term,代表类与词;value是这个类中该词条的词频。有时候数据集大了词条非常多，在我的实验当中多至数百万，而且类有N个的话。那么它要数百万*N个记录。这一点完全可以避免。

分享到：

关于本体论及语意搜索的一些资料 | 怎么在hadoop作map/reduce时输出N种不同类 ...

2008-11-07 19:03
浏览 3259
评论(2)
查看更多

2 楼 diddyrock 2009-08-20

nutch 也没有实现排序算法，其实有很多时候扯淡是存在的

1 楼 conservatism 2009-03-03

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hadoop.pdf: 通过使用PageRank、LSI等算法，Redpoll能够从大量文本数据中提取有价值的信息，帮助用户更好地理解和利用数据。总之，Hadoop作为大数据处理领域的关键技术，不仅提供了强大的数据处理能力，还构建了一个丰富的生态...

MapReduce研究现状: MapReduce研究调试、监控等优化、扩展等常用API Hadoop改造数据挖掘项目Redpoll Canopy, k-means Naive bayes, SVM

基于transUnet和swinUnet的医学图像分割项目实验对比: 基于transUnet和swinUnet的医学图像分割项目实验对比，包含完整代码，可以一键运行。评估指标包括dice、iou、recall、precision等

,stm32f030无感foc方案，资料包括原理图，pcb，源程序，观测器参数，电流环参数计算表格: ,stm32f030无感foc方案，资料包括原理图，pcb，源程序，观测器参数，电流环参数计算表格。

分布式电源DG选址定容优化及帕累托最优解集的粒子群算法研究,多目标粒子群算法分布式电源 DG 定容选址网损成本电压偏差通过分布式能源的选址定容确定得到帕累托最优解集，然后选择最优值进行分: 分布式电源DG选址定容优化及帕累托最优解集的粒子群算法研究,多目标粒子群算法分布式电源 DG 定容选址网损成本电压偏差通过分布式能源的选址定容确定得到帕累托最优解集，然后选择最优值进行分析，程序采用改进粒子群算法， ,核心关键词：多目标粒子群算法; 分布式电源选址定容; 网损; 成本; 电压偏差; 帕累托最优解集。,改进粒子群算法在分布式电源选址定容中的应用：优化网损与成本，考虑电压偏差

交变磁场感应材料对沥青路面温度影响的研究,交变磁场下含感应材料沥青路面温度 ,交变磁场; 感应材料; 沥青路面; 温度; 变化; 加热效率,交变磁场对含感应材料沥青路面温度的影响研究: 交变磁场感应材料对沥青路面温度影响的研究,交变磁场下含感应材料沥青路面温度 ,交变磁场; 感应材料; 沥青路面; 温度; 变化; 加热效率,交变磁场对含感应材料沥青路面温度的影响研究

基于Comsol模拟的三层顶板随机裂隙浆液扩散模型：考虑重力影响的瞬态扩散规律分析,Comsol模拟，考虑三层顶板包含随机裂隙的浆液扩散模型，考虑浆液重力的影响，模型采用的DFN插件建立随机裂隙，采用: 基于Comsol模拟的三层顶板随机裂隙浆液扩散模型：考虑重力影响的瞬态扩散规律分析,Comsol模拟，考虑三层顶板包含随机裂隙的浆液扩散模型，考虑浆液重力的影响，模型采用的DFN插件建立随机裂隙，采用达西定律模块中的储水模型为控制方程，分析不同注浆压力条件下的浆液扩散规律，建立瞬态模型 ,Comsol模拟; 随机裂隙浆液扩散模型; 浆液重力影响; DFN插件; 达西定律模块储水模型; 注浆压力条件; 浆液扩散规律; 瞬态模型,Comsol浆液扩散模型：随机裂隙下考虑重力的瞬态扩散分析

【自开发工具】SQLSERVER的ImpDp和ExpDp工具: 对于Sqlserver数据库只是提供了简单的图形化的导出导入工具，在实际的开发和生产环境不太可能让用户在图形化的界面选择移行的对象，进行移行。我们在数据库的移行中也遇到这种问题，需要提供一个工具给客户使用。所以我们开发了针对SQLServer数据库的cmd形式导入导出的工具。在长期的实践中不断完善，基本可以实现Oracle的导入导出工具的80%的功能，也比较的稳定。有需要的可以下载使用，也可以提供定制化的服务

DeepSeek多平台部署指南：Ollama本地、移动端及Open WebUI环境配置: 内容概要：本文介绍了DeepSeek模型在不同平台上部署的方法。首先阐述了基于Ollama的本地部署，包括Ollama的安装、模型拉取以及交互模式的使用。接着讲解了DeepSeek在移动设备（iOS和Android）上的部署细节：iPhone需要通过Safari安装快捷指令，配置API Key并通过快捷指令测试运行；Android则借助Termux安装必要组件，并手动搭建Ollama环境以加载和测试模型。最后详细叙述了基于Open WebUI部署的方式，涉及Ollama、Docker Desktop及Open WebUI的安装流程及其之间的配合使用来最终达成模型的成功部署。适用人群：面向有兴趣了解或者实际操作DeepSeek模型跨平台部署的技术开发者、研究人员以及AI爱好者。使用场景及目标：适用于希望利用DeepSeek模型快速构建本地化应用程序、开展实验研究的用户；具体目标为掌握DeepSeek模型在桌面系统（如Linux、macOS、Windows）、iOS和Android智能手机以及云端WebUI界面上的不同部署手段和技术。其他说明：对于每种类型的部署都提供了详细的步骤指导，旨在帮助使用者顺利完成所需工具和环境的安装，并确保模型能够正常工作。文中给出的具体链接和命令行脚本，有助于降低初次接触者的上手难度，提升部署效率和成功率。此外，还强调了一些重要的配置注意事项，例如正确输入API key以及对Ollama的初始化检查等。

,FOC 无感混合磁链观测器电机控制代码 PMSM MiniDD(直驱)电机变频无感程序，包含偏心，重量，共振等感知算法，所有算法都不基于库函数，MCU底层配置完全手写: ,FOC 无感混合磁链观测器电机控制代码 PMSM MiniDD(直驱)电机变频无感程序，包含偏心，重量，共振等感知算法，所有算法都不基于库函数，MCU底层配置完全手写

nodejs010-nodejs-cmd-shim-1.1.0-4.1.el6.centos.alt.noarch.rpm: nodejs010-nodejs-cmd-shim-1.1.0-4.1.el6.centos.alt.noarch.rpm

基于S7-200 PLC的交通灯倒计时控制及组态王界面实现原理图解析,S7-200 PLC和组态王交通灯带倒计时控制 923 47 带解释的梯形图接线图原理图图纸，io分配，组态画面 ,S: 基于S7-200 PLC的交通灯倒计时控制及组态王界面实现原理图解析,S7-200 PLC和组态王交通灯带倒计时控制 923 47 带解释的梯形图接线图原理图图纸，io分配，组态画面 ,S7-200 PLC; 交通灯; 倒计时控制; 组态王; 梯形图接线图; IO分配; 组态画面,"S7-200 PLC与组态王交通灯倒计时控制：梯形图原理及IO分配详解"

西门子四轴卧加后处理系统：828D至840D兼容，四轴联动高效加工解决方案，支持图档处理及试看程序 ,西门子四轴卧加后处理，支持828D~840D系统，支持四轴联动，可制制，看清楚联系，可提供图档处理: 西门子四轴卧加后处理系统：828D至840D兼容，四轴联动高效加工解决方案，支持图档处理及试看程序。,西门子四轴卧加后处理，支持828D~840D系统，支持四轴联动，可制制，看清楚联系，可提供图档处理试看程序 ,核心关键词：西门子四轴卧加后处理; 828D~840D系统支持; 四轴联动; 制程; 联系; 图档处理试看程序。,西门子四轴卧加后处理程序，支持多种系统与四轴联动

FPGA篮球赛事24秒倒计时计时器设计与实现（基于Verilog与VHDLL的优化对比）,基于fpga篮球倒计时24s verilog和vhdl两个版本 ,基于FPGA篮球倒计时24s; Veril: FPGA篮球赛事24秒倒计时计时器设计与实现（基于Verilog与VHDLL的优化对比）,基于fpga篮球倒计时24s。 verilog和vhdl两个版本 ,基于FPGA篮球倒计时24s; Verilog版本; VHDL版本,FPGA篮球比赛倒计时24秒系统：Verilog与VHDL双版本实现

论生成式AI在大学生学习中的应用与伦理问题.pdf: 论生成式AI在大学生学习中的应用与伦理问题.pdf

敬老院管理系统免费JAVA毕业设计 2024成品源码+论文+数据库+启动教程.zip: 免费JAVA毕业设计 2024成品源码+论文+数据库+启动教程启动教程：https://www.bilibili.com/video/BV1SzbFe7EGZ 项目讲解视频：https://www.bilibili.com/video/BV1Tb421n72S 二次开发教程：https://www.bilibili.com/video/BV18i421i7Dx

"S7-200plc与MCGS智能居家控制系统的深度融合：组态画面、IO分配与梯形图接线图原理详解",No.63 S7-200plc和 MCGS智能居家控制系统组态带解释的梯形图接线图原理图图纸: "S7-200plc与MCGS智能居家控制系统的深度融合：组态画面、IO分配与梯形图接线图原理详解",No.63 S7-200plc和 MCGS智能居家控制系统组态带解释的梯形图接线图原理图图纸，io分配，组态画面 ,核心关键词：S7-200plc; MCGS智能居家控制系统; 梯形图接线图原理图; io分配; 组态画面。,"S7-200 PLC与MCGS智能居家系统组态及梯形图原理图解析"

艾齐尔 HVAC 板式换热器选型计算软件: 方便暖通工程师及板换用户了解艾齐尔板式换热器选型计算，免费使用。

《四层三列堆垛式立体库控制系统：带解释的梯形图接线原理图及IO分配与组态画面详解》,4x3堆垛式立体库4层3列四层三列书架式立体库控制系统带解释的梯形图接线图原理图图纸，io分配，组态画面: 《四层三列堆垛式立体库控制系统：带解释的梯形图接线原理图及IO分配与组态画面详解》,4x3堆垛式立体库4层3列四层三列书架式立体库控制系统带解释的梯形图接线图原理图图纸，io分配，组态画面 ,立体库; 堆垛式; 控制系统; 梯形图; 接线图; 原理图; IO分配; 组态画面,"立体库控制系统原理图：四层三列堆垛式书架的IO分配与组态画面"

房屋交易系统免费JAVA毕业设计 2024成品源码+论文+数据库+启动教程.zip: 免费JAVA毕业设计 2024成品源码+论文+数据库+启动教程启动教程：https://www.bilibili.com/video/BV1SzbFe7EGZ 项目讲解视频：https://www.bilibili.com/video/BV1Tb421n72S 二次开发教程：https://www.bilibili.com/video/BV18i421i7Dx

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论