Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。
从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界及厂商,所有数据软件,无一不向Hadoop靠拢。Hadoop也从小众的高富帅领域,变成了大数据开发的标准。在Hadoop原有技术基础之上,出现了Hadoop家族产品,通过“大数据”概念不断创新,推出科技进步。
作为IT界的开发人员,我们也要跟上节奏,抓住机遇,跟着Hadoop一起雄起!
关于作者:
- 张丹(Conan), 程序员Java,R,PHP,Javascript
- weibo:@Conan_Z
- blog: http://blog.fens.me
- email: bsspirit@gmail.com
转载请注明出处:
http://blog.fens.me/hadoop-mahout-roadmap/
前言
Mahout是Hadoop家族中与众不同的一个成员,是基于一个Hadoop的机器学习和数据挖掘的分布式计算框架。Mahout是一个跨学科产品,同时也是我认为Hadoop家族中,最有竞争力,最难掌握,最值得学习的一个项目之一。
Mahout为数据分析人员,解决了大数据的门槛;为算法工程师,提供基础的算法库;为Hadoop开发人员,提供了数据建模的标准;为运维人员,打通了和Hadoop连接。
Mahout就是训象人,在Hadoop上创造新的智慧!
目录
- Mahout介绍
- Mahout学习路线图
- 我的学习经历
- Mahout的使用案例
1. Mahout介绍
Mahout 是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。
根据”Mahout In Action”书中的介绍,Mahout实现3大类算法, 推荐(Recommendation),聚类(Clustering),分类(Classification)。
下文介绍的学习路线图,将以”Mahout In Action”书中思路展张。
2. Mahout学习路线图
Mahout知识点,我已经列在图中,希望帮助其他人更好的了解Mahout。
接下来,是我的学习经历,谁都没有捷径。把心踏实下来,就不那么难了。
3. 我的学习经历
之前,大概花了半年的时间,专门研究过Mahout,当时Mahout的资料非常少,中文资料更是仅仅几篇。直到发现了“Mahout In Action”如获至宝,开始反复地读。先不着急上手去做什么,一遍一遍地读。直到读完3遍,心理才有了一点把握。
从“推荐”算法开始,UserCF, ItemCF。 记得第一次在公司给小组讲的时候,还设计了一份问卷,我列出了10个网站,(其中6个IT大站,2个个人blog,2个社交类社区),分别让大家去投票,0-5分,0为不知道,1-5为对网站喜爱程序。
问卷结果格式:
user1, website1, 5
user1, website2, 2
user1, website3, 4
user2, website3, 2
user3, website3, 5
user4, website3, 0
…..
通过这个问卷来模拟尝试Mahout的推荐模型!计算的结果对大家来说,都是比较奇怪。为什么会有这样的推荐呢。 然后,深入Mahout源代码,看算法的实现,知道了相似度矩阵,距离算法,推荐算法,模型验证等,不同业务要求,不同的算法调用,对结果都是有影响的。把书中所有的的概念,关键词都整理过(可惜当时没写博客)。整整花了3个月,每天12个小时的强度,把推荐部分完整地学下来了。
然后,应用到实际业务中。我的任务是做“职位推荐”,我只有用户浏览职位,收藏职位,申请职位的行为数据。
第一次尝试,直接套用推荐模型,但结果非常之差。
出现问题的原因是有2点:
- 1. 职位是有时效性的,每个职位可能3个月就会过期:推荐结果包含了很多的过期职位。
- 2. 大量的用户行为都是历史的,甚至是2-3年前的:推荐结果不符合用户的预期。我估计每半年用户的职位都可能有上升,所以历史行为是不能直接用于当前用户的计算。
修改方案:
1. 对用户行为数据集进行过滤,只计算最近半年内的用户行为。
2. 对结果集进行过滤,排除过期的职位。
3. 分别用不同的算法模型计算(我记得Tanimoto的Item Base结果最好)
对于推荐结果有了大幅度的提升。故事到此就结束了!虽然我还做了更多的事情,不过这个产品由于公司结构性调整,最终没有上线。(程序员的悲哀!)
聚类模型,我把这个算法 应用在网站用户的活跃度分析。假设一个网站,注册用户1000W,每天登陆的1W。我们想了解一下,未登陆的999W用户有什么特点!!用到Mahout的k-means和Canopy做聚类,假设1000W的用户可能可以划分为5个大的群体。最后我们得到了一个结果,分享到了团队。故事又到此结束了。(实现就是这么悲哀!)
分类模型,我尝试着用Native Bayes对我的个人邮件进行垃圾分类。按机器学习的操作流程,历史数据健分词后,训练分类器,每天时时的数据通过分类器进行判断。整个自动化过程都已经完成。故事又结束了!(接受现实吧。)
其实还有一些,我争取都整理出来。
Mahout是有一定的学习门槛,而且需要跨学科的知识。只要坚持学习,没有跨不过的鸿沟!乐观努力!
4. Mahout的使用案例
已经整理成文章的案例
正在准备更多的案例…..
相关推荐
辣椒油树脂检验表格(食品添加剂食用香精质量验收记录表).docx
字体路径文件
Screenshot_2025-03-14-16-46-14-26.jpg
交警队伍管理制度.docx
乳酸链球菌素检验表格(食品添加剂食用香精质量验收记录表).docx
编译的axel windows工具,有需要的拿去 使用命令例子如下 cmd 界面下cd 到axel.exe 文件路径 比如下载image net 1k axel -n 8 -o ./ https://image-net.org/data/ILSVRC/2012/ILSVRC2012_img_train.tar --insecure 编译过程的记录为 https://blog.csdn.net/Magicapprentice/article/details/146250906?sharetype=blogdetail&sharerId=146250906&sharerefer=PC&sharesource=Magicapprentice&spm=1011.2480.3001.8118 可以参照这个链接从零开始自己编译
羧甲基淀粉钠检验表格(食品添加剂食用香精质量验收记录表).docx
光学多层膜系统模拟仿真matlab代码 这段代码是一个光学多层膜系统的模拟程序,计算了TE模和TM模的反射率,并绘制了反射率随波长和入射角变化的等高线图。 这里是代码的主要流程: 1. 加载材料参数数据(Al2O3、Si3N4、SiO2、Ag)和波长数据(lambda)。 2. 循环遍历不同的入射角度(theta0)。 3. 对于每个入射角度,计算TE模和TM模的传输矩阵,包括各个层的传输矩阵。 4. 计算反射率,并将TE模和TM模的反射率取平均作为总的反射率。 5. 将总的反射率随波长和入射角度的变化绘制成等高线图。 这段代码非常详细,而且注释也很清晰,让人容易理解。 不过最后一行的中文注释应该是解释如何使用`colormap`函数来设置绘图的颜色映射,可以将其翻译为“设置颜色映射为Jet色彩”。 ,多层膜系统模拟; TE模和TM模反射率计算; 波长和入射角变化; 传输矩阵; 平均反射率; 绘制等高线图; 颜色映射设置。,光学多层膜系统模拟仿真:Matlab代码实现
中国城市统计年鉴全集(1985-2022).zip。内容来源于网络分享,如有侵权请联系我删除。
双向DC DC全钒液流蓄电池充放电储能matlab simulink仿真模型,采用双闭环控制,充放电电流和电压均可控,直流母线端电压可控,电流为负则充电,电流为正则放电,可以控制电流实现充放电 (1)完整复现文献全钒液流模型,多个全钒液流电池串联成电池组,提供模型参数,电压等级可调 (2)可通过电流环控制电池充放电电流,可实现不同充放电电流,控制速度快(电流闭环) (3)可通过电压环控制电池两端充放电电压,可实现不同充放电电流,控制速度快(电压闭环) ,全钒液流电池; 双向DC-DC; 充放电控制; 电流环控制; 电压环控制; MATLAB Simulink仿真模型; 电池组; 模型参数; 电压等级可调; 电流闭环; 电压闭环,Matlab Simulink仿真模型:全钒液流电池双闭环充放电控制储能系统
windows平台mysql版本安装包 mysql-installer-community
分享课程——BEV模型部署全栈教程(3D检测+车道线+Occ)课程
基于FPGA流水线结构并行FFT的设计与实现-王英喆.caj
内核驱动开发,调试监控IRP请求包发送接收工具
comsol三元锂离子电池模型 NCA111三元锂离子电池21700 电化学-热耦合模型 老化模型 容量衰减模型 参数已经设置好 自己更改参数即可进行使用学习 可进行多倍率充放电仿真 有对应参考文献 A17 ,comsol模型;三元锂离子电池;NCA111电池;电化学-热耦合模型;老化模型;容量衰减模型;参数设置;仿真学习;参考文献,COMSOL三元锂离子电池模型与NCA111电池仿真研究
野火征途Pro FPGA开发板 实现基于帧差法的运动目标检测与跟踪 摄像头:OV5640 显示屏:TFT LCD,VGA,HDMI ,野火征途Pro; FPGA开发板; 帧差法; 运动目标检测与跟踪; OV5640摄像头; TFT LCD; VGA; HDMI,野火征途Pro FPGA开发板:运动目标检测与跟踪的视觉处理
基于PLC控制的自动洗车系统 采用s7-1200设计 lunwenPPT都有 博图仿真 ,基于PLC控制; 自动洗车系统; S7-1200设计; LunwenPPT; 博图仿真,基于S7-1200 PLC控制的自动洗车系统设计与仿真
基于Springboot网吧管理系统【源码+数据库+运行文档】 后端技术栈:SpringBoot ,SpringBoot就是SSM项目的升级版,后端语言Java 前端技术栈:Vue,前端底层都是HTML+JavaScript 数据库:MySQL是目前企业最流行的数据库 SpringBoot通过“约定优于配置”自动化处理繁琐设置,内置Tomcat等服务器实现快速部署,提供Starter POMs简化依赖管理,集成大量开发工具与监控功能,极大提升开发效率,让开发者聚焦业务逻辑而非配置,故成为现代快速开发Web应用的首选框架。 Vue.js因轻量高效、双向数据绑定、组件化开发模式、灵活的插件生态以及细致的文档而受青睐。它通过虚拟DOM提高页面渲染性能,实现视图与数据的分离,便于团队协作和项目维护,尤其适合构建复杂的单页应用程序,在提升开发效率的同时保障用户体验。 MySQL是一款开源、免费的关系型数据库管理系统,以其高性能、高可扩展性、广泛的跨平台支持和活跃的社区著称。是 web 开发和企业应用的热门选择。
内容概要:本文介绍了一种用于洪水淹没模拟的空间缩减与重建(SRR)方法。SRR 方法由两部分组成:SRR-RL 和 SRR-Reco。前者旨在识别模型域内的代表性位置(RL),以便用少量数据驱动模型(如深度学习模型)代替整个网格模拟;后者则根据代表性的水位信息重建洪水淹没表面。此外,SRR 方法还包括 SRR-Search 函数,用于确定河流排水路径和主要河段中心线。该方法已被验证应用于昆士兰州伯内特河下游的真实世界案例研究,并证明了其高效性。但其精度可能在离选定点较远或退水期间存在‘死储存’的地方有所降低。 适用人群:环境工程学者,洪水风险研究人员,水文学家及对洪水模拟有兴趣的研究人员和技术开发者。 使用场景及目标:该方法适用于需要快速高效的模拟大规模或实时洪水情况的研究场景,能够显著减少模型训练所需的水量监测点,从而提升建模效率。特别有助于缺乏详细洪水历史资料区域的研究。 其他说明:本研究提出了新的数据处理手段,不仅提高了传统二维流体力学仿真之外的应用可能性,而且为构建智能防洪预警系统提供了理论依据。此外,该工具可通过提供的开源仓库下载获取并进行实际操作尝试。