临近放假之前,本来打算把一个软件著作权完成的,然后再利用假期准备一下找工作的东西,可是突然冒出一个Hadoop项目来,只能顺着导师的意思,完成这个项目了,一眨眼功夫,一个多月过去了,项目马马虎虎算是凑合着过去了。
现在想想,其实也是挺闹眼子的,Hadoop项目看起来挺牛挺神奇的东西,被我们这么一用也不见得有啥的,搞几台电脑主机,而且还不是服务器,通过hadoop环境部署连接起来,分布式的处理任务,总体用起来不见得有多快,甚至有些地方还没有之前的好~
整个工作就是将之前的一个网站功能重新部署到Hadoop平台上去,网站信息的下载处理还是按老方法,用java实现,后面的统计词频和聚类分类换
成了hadoop的mapreduce来实现了,不过实现起来效果不是很理想,聚类和分类都是用了Mahout里面已有的方法来做的,最后的页面展示部
分,主要从HBase里面读取数据显示到页面上,读取效率太低了,主要是源于Hbase没有自己的索引功能,还要自己根据需要建立模拟索引表来提高效率。
整个项目在真正去做的时候才发现也不见得有多么的神奇,不见的有多么的了不起。
大致了解了Hadoop的单机环境配置,运行原理,知道了MapReduce的一个执行方式,了解了HBase的存储方法,优缺点,真正用的最多的
是HBase的过滤机制,通过过滤对信息进行筛选,通过Get方法对信息进行提取。还有HDFS的一些远程命令,文件操作命令等的使用,实战经验还是掌握
的不多,只能说是一个大致的了解而已,使得这个东西对我来说不再是那么神秘了。
整个项目由于项目管理者没能很好的发挥作用,使得各个小组在进行功能组合的时候发生了很多的不一致,在调节不一致这个点上又浪费了好多时间,同时也
由于需求是不明确,不精确,整个项目是想改就改,实在是很纠结人,这时想想,一个项目的需求分析实在是太重要了,文档的细致更是重要至极啊!
不管怎么样,算是跟各位同学一同经历了一段共同努力的日子,一起进步,一起学习,每天都有收获的感觉还是非常好的!
分享到:
相关推荐
总的来说,这个压缩包中的Hadoop实例将为初学者提供宝贵的实践经验,帮助他们理解如何在实际项目中运用Hadoop处理大数据问题。通过深入研究这些案例,开发者可以更好地掌握Hadoop的核心原理,并具备解决实际问题的...
为了在Eclipse中高效地开发Hadoop相关项目,我们需要对Eclipse进行特定的配置,并安装相应的插件。下面将详细介绍如何进行这些配置以及插件的安装与使用。 首先,"Eclipse开发Hadoop相关项目本地配置插件"涉及到的...
【Hadoop项目】全国各省市酒店数据的分析与处理是一个典型的海量数据处理案例,它涉及到大数据领域的核心组件——Hadoop,以及使用Java编程语言编写的MapReduce算法。在这个项目中,我们将深入探讨如何利用Hadoop...
《Hadoop系统搭建及项目实践》课件02Hadoop安装与配置管理.pdf《Hadoop系统搭建及项目实践》课件02Hadoop安装与配置管理.pdf《Hadoop系统搭建及项目实践》课件02Hadoop安装与配置管理.pdf《Hadoop系统搭建及项目实践...
这个是课本上的项目,很早以前做的,数据文件(没放在代码里)得自己下载,你们得在自己电脑上做修改才能不报错,至于怎么修改,我也不知道。或许是改ip地址,版本信息,数据库配置之类的......这个主要是一个参考...
在这个"**HadoopDemo-master**"项目中,你将有机会实践这些概念,通过实际操作加深理解。MapReduce的编程模型、HDFS的文件操作、Zookeeper的集群管理以及Hive的数据分析都将是你探索的重点。这不仅有助于提升你的...
【Hadoop Web 项目】是一个基于Hadoop生态系统构建的Web应用程序,旨在提供一个用户友好的界面,以便管理和监控Hadoop分布式文件系统(HDFS)以及MapReduce任务。在这个改进版中,开发团队引入了Ajax技术,以提升...
为了在单机模式下运行这个项目,开发者首先需要配置Hadoop环境,包括设置HADOOP_HOME环境变量,并确保Hadoop守护进程在本地运行。然后,他们会在MyEclipse中创建一个Maven项目,导入Hadoop相关的依赖,编写Map和...
《基于Hadoop的小型数据分析项目的设计与实现》 在当今大数据时代,数据的处理和分析已经成为企业决策的关键因素。Hadoop作为开源的分布式计算框架,为海量数据的存储和处理提供了强大支持。本项目旨在利用Hadoop...
Hadoop项目包括了多个子项目,其中最核心的是HDFS和MapReduce,这两个组件共同构成了Hadoop分布式文件系统和数据处理模型的基础。 在分布式计算领域,Google是领先的公司之一,它的计算平台成为了后来类似开源项目...
【标题】Hadoop编程课程设计项目.zip 在本次Hadoop编程课程设计项目中,我们将深入探索分布式计算框架Hadoop的核心应用。Hadoop是Apache软件基金会开发的一个开源项目,旨在处理和存储海量数据,尤其适用于大数据...
【标题】"Hadoop项目实战班视频.zip" 提供了一个关于Hadoop的实践课程,它包含了一系列的视频教程,旨在帮助学习者深入理解和应用Hadoop技术。Hadoop是Apache软件基金会开发的一个开源框架,主要用于处理和存储大...
后来,Hadoop 被贡献给了 Apache 基金会,成为 Apache 基金会的开源项目。 Hadoop 是一种分析和处理大数据的软件平台,是一个用 Java 语言实现的 Apache 的开源软件框架,在大量计算机组成的集群中实现了对海量数据...
基于Hadoop Hive健身馆可视化分析平台项目源码+数据库文件.zip启动方式 环境启动 hadoop hive2元数据库 sql导入 导入hivesql脚本,修改application.yml 启动主程序 HadoopApplication 基于Hadoop Hive健身馆可视化...
Hadoop是由Apache基金会开发的开源项目,它包含两个核心组件:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是分布式文件系统,能够将大型数据集分布在多台廉价服务器上,提供高容错性和高吞吐量的数据...
Hadoop项目的成功公式,will be helpful for Hadoop project. this is from Hadoop Summit 2013.
"Hadoop大数据技术项目化教程.pptx" 《Hadoop大数据技术项目化教程》是一本全面介绍Hadoop大数据处理技术的书籍,通过理论与实践相结合的方式,深入浅出地讲解了Hadoop的核心概念、技术原理、应用方法和实战案例。 ...
hadoop项目手机流量统计.zip
- **扩展项目**:除了核心的Hadoop项目外,还衍生出了一系列开源项目,如Facebook的Hive用于用户数据分析。 #### 二、Hadoop架构解析 - **Hadoop生态系统**:Hadoop不仅包括HDFS和MapReduce两大核心组件,还包括了...