`
landyer
  • 浏览: 142006 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hadoop 现实场景

阅读更多

作者:hovlj_1130 | 可以任意转载, 但转载时务必以超链接形式标明文章原始出处 和 作者信息 及 版权声明
http://hi.baidu.com/hovlj_1130/blog/item/619e36d436be74c950da4b2d.html

场景:

hadoop集群A 

ip: 192.168.11.*

hadoop-namenode:192.168.11.A

user:hadoop

 

store-serverB

ip:192.168.11.B

user:viewlog

 

需要在store-serverB上定时每天导数据到hadoop集群A

 

store-serverB上建立hadoop client

/home/viewlog下建立目录hadoop,用来存储hadoop clientjre

mkdir -p /home/viewlog/hadoop

 

在集群A上某台server上,执行:

rsync -ra $HADOOP_HOME viewlog@192.168.11.B:/home/viewlog/hadoop/

viewlog@192.168.11.B 's password:

 

rsync -ra $JAVA_HOME viewlog@192.168.11.B:/home/viewlog/hadoop/

viewlog@192.168.11.B 's password:

 

换回到store-serverB,切换到/home/viewlog/hadoop/hadoop-0.20.2/conf/

由于执行/home/viewlog/hadoop/hadoop-0.20.2/bin/hadoop命令时会默认加载对应的conf目录下的配置文件,因此需要修改相应的配置文件,使store-serverB这台机器可以访问操作hdfs://192.168.11.A/,注意将一些store-serverB无法访问的配置文件里的hostname改为ip

 

vi hadoop-env.sh

#修改

export JAVA_HOME=/home/viewlog/hadoop/jre1.6.0_20

 

vi hdfs-site.xml

<!-- 添加hadoop.job.ugi属性,指定用户和组 -->

        <property>

                <name>hadoop.job.ugi</name>

                <value>hadoop,supergroup</value>

        </property>

 

vi core-site.xml

<!-- 修改fs.default.name为可以telnet通的ip:port -->

  <property>

    <name>fs.default.name</name>

    <value>hdfs://192.168.11.A:54310</value>

  </property>

 

如果没有设置参数hadoop.job.ugi

/home/viewlog/hadoop/hadoop-0.20.2/bin/hadoop fs -mkdir testdir

会报错

mkdir: org.apache.hadoop.security.AccessControlException: Permission denied: user=viewlog, access=WRITE, inode="hadoop":hadoop:supergroup:rwxr-xr-x

 

/home/viewlog/hadoop/hadoop-0.20.2/bin/hadoop fs -ls

会报错

ls: Cannot access .: No such file or directory.

 

将配置文件调整好之后就可以新建crontab每天自动往hadoop集群A里面自动导入数据到HDFS里面。

/home/viewlog/hadoop/hadoop-0.20.2/bin/hadoop fs -mkdir arichive/$today

/home/viewlog/hadoop/hadoop-0.20.2/bin/hadoop fs -put /data/$today arichive/$today

 

将上面的命令加入到crontab即可。

分享到:
评论

相关推荐

    hadoop for dummies

    这本书深入浅出地介绍了Hadoop的起源、全球数据增长的现状以及该平台的实际应用场景。通过本书,读者可以系统地学习Hadoop的核心组件和分布式框架,并了解如何将Hadoop应用于结构化数据。 在“Getting Started With...

    hadoop - hadoop-illuminated

    它不仅为读者提供了关于Hadoop的基础知识和技术细节,还深入探讨了Hadoop在不同应用场景下的具体实施方法。对于希望深入了解大数据处理技术和Hadoop框架的读者来说,这是一本非常有价值的参考书。

    hadoop实现聚类算法

    因此,研究如何在Hadoop环境下实现高效的聚类算法具有重要的现实意义。 #### 四、方法论 **4.1 K-Means聚类** K-Means是一种常用的聚类算法,其目标是将数据集划分为K个簇,每个簇中的数据点之间的相似度尽可能大...

    基于hadoop的朴素贝叶斯分类器

    朴素贝叶斯分类器假设每个特征独立地对类别产生影响,尽管这种假设在现实世界中可能不完全成立,但在许多情况下仍能提供相当准确的结果。分类器通过计算每个类别的先验概率以及给定特征条件下类别的后验概率来进行...

    Apache Ooize Workflow Scheduler for Hadoop

    他们通过丰富的实例和现实世界中的应用场景,使这本书不仅具有理论的深度,也具备了实践的广度。 Apache Oozie通过简化管理和自动化复杂的Hadoop工作负载,极大地提高了开发者和操作员的工作效率。通过Oozie,可以...

    hadoop_linux.rar

    《Hadoop在Linux环境下的应用详解》 Hadoop是一个开源的分布式计算框架,它由Apache基金会开发,旨在处理和存储海量...通过深入理解和实践,我们可以充分发挥Hadoop在大数据处理中的优势,解决现实世界中的复杂问题。

    Learning Hadoop 2.pdf

    最后,书籍中还包括了一些实际案例,这可以帮助读者更好地理解如何在真实场景中应用Hadoop 2,并且有可能涉及性能优化、故障诊断和集群监控等高级主题。 总而言之,"Learning Hadoop 2" 作为一本专注于Hadoop 2的...

    题目:基于hadoop的电影可视化系统

    因此,构建一个基于Hadoop的电影评分预测系统具有重要的现实意义。 本文旨在通过建立一套高效的数据处理平台,利用Hadoop分布式计算框架处理大规模的电影数据,实现对未上映电影的评分预测功能,从而为用户提供更...

    大型商业银行基于Hadoop分布式数据仓库建设初探.pdf

    基于Hadoop的大数据平台为此提供了一种可行的解决方案,通过分布式数据仓库的建设,银行能够更好地适应数据爆炸式增长的现实,为未来可能出现的新业务场景打下坚实的基础。 最后,文章从系统建设背景、应用架构设计...

    基于Hadoop和Mahout的分布式推荐引擎的设计.pdf

    - 高校科技期刊集约化办刊的方式探索为分布式推荐引擎提供了现实需求的场景,例如集约化后的系统可能需要提供更加个性化和精准的内容推荐来吸引读者。 - 在集约化办刊过程中,如何使用推荐系统来分析用户的阅读...

    Hadoop权威指南第2版无水印修订升级版

    8. **案例研究**:书中包含实际案例,展示了Hadoop在各种业务场景中的应用,帮助读者理解Hadoop如何解决现实世界中的问题。 通过对《Hadoop权威指南》第2版的深入阅读和实践,读者不仅可以掌握Hadoop的基础知识,还...

    基于Hadoop平台的大数据可视化分析实现与应用.docx

    可能讨论了Hadoop在处理特定类型数据(如流式数据、图数据)时的优化策略,以及大数据可视化的未来发展趋势,如增强现实(AR)和虚拟现实(VR)在大数据可视化中的应用。 这篇论文对于计算机科学与技术、软件工程...

    Hadoop MapReduce Cookbook

    3. Hadoop内部机制和可扩展性:读者将能够理解Hadoop的核心工作原理,以及如何对Hadoop进行扩展,以满足不同场景下的特定需求。Hadoop的可扩展性是指其能够通过添加更多的节点来线性地增加存储容量和处理能力。 4. ...

    Hadoop商业应用案例(2)

    标题中的“Hadoop商业应用案例(2)”指出我们将探讨的是Hadoop在实际商业场景中的第二次应用实例,这通常包括如何利用Hadoop生态系统处理大数据、优化业务流程和提升决策效率。这个部分可能涵盖多个Hadoop组件的使用...

    Hadoop下基于朴素贝叶斯的气象数据挖掘研究.pdf

    该算法的一个核心假设是特征之间相互独立,尽管这一假设在现实世界中往往不成立,但在某些情况下朴素贝叶斯分类器的表现依然不错,尤其在数据量大且特征多的场景下表现突出。 本文中提到的研究,将Hadoop与朴素...

Global site tag (gtag.js) - Google Analytics