`
weijinxian
  • 浏览: 29470 次
  • 性别: Icon_minigender_2
  • 来自: 上海
社区版块
存档分类
最新评论

hop 初次使用记录

阅读更多
environment:
mac os
pre conditions:
1.下载 hop from http:// code.google.com/p/hop/
我下载的0.2.
2.打开ssh,system preference-》sharing->remote logining(勾上即可)
查看ssh是否一定要密码才能连接.terminal下执行命令 $ ssh localhost
如果需要输入密码,那么,执行下面两条命令
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
再ssh localhost应该就不用密码了
3.jdk调为1.6
utilities->java->java preference 把1.6移到1.5之上
step:
1.修改conf下hadoop-env.sh.
把原来的java-home注释掉,去掉mac下java-home前面的注释
2.打开terminal,进入hop目录依次执行下列命令。
Format a new distributed-filesystem:
$ bin/hadoop namenode -format
Start the hadoop daemons:
$ bin/start-all.sh
Copy the input files into the distributed filesystem:
$ bin/hadoop fs -put conf input
3.跑一个自带demo
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+' (这里*就是hop-0.2)
结果如下:
10/08/10 16:32:14 INFO mapred.FileInputFormat: Total input paths to process : 11
10/08/10 16:32:14 INFO mapred.JobClient: Running job: job_201008101616_0008
10/08/10 16:32:14 INFO mapred.JobClient: Job configuration (HOP): 
     map pipeline    = false
     reduce pipeline = false
     snapshot input  = false
     snapshot freq   = 0.1
10/08/10 16:32:15 INFO mapred.JobClient:  map 0% reduce 0%
10/08/10 16:32:21 INFO mapred.JobClient:  map 8% reduce 0%
10/08/10 16:32:22 INFO mapred.JobClient:  map 16% reduce 0%
10/08/10 16:32:23 INFO mapred.JobClient:  map 25% reduce 0%
10/08/10 16:32:24 INFO mapred.JobClient:  map 33% reduce 0%
10/08/10 16:32:25 INFO mapred.JobClient:  map 50% reduce 0%
.......


------------------至此还只是hadoop哦,下面来开启hop功能-------
4.打开conf/hadoop-site.xml,文件
  在最后一行之前加入如下代码:
<property>
 <name>mapred.reduce.parallel.copies</name>
 <value>40</value>
 <description>The default number of parallel transfers run by reduce
 during the copy(shuffle) phase.
 </description>
</property>

<property>
 <name>mapred.map.pipeline</name>
 <value>true</value>
 <description>Pipeline Map Task Output .
 </description>
</property>

<property>
 <name>mapred.reduce.pipeline</name>
 <value>true</value>
 <description>Pipeline Reduce Task Output A pipelined reduce task will send its output directly to the map task in the subsequent job, if any.
 </description>
</property>

<property>
 <name>mapred.snapshot.frequency</name>
 <value>0.1</value>
 <description>Snapshot frequency Determines how often we perform snapshots based on job progress. A freq=0.1 will perform snapshots at 10% progress intervals (e.g., 10%, 20%, ..., 100%). 
 </description>
</property>

<property>
 <name>mapred.job.input.snapshots</name>
 <value>false</value>
 <description>Job Input is Snapshot If a job takes snapshot results as input then this parameter must be set to true. 
 </description>
</property>

注意最后一个value。If a job takes snapshot results as input then this parameter must be set to true.
5.继续执行下step3。
如果报错,说已经有output了,那么执行$ bin/hadoop fs -rmr output
你可以用http://localhost:50070/去查看hdfs上的文件和目录
去掉output后再执行step3,结果显示如下:
10/08/10 16:35:51 INFO mapred.FileInputFormat: Total input paths to process : 11
10/08/10 16:35:52 INFO mapred.JobClient: Running job: job_201008101616_0010
10/08/10 16:35:52 INFO mapred.JobClient: Job configuration (HOP): 
     map pipeline    = true
     reduce pipeline = true
     snapshot input  = false
     snapshot freq   = 0.1
10/08/10 16:35:53 INFO mapred.JobClient:  map 0% reduce 0%
10/08/10 16:35:55 INFO mapred.JobClient:  map 8% reduce 0%
10/08/10 16:35:56 INFO mapred.JobClient:  map 16% reduce 0%
10/08/10 16:35:57 INFO mapred.JobClient:  map 25% reduce 0%
10/08/10 16:35:58 INFO mapred.JobClient:  map 33% reduce 0%
10/08/10 16:35:59 INFO mapred.JobClient:  map 41% reduce 0%
10/08/10 16:36:00 INFO mapred.JobClient:  map 50% reduce 0%
10/08/10 16:36:01 INFO mapred.JobClient:  map 58% reduce 0%
10/08/10 16:36:02 INFO mapred.JobClient:  map 66% reduce 0%
10/08/10 16:36:03 INFO mapred.JobClient:  map 74% reduce 0%
10/08/10 16:36:04 INFO mapred.JobClient:  map 83% reduce 0%
10/08/10 16:36:05 INFO mapred.JobClient:  map 100% reduce 0%
10/08/10 16:36:10 INFO mapred.JobClient:  map 100% reduce 100%
........ 


这样,就play with hop了,如果想回到hadoop,那么把hadoop-site.xml中pipeline的map和reduce的value改为false应该就可以了。
分享到:
评论
发表评论

文章已被作者锁定,不允许评论。

相关推荐

    J-Hop Gnutella System-开源

    对于J-Hop Gnutella System,这可能指的是GPL(GNU General Public License)或其他类似许可,规定了软件可以被如何使用、分发和修改,以及对软件的商业使用有何限制。 3. **jhop** 文件夹很可能是项目的源代码存放...

    HoP

    研究首次测定了HoP5O14晶体中Ho3+离子的5I7—5I8跃迁的红外发射,在2.046微米处。这一发现对于理解Ho3+离子在该晶体中的能级跃迁特性具有重要意义。此外,研究者还详细分析了晶体的晶面与几何外形,为理解其光学性质...

    Nebula 异常情况记录1

    在测试Twitter-2010数据集的K-hop neighbor(2度)查询时,这个异常首次出现。具体的错误细节记录在日志文件Twitter-2010/result/KNeighbor-2.txt中。这可能暗示Nebula在处理大量邻接关系时遇到问题,或者协议通信...

    开源ETL工具-PentahoKettle使用入门

    首次使用 Kettle 时,可以通过双击 `spoon.bat` 文件(在 Linux 下为 `spoon.sh`)启动设计界面。启动后会显示数据库连接用户名和密码输入界面。 **2. 设置数据库** - **选择资料库类型**:可以选择使用数据库或...

    变频器说明书系列-Hope800.pdf

    用户手册还提供了功能参数一览表,涵盖了从基本参数到故障记录和数据监视的多个方面。用户需要对这些参数有深入的了解,以便进行准确的设定和操作。在对变频器进行操作和参数设定后,应进行功能参数详解,以确保各项...

    NameNode机制.docx

    - **非初次启动:** 如果是第二次及以后启动,则直接加载fsImage镜像文件和Edits日志到内存中。 - **客户端操作:** 客户端对文件系统的元数据进行的增删改操作会被记录到Edits文件中,并随后更新内存中的元数据。 - *...

    低功耗4.0蓝牙协议--跳频原理和广播态

    在第一次连接事件中,由于lastUnmappedChannel(上一次未映射信道)被规定为0,所以跳频公式就演变成了fn+1 = (0 + hop) mod 37,从而确定了第一次连接事件使用的频率。调频算法的简便性使得它在蓝牙LE 4.0中的实现...

    《TCP/IP路由技术卷一中文版(第二版)》助读笔记

    BGP使用TCP进行消息传输,而RIP使用UDP。OSPF则直接封装在IP包中。 - **多路复用**:不同层之间的通信通常采用多路复用的方式,允许多个应用程序共享底层资源。 #### 三、IP数据包结构详解 - **版本字段**:标识...

    NBA篮球解说专用词汇.doc

    32. **Debut** - 首次上场,新球员或新战术首次亮相。 33. **Defense** - 防守,比赛中阻止对手得分的策略。 34. **Deny the ball** - 绕前防守,防守者站位在对手和球之间,防止接球。 35. **Disqualification**...

Global site tag (gtag.js) - Google Analytics