environment:
mac os
pre conditions:
1.下载 hop from http:// code.google.com/p/hop/
我下载的0.2.
2.打开ssh,system preference-》sharing->remote logining(勾上即可)
查看ssh是否一定要密码才能连接.terminal下执行命令 $ ssh localhost
如果需要输入密码,那么,执行下面两条命令
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
再ssh localhost应该就不用密码了
3.jdk调为1.6
utilities->java->java preference 把1.6移到1.5之上
step:
1.修改conf下hadoop-env.sh.
把原来的java-home注释掉,去掉mac下java-home前面的注释
2.打开terminal,进入hop目录依次执行下列命令。
Format a new distributed-filesystem:
$ bin/hadoop namenode -format
Start the hadoop daemons:
$ bin/start-all.sh
Copy the input files into the distributed filesystem:
$ bin/hadoop fs -put conf input
3.跑一个自带demo
$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+' (这里*就是hop-0.2)
结果如下:
10/08/10 16:32:14 INFO mapred.FileInputFormat: Total input paths to process : 11
10/08/10 16:32:14 INFO mapred.JobClient: Running job: job_201008101616_0008
10/08/10 16:32:14 INFO mapred.JobClient: Job configuration (HOP):
map pipeline = false
reduce pipeline = false
snapshot input = false
snapshot freq = 0.1
10/08/10 16:32:15 INFO mapred.JobClient: map 0% reduce 0%
10/08/10 16:32:21 INFO mapred.JobClient: map 8% reduce 0%
10/08/10 16:32:22 INFO mapred.JobClient: map 16% reduce 0%
10/08/10 16:32:23 INFO mapred.JobClient: map 25% reduce 0%
10/08/10 16:32:24 INFO mapred.JobClient: map 33% reduce 0%
10/08/10 16:32:25 INFO mapred.JobClient: map 50% reduce 0%
.......
------------------至此还只是hadoop哦,下面来开启hop功能-------
4.打开conf/hadoop-site.xml,文件
在最后一行之前加入如下代码:
<property>
<name>mapred.reduce.parallel.copies</name>
<value>40</value>
<description>The default number of parallel transfers run by reduce
during the copy(shuffle) phase.
</description>
</property>
<property>
<name>mapred.map.pipeline</name>
<value>true</value>
<description>Pipeline Map Task Output .
</description>
</property>
<property>
<name>mapred.reduce.pipeline</name>
<value>true</value>
<description>Pipeline Reduce Task Output A pipelined reduce task will send its output directly to the map task in the subsequent job, if any.
</description>
</property>
<property>
<name>mapred.snapshot.frequency</name>
<value>0.1</value>
<description>Snapshot frequency Determines how often we perform snapshots based on job progress. A freq=0.1 will perform snapshots at 10% progress intervals (e.g., 10%, 20%, ..., 100%).
</description>
</property>
<property>
<name>mapred.job.input.snapshots</name>
<value>false</value>
<description>Job Input is Snapshot If a job takes snapshot results as input then this parameter must be set to true.
</description>
</property>
注意最后一个value。If a job takes snapshot results as input then this parameter must be set to true.
5.继续执行下step3。
如果报错,说已经有output了,那么执行$ bin/hadoop fs -rmr output
你可以用http://localhost:50070/去查看hdfs上的文件和目录
去掉output后再执行step3,结果显示如下:
10/08/10 16:35:51 INFO mapred.FileInputFormat: Total input paths to process : 11
10/08/10 16:35:52 INFO mapred.JobClient: Running job: job_201008101616_0010
10/08/10 16:35:52 INFO mapred.JobClient: Job configuration (HOP):
map pipeline = true
reduce pipeline = true
snapshot input = false
snapshot freq = 0.1
10/08/10 16:35:53 INFO mapred.JobClient: map 0% reduce 0%
10/08/10 16:35:55 INFO mapred.JobClient: map 8% reduce 0%
10/08/10 16:35:56 INFO mapred.JobClient: map 16% reduce 0%
10/08/10 16:35:57 INFO mapred.JobClient: map 25% reduce 0%
10/08/10 16:35:58 INFO mapred.JobClient: map 33% reduce 0%
10/08/10 16:35:59 INFO mapred.JobClient: map 41% reduce 0%
10/08/10 16:36:00 INFO mapred.JobClient: map 50% reduce 0%
10/08/10 16:36:01 INFO mapred.JobClient: map 58% reduce 0%
10/08/10 16:36:02 INFO mapred.JobClient: map 66% reduce 0%
10/08/10 16:36:03 INFO mapred.JobClient: map 74% reduce 0%
10/08/10 16:36:04 INFO mapred.JobClient: map 83% reduce 0%
10/08/10 16:36:05 INFO mapred.JobClient: map 100% reduce 0%
10/08/10 16:36:10 INFO mapred.JobClient: map 100% reduce 100%
........
这样,就play with hop了,如果想回到hadoop,那么把hadoop-site.xml中pipeline的map和reduce的value改为false应该就可以了。
分享到:
相关推荐
对于J-Hop Gnutella System,这可能指的是GPL(GNU General Public License)或其他类似许可,规定了软件可以被如何使用、分发和修改,以及对软件的商业使用有何限制。 3. **jhop** 文件夹很可能是项目的源代码存放...
研究首次测定了HoP5O14晶体中Ho3+离子的5I7—5I8跃迁的红外发射,在2.046微米处。这一发现对于理解Ho3+离子在该晶体中的能级跃迁特性具有重要意义。此外,研究者还详细分析了晶体的晶面与几何外形,为理解其光学性质...
在测试Twitter-2010数据集的K-hop neighbor(2度)查询时,这个异常首次出现。具体的错误细节记录在日志文件Twitter-2010/result/KNeighbor-2.txt中。这可能暗示Nebula在处理大量邻接关系时遇到问题,或者协议通信...
首次使用 Kettle 时,可以通过双击 `spoon.bat` 文件(在 Linux 下为 `spoon.sh`)启动设计界面。启动后会显示数据库连接用户名和密码输入界面。 **2. 设置数据库** - **选择资料库类型**:可以选择使用数据库或...
用户手册还提供了功能参数一览表,涵盖了从基本参数到故障记录和数据监视的多个方面。用户需要对这些参数有深入的了解,以便进行准确的设定和操作。在对变频器进行操作和参数设定后,应进行功能参数详解,以确保各项...
- **非初次启动:** 如果是第二次及以后启动,则直接加载fsImage镜像文件和Edits日志到内存中。 - **客户端操作:** 客户端对文件系统的元数据进行的增删改操作会被记录到Edits文件中,并随后更新内存中的元数据。 - *...
在第一次连接事件中,由于lastUnmappedChannel(上一次未映射信道)被规定为0,所以跳频公式就演变成了fn+1 = (0 + hop) mod 37,从而确定了第一次连接事件使用的频率。调频算法的简便性使得它在蓝牙LE 4.0中的实现...
BGP使用TCP进行消息传输,而RIP使用UDP。OSPF则直接封装在IP包中。 - **多路复用**:不同层之间的通信通常采用多路复用的方式,允许多个应用程序共享底层资源。 #### 三、IP数据包结构详解 - **版本字段**:标识...
32. **Debut** - 首次上场,新球员或新战术首次亮相。 33. **Defense** - 防守,比赛中阻止对手得分的策略。 34. **Deny the ball** - 绕前防守,防守者站位在对手和球之间,防止接球。 35. **Disqualification**...