- 浏览: 365797 次
- 性别:
- 来自: 水星
-
最新评论
-
mafuli007:
【6】MongoDB数据导入和导出 -
xchd:
czwq2001 写道我带hbase执行的时候出现以下异常,不 ...
Hive HBase整合使用 -
shanxu9198:
geilivable
HBase的数据模型 -
johnnyzuo:
不起作用。希望LZ以后自测后再发,这样很容易误导初学者
hadoop自动清除日志文件的配置方法 -
hongzhi0618:
你好,我到这一步的时候,echo "test mes ...
[4] Scribe使用例子3
文章列表
Step1)
必须先安装好分布文件系统hadoop dfs .每台机上面都有相同的用户。为了方便katta集群的配置和管理必须要在各个服务器之间建立“无密码公钥认证 ”的ssh。
Step2)
下载最新的katta,每台服务器都解压到相同目录下。
Step3)
本文以Cassandra 0.8中的hadoop_word_count为例:
https://svn.apache.org/repos/asf/cassandra/branches/cassandra-0.8/examples/hadoop_word_count/
需要安装插件:mapreducetools
下载地址:http://www.alphaworks.ibm.com/tech/mapreducetools
解压缩后将这个插件放入到eclipse安装目录下的plugins目录下。
需要重启eclipse。
将编译Cassandra所生 ...
Svn地址:https://svn.apache.org/repos/asf/cassandra/branches/cassandra-0.8/
过程:
File-New-Other-
Windows下安装配置Cassandra
下载:apache-cassandra-0.7.4-bin.tar.gz
解压到D盘并重命名为D:\cassandra-0.7.4
注意:0.7版本前配置文件为conf/storage-conf.xml;0.70版本之后变化为conf/cassandra.yaml
需要修改conf/log4j-server.properties
修改
# Edit the next line to point to your logs directory
log4j.appender.R.File=D:\cassandra-0.7.4\log
...
hosts中
192.168.27.27 localhost
bin/cassandra-cli
cassandra> connect localhost/9160 正常
cassandra> connect 192.168.27.27/9160 出现异常:
java.net.ConnectException: Connection refused
而且无法进行远程连接。
需要修改 conf/ cassandra.yaml
将里面的
listen_address: 192.168.27.164(本地的静态IP地址,改为IP的目的是可以远程连接 ...
mahout下处理的文件必须是SequenceFile格式的,所以需要把txtfile转换成sequenceFile。SequenceFile是hadoop中的一个类,允许我们向文件中写入二进制的键值对,具体介绍请看eyjian写的http://www.hadoopor.com/viewthread.php?tid=144&mahout中提供了一种将指定文件下的文件转换成sequenceFile的方式。(You may find Tika (http://lucene.apache.org/tika) helpful in converting binary documents t ...
把当前目录下所有文件打包,并且移除打包前文件
#!/bin/bash
for i in `ls ./`; do
tar -jcvf $i.tar.bz2 $i --remove-files
done
reduce的运行是分成三个阶段的。分别为copy->sort->reduce。
由于job的每一个map都会根据reduce(n)数将数据分成map 输出结果分成n个partition,
所以map的中间结果中是有可能包含每一个reduce需要处理的部分数据的。
所以,为了优化reduce的执行时间,hadoop中是等job的第一个map结束后,
所有的reduce就开始尝试从完成的map中下载该reduce对应的partition部分数据。
这个过程就是通常所说的shuffle,也就是copy过程。
参数:mapred.reduce.parallel.cop ...
参数:io.sort.mb(default 100)
当map task开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
而是会利用到了内存buffer来进行已经产生的部分结果的缓存,
并在内存buffer中进行一些预排序来优化整个map的性能。
每一个map都会对应存在一个内存buffer,map会将已经产生的部分结果先写入到该buffer中,
这个buffer默认是100MB大小,
但是这个大小是可以根据job提交时的参数设定来调整的,
当map的产生数据非常大时,并且把io.sort.mb调大,
那么map在整个计算过程中spill的次数就势必会降低, ...
K-means聚类方法
就是把空间内点,分成K类。同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。
用均值来代表类中心,并用于衡量与新点的距离。
初始值:
根据先验知识找到K个均值,做迭代初始值。
迭代公式:
1:从n个数据对象中选择k个对象作为初始聚类中心
2:将剩下的n-k个数据对象,按照他们和初始的k个值之间的距离大小,分配给与其最近的聚类。
3:计算形成的k个新聚类的聚类中心(该聚类中所有对象的均值)
4:重复2
5:类中心不再摆动,或者摆动幅度很小,趋于稳定,则终止。
测准函数一般使用均方差。
bin/mahout kmeans ...
我使用的是hive。
所有的数据也是在hive中 load data inpath 导入的
导入的数据时保存到虚拟路径 hdfs:////user/hive/warehouse
以一个表一个文件夹的形式
两天来一直面对着一个困惑
从hive中load进去的数据只有600G但是页面显示的DFS Use ...
之前dfs.replication值为3,运行一段时间之后我使用完了磁盘空间,
所以呢,现在我想通过降低备份的个数来释放空间。
那么对于之前存储的文件会自动把备份数改为1吗?
还是需要手动执行命令来执行呢?
dfs.replication这个参数其实只在文件被写入dfs时起作用,虽然更改了配置文件,但是不会改变之前写入的文件的备份数。
但是可以通过如下命令更改备份数:
bin/hadoop fs -setrep -R 1 /
Hbase的数据模型
row 行
column 列
row keys 行键
column keys 列键
column families 列族
Hbase的数据模型和Bigtable的数据模型是一致的,非常适用于数据密集型的系统.
简单的说,Hbase可以简化描述为一个Map<byte[], Map<byte[], Map<byte[], Map<Long, byte[]>>>>.
一个Map建立行键和它们的列族的映射关系;第二个Map建立列族和列键的映射关系;第三个Map建立列键和时间戳的映射关系;
最后一个M ...
TimeTunnel是一个高效的、可靠的、可扩展的实时数据传输平台,广泛应用于实时日志收集、数据实时监控、广告效果实时反馈、数据库实时同步等领域。TimeTunnel基于发布\订阅的消息模型开发,支持消息多用户订阅 。
开源地址:
http://code.taobao.org/project/view/411/
[hadoopuser@master hbase-0.20.3]$ bin/hbase shell
HBase Shell; enter 'help<RETURN>' for list of supported commands.
Version: 0.20.3, rUnknown, Fri Apr 9 11:15:50 CST 2010
hbase(main):001:0> list (显示所有的表)
scores
xuser
2 row(s) in 0.1600 seconds
hbase(main):002:0> create 'xuse ...