Katta集群的安装与启动

博客分类：

Cassandra

Step1) 必须先安装好分布文件系统hadoop dfs .每台机上面都有相同的用户。为了方便katta集群的配置和管理必须要在各个服务器之间建立“无密码公钥认证 ”的ssh。 Step2) 下载最新的katta，每台服务器都解压到相同目录下。 Step3)

2011-04-15 10:57
浏览 2473
评论(0)
分类:数据库

从Cassandra读取数据进行Map/Reduce的实现方法

博客分类：

Cassandra

Cassandra Hadoop Eclipse Mapreduce Java

本文以Cassandra 0.8中的hadoop_word_count为例： https://svn.apache.org/repos/asf/cassandra/branches/cassandra-0.8/examples/hadoop_word_count/ 需要安装插件：mapreducetools 下载地址：http://www.alphaworks.ibm.com/tech/mapreducetools 解压缩后将这个插件放入到eclipse安装目录下的plugins目录下。需要重启eclipse。将编译Cassandra所生 ...

2011-04-15 10:47
浏览 2881
评论(1)
分类:数据库

使用eclipse编译Cassandra

博客分类：

Cassandra

Cassandra Eclipse SVN Apache

Svn地址：https://svn.apache.org/repos/asf/cassandra/branches/cassandra-0.8/ 过程： File-New-Other-

2011-04-15 10:35
浏览 1681
评论(0)
分类:数据库

Windows下安装配置Cassandra

博客分类：

Cassandra

Cassandra Windows log4j Apache XML

Windows下安装配置Cassandra 下载：apache-cassandra-0.7.4-bin.tar.gz 解压到D盘并重命名为D:\cassandra-0.7.4 注意：0.7版本前配置文件为conf/storage-conf.xml；0.70版本之后变化为conf/cassandra.yaml 需要修改conf/log4j-server.properties 修改 # Edit the next line to point to your logs directory log4j.appender.R.File=D:\cassandra-0.7.4\log ...

2011-04-13 16:21
浏览 1520
评论(0)
分类:数据库

bin/cassandra-cli报java.net.ConnectException: Connection refused错误

博客分类：

Cassandra

Cassandra .net Java log4j XML

hosts中 192.168.27.27 localhost bin/cassandra-cli cassandra> connect localhost/9160 正常 cassandra> connect 192.168.27.27/9160 出现异常： java.net.ConnectException: Connection refused 而且无法进行远程连接。需要修改 conf/ cassandra.yaml 将里面的 listen_address: 192.168.27.164（本地的静态IP地址，改为IP的目的是可以远程连接 ...

2011-04-13 16:19
浏览 2743
评论(0)
分类:数据库

mahout下处理的文件必须是SequenceFile格式的，所以需要把txtfile转换成sequenceFile

博客分类：

mahout

lucene Hadoop PHP BBS Apache

mahout下处理的文件必须是SequenceFile格式的，所以需要把txtfile转换成sequenceFile。SequenceFile是hadoop中的一个类，允许我们向文件中写入二进制的键值对，具体介绍请看eyjian写的http://www.hadoopor.com/viewthread.php?tid=144&ampmahout中提供了一种将指定文件下的文件转换成sequenceFile的方式。（You may find Tika (http://lucene.apache.org/tika) helpful in converting binary documents t ...

2011-03-06 23:07
浏览 6824
评论(0)
分类:数据库

把当前目录下所有文件打包,并且移除打包前文件

博客分类：

Linux

Bash

把当前目录下所有文件打包,并且移除打包前文件 #!/bin/bash for i in `ls ./`; do tar -jcvf $i.tar.bz2 $i --remove-files done

2011-03-01 09:40
浏览 1411
评论(0)
分类:操作系统

hadoop作业reduce过程调优使用到的参数笔记

博客分类：

Hadoop

Hadoop

reduce的运行是分成三个阶段的。分别为copy->sort->reduce。由于job的每一个map都会根据reduce(n)数将数据分成map 输出结果分成n个partition，所以map的中间结果中是有可能包含每一个reduce需要处理的部分数据的。所以，为了优化reduce的执行时间，hadoop中是等job的第一个map结束后，所有的reduce就开始尝试从完成的map中下载该reduce对应的partition部分数据。这个过程就是通常所说的shuffle，也就是copy过程。参数：mapred.reduce.parallel.cop ...

2011-02-25 18:09
浏览 7611
评论(0)
分类:数据库

hadoop作业map过程调优使用到的参数笔记

博客分类：

Hadoop

Hadoop Mapreduce Apache 算法 .net

参数：io.sort.mb（default 100）当map task开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。而是会利用到了内存buffer来进行已经产生的部分结果的缓存，并在内存buffer中进行一些预排序来优化整个map的性能。每一个map都会对应存在一个内存buffer,map会将已经产生的部分结果先写入到该buffer中，这个buffer默认是100MB大小，但是这个大小是可以根据job提交时的参数设定来调整的，当map的产生数据非常大时，并且把io.sort.mb调大，那么map在整个计算过程中spill的次数就势必会降低， ...

2011-02-25 17:25
浏览 1941
评论(0)
分类:数据库

K-means聚类方法

博客分类：

mahout

Mapreduce C C++C#

K-means聚类方法就是把空间内点，分成K类。同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。用均值来代表类中心，并用于衡量与新点的距离。初始值：根据先验知识找到K个均值，做迭代初始值。迭代公式： 1：从n个数据对象中选择k个对象作为初始聚类中心 2：将剩下的n-k个数据对象，按照他们和初始的k个值之间的距离大小，分配给与其最近的聚类。 3：计算形成的k个新聚类的聚类中心（该聚类中所有对象的均值） 4：重复2 5：类中心不再摆动，或者摆动幅度很小，趋于稳定，则终止。测准函数一般使用均方差。 bin/mahout kmeans ...

2011-02-25 15:23
浏览 3177
评论(5)
分类:编程语言

Hive使用一段时间后Hadoop集群占用空间暴增的原因

博客分类：

Hive

Hadoop Blog

我使用的是hive。所有的数据也是在hive中 load data inpath 导入的导入的数据时保存到虚拟路径 hdfs:////user/hive/warehouse 以一个表一个文件夹的形式两天来一直面对着一个困惑从hive中load进去的数据只有600G但是页面显示的DFS Use ...

2011-02-25 14:09
浏览 4560
评论(0)
分类:数据库

修改Hadoop集群的备份数

博客分类：

Hadoop

Hadoop

之前dfs.replication值为3，运行一段时间之后我使用完了磁盘空间，所以呢，现在我想通过降低备份的个数来释放空间。那么对于之前存储的文件会自动把备份数改为1吗？还是需要手动执行命令来执行呢？ dfs.replication这个参数其实只在文件被写入dfs时起作用，虽然更改了配置文件，但是不会改变之前写入的文件的备份数。但是可以通过如下命令更改备份数： bin/hadoop fs -setrep -R 1 /

2011-02-25 14:03
浏览 3167
评论(0)
分类:数据库

HBase的数据模型

博客分类：

HBase

HBase 数据结构 Hadoop Blog Apache

Hbase的数据模型 row 行 column 列 row keys 行键 column keys 列键 column families 列族 Hbase的数据模型和Bigtable的数据模型是一致的,非常适用于数据密集型的系统. 简单的说,Hbase可以简化描述为一个Map<byte[], Map<byte[], Map<byte[], Map<Long, byte[]>>>>. 一个Map建立行键和它们的列族的映射关系;第二个Map建立列族和列键的映射关系;第三个Map建立列键和时间戳的映射关系; 最后一个M ...

2011-02-25 10:02
浏览 3018
评论(1)
分类:数据库

淘宝开源实时数据传输平台TimeTunnel

博客分类：

TimeTunnel

领域模型

TimeTunnel是一个高效的、可靠的、可扩展的实时数据传输平台，广泛应用于实时日志收集、数据实时监控、广告效果实时反馈、数据库实时同步等领域。TimeTunnel基于发布\订阅的消息模型开发，支持消息多用户订阅。开源地址： http://code.taobao.org/project/view/411/

2011-02-23 22:59
浏览 3929
评论(1)
分类:非技术

[2] HBase表的基本操作

博客分类：

HBase

HBase

[hadoopuser@master hbase-0.20.3]$ bin/hbase shell HBase Shell; enter 'help<RETURN>' for list of supported commands. Version: 0.20.3, rUnknown, Fri Apr 9 11:15:50 CST 2010 hbase(main):001:0> list （显示所有的表） scores xuser 2 row(s) in 0.1600 seconds hbase(main):002:0> create 'xuse ...

2011-02-23 15:33
浏览 1657
评论(0)
分类:数据库

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Katta集群的安装与启动

从Cassandra读取数据进行Map/Reduce的实现方法

使用eclipse编译Cassandra

Windows下安装配置Cassandra

bin/cassandra-cli报java.net.ConnectException: Connection refused错误

mahout下处理的文件必须是SequenceFile格式的，所以需要把txtfile转换成sequenceFile

把当前目录下所有文件打包,并且移除打包前文件

hadoop作业reduce过程调优使用到的参数笔记

hadoop作业map过程调优使用到的参数笔记

K-means聚类方法

Hive使用一段时间后Hadoop集群占用空间暴增的原因

修改Hadoop集群的备份数

HBase的数据模型

淘宝开源实时数据传输平台TimeTunnel

[2] HBase表的基本操作

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>