- 浏览: 220294 次
- 性别:
- 来自: 北京
最新评论
-
yugouai:
下载不了啊。。。
如何获取hive建表语句 -
help:
[root@hadoop-namenode 1 5 /usr/ ...
Sqoop -
085567:
lvshuding 写道请问,sqoop 安装时不用配置什么吗 ...
Sqoop -
085567:
lvshuding 写道请问,导入数据时,kv1.txt的文件 ...
hive与hbase整合 -
lvshuding:
请问,sqoop 安装时不用配置什么吗?
Sqoop
文章列表
hive中分组取前N个值的实现
- 博客分类:
- hive
需求:假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前2名
数据如下表:
id clsno score
1 c1 20
2 c1 30
3 c1 40
4 c1 50
5 c1 80
11 c1 80
12 c1 60
6 c2 20
7 c2 30
8 c2 40
9 c2 50
10 c2 ...
hadoop状态分析系统chukwa(转)
- 博客分类:
- hadoop
Apache 的开源项目 hadoop, 作为一个分布式存储和计算系统,已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时,集群自身的相关信息如何收集和分析呢?针 ...
在应用apache mahout中的random forest分类的时候,报java.lang.IllegalStateException: java.io.EOFException异常。具体如下图:
这个错误发生是在训练出模型后,将模型存储的时候。原因是cloudera的hadoop版本在mapreduce 任务运行完后,会生成一个_SUCCESS目录,这将导致如上异常。
解决的办法是在配置文件mapred-site.xml中加入配置mapreduce.fileoutputcommitter.marksuccessfuljobs
值为false。
...
425 Security: Bad IP connecting.错误应对
ftp软件报此错误,估计是在连接中变换了ip
编辑vsftp配置文档,位置:
/etc/vsftpd/vsftpd.conf
在最后一行添加
pasv_promiscuous
=
YES
...
在应用java调用hbase的时候报异常:
java.lang.RuntimeException: hbase-default.xml file seems to be for and old version of HBase (null), this version is 0.90.1-CDH3B4
at org.apache.hadoop.hbase.HBaseConfiguration.checkDefaultsVersion(HBaseConfiguration.java:66)
at org.apache.hadoop.hbase.HBase ...
一、概述
HBase有很多种方法将数据加载到表中,最简单直接的方法就是通过MapReduce调用TableOutputFormat方法,或者在client上调用API写入数据。但是,这都不是最有效的方式。
这篇文档将向你描述如何在HBase中加载大数据。采用MapReduce作业,将数据以HBase内部的组织格式输出成文件,然后将数据文件加载到已运行的集群中。(注:就是生成HFile,然后加载到HBase中。)
二、大数据载入的步骤
大数据的加载包含了2个步骤:
1、通过MapReduce的作业进行数据准备过程
首先,通过MapReduce使用HFileOutputFormat来生成 ...
在没有更改任何配置的情况下sqoop突然报警:org.apache.hadoop.util.diskchecker$diskerrorexception: could not find any valid local directory;
原来是硬盘空间满了,占用到了100%;删除没用的数据后,sqoop能正常运行。
过了一天后,又报sqoop error reading task output 异常,查了N久之后才发现是zookeeper的节点down掉了。。。。。重新启动zookeeper节点,运行sqoop导入,正常。。。。集群小加上监控系统不完善麻烦事就是多。。。
1 hive结果用gzip压缩输出
在运行查询命令之前,设置下面参数:
set mapred.output.compress=true;
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec;
INSERT OVERWRIT ...
Hive User Defined Functions
Hive User Defined Functions (UDFs) fall into the following categories: (*
)
Built-in Operators
Relational Operators
Arithmetic Operators
Logical Operators
Complex Type Constructors
Operators on ...
http://www.hellophp.cn/
http://blog.izhoufeng.com/posts/tag/mongodb
HBase数据库性能调优
- 博客分类:
- 列存储nosql
因官方Book Performance Tuning部分章节
没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。
配置优化
zookeeper.session.timeout
默认值:3分钟(180000ms)
说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清
单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的Reg ...
在MySQL中,慢查询日志是经常作为我
们优化数据库的依据,那在MongoDB中是否有类似的功能呢?答案是肯定的,那就是Mongo Database
Profiler.不仅有,而且还有一些比MySQL的Slow Query Log更详细的信息。它就是我们这篇文章的主题。
开启 Profiling 功能
有两种方式可以控制 Profiling 的开关和级别,第一种是直接在启动参数里直接进行设置。
启动MongoDB时加上–profile=级别 即可。
也可以在客户端调用db.setProfilingLevel(级别) 命令来实时配置。可以通过db.getProfi ...
谈正确理解 CAP 理论
- 博客分类:
- nosql
转自:http://www.douban.com/group/topic/11765014/
CAP 理论在搞分布式的程序员中已经是路人皆知了。但是 CAP 理论就好比是相对论,虽然所有的人都知道,但是却没有多少人真正理解。 要真正理解 CAP 理论必须要读懂它的形式化描述。 形式化描述中最重要的莫过于对 Consistency, Availability, Partition-tolerance 的准确定义。 Consistency (一致性) 实际上等同于系统领域的 before-or-after atomicity 这个术语,或者等同于 linearizable (可串行化) ...
MongoDB把数据存储在文件中(默认路径为:/data/db),为提高效率使用内存映射文件进行管理。
安装:Linux/OS X下:1 建立数据目录 mkdir -p /data/db2 下载压缩包 curl -O http://downloads.mongodb.org/linux/mongodb-linux-i686-latest.tgz3 解压缩文件 tar xzf mongodb-linux-i386-latest.tgz4 启动服务 bin/mongod run &5 使用自带客户端连接 /bin/mongo6 测试 db.foo.save( { a : 1 } ) db. ...
查询:MySQL:SELECT * FROM userMongo:db.user.find()MySQL:SELECT * FROM user WHERE name = ’starlee’Mongo:db.user.find({‘name’ : ’starlee’})插入:MySQL:INSERT INOT user (`name`, `age`) values (’starlee’,25)Mongo:db.user.insert({‘name’ : ’starlee’, ‘a ...