hive中分组取前N个值的实现

博客分类：

hive

需求：假设有一个学生各门课的成绩的表单，应用hive取出每科成绩前2名数据如下表： id clsno score 1 c1 20 2 c1 30 3 c1 40 4 c1 50 5 c1 80 11 c1 80 12 c1 60 6 c2 20 7 c2 30 8 c2 40 9 c2 50 10 c2 ...

2012-03-28 15:49
浏览 8265
评论(0)
分类:开源软件

hadoop状态分析系统chukwa（转）

博客分类：

hadoop

Apache 的开源项目 hadoop，作为一个分布式存储和计算系统，已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时，集群自身的相关信息如何收集和分析呢？针� ...

2012-03-21 15:23
浏览 1097
评论(0)
分类:开源软件

在CDH3上运行mahout的random forest算法时的异常处理

博客分类：

mahout

在应用apache mahout中的random forest分类的时候，报java.lang.IllegalStateException: java.io.EOFException异常。具体如下图：这个错误发生是在训练出模型后，将模型存储的时候。原因是cloudera的hadoop版本在mapreduce 任务运行完后，会生成一个_SUCCESS目录，这将导致如上异常。解决的办法是在配置文件mapred-site.xml中加入配置mapreduce.fileoutputcommitter.marksuccessfuljobs 值为false。 ...

2011-11-30 14:49
浏览 2568
评论(0)
分类:行业应用

FTP连接问题相关

博客分类：

其他

425 Security: Bad IP connecting.错误应对 ftp软件报此错误，估计是在连接中变换了ip 编辑vsftp配置文档，位置： /etc/vsftpd/vsftpd.conf 在最后一行添加 pasv_promiscuous = YES ...

2011-11-15 11:35
浏览 1140
评论(0)
分类:行业应用

hbase-default.xml file seems to be for and old version 异常

博客分类：

nosql
列存储nosql

hbase

在应用java调用hbase的时候报异常： java.lang.RuntimeException: hbase-default.xml file seems to be for and old version of HBase (null), this version is 0.90.1-CDH3B4 at org.apache.hadoop.hbase.HBaseConfiguration.checkDefaultsVersion(HBaseConfiguration.java:66) at org.apache.hadoop.hbase.HBase ...

2011-09-13 17:53
浏览 2718
评论(0)
分类:编程语言

HBase加载大数据

博客分类：

nosql
列存储nosql

一、概述 HBase有很多种方法将数据加载到表中，最简单直接的方法就是通过MapReduce调用TableOutputFormat方法，或者在client上调用API写入数据。但是，这都不是最有效的方式。这篇文档将向你描述如何在HBase中加载大数据。采用MapReduce作业，将数据以HBase内部的组织格式输出成文件，然后将数据文件加载到已运行的集群中。（注：就是生成HFile，然后加载到HBase中。）二、大数据载入的步骤大数据的加载包含了2个步骤： 1、通过MapReduce的作业进行数据准备过程首先，通过MapReduce使用HFileOutputFormat来生成 ...

2011-09-13 16:30
浏览 1168
评论(0)
分类:编程语言

sqoop could not find any valid local directory 异常解决

博客分类：

hadoop

sqoop

在没有更改任何配置的情况下sqoop突然报警：org.apache.hadoop.util.diskchecker$diskerrorexception: could not find any valid local directory；原来是硬盘空间满了，占用到了100%；删除没用的数据后，sqoop能正常运行。过了一天后，又报sqoop error reading task output 异常，查了N久之后才发现是zookeeper的节点down掉了。。。。。重新启动zookeeper节点，运行sqoop导入，正常。。。。集群小加上监控系统不完善麻烦事就是多。。。

2011-09-07 15:10
浏览 2567
评论(0)
分类:行业应用

hive 备忘录

博客分类：

hive

1 hive结果用gzip压缩输出在运行查询命令之前，设置下面参数： set mapred.output.compress=true; set hive.exec.compress.output=true; set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; INSERT OVERWRIT ...

2011-08-24 14:56
浏览 1318
评论(0)
分类:行业应用

Hive User Defined Functions

博客分类：

hive

Hive User Defined Functions Hive User Defined Functions (UDFs) fall into the following categories: (* ) Built-in Operators Relational Operators Arithmetic Operators Logical Operators Complex Type Constructors Operators on ...

2011-07-14 15:22
浏览 2351
评论(0)
分类:数据库

mongodb blog website

博客分类：

文档存储nosql

http://www.hellophp.cn/ http://blog.izhoufeng.com/posts/tag/mongodb

2011-07-09 22:40
浏览 927
评论(0)
分类:数据库

HBase数据库性能调优

博客分类：

列存储nosql

　因官方Book Performance Tuning部分章节没有按配置项进行索引，不能达到快速查阅的效果。所以我以配置项驱动，重新整理了原文，并补充一些自己的理解，如有错误，欢迎指正。　　配置优化　　zookeeper.session.timeout 　　默认值：3分钟(180000ms) 　　说明：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，ReigonServer会被Zookeeper从RS集群清单中移除，HMaster收到移除通知后，会对这台server负责的regions重新balance，让其他存活的Reg ...

2011-07-07 20:49
浏览 1795
评论(0)
分类:数据库

MongoDB数据库优化：Mongo Database Profiler

博客分类：

文档存储nosql

在MySQL中，慢查询日志是经常作为我们优化数据库的依据，那在MongoDB中是否有类似的功能呢?答案是肯定的，那就是Mongo Database Profiler.不仅有，而且还有一些比MySQL的Slow Query Log更详细的信息。它就是我们这篇文章的主题。　　开启 Profiling 功能　　有两种方式可以控制 Profiling 的开关和级别，第一种是直接在启动参数里直接进行设置。　　启动MongoDB时加上–profile=级别即可。　　也可以在客户端调用db.setProfilingLevel(级别) 命令来实时配置。可以通过db.getProfi ...

2011-07-07 20:46
浏览 1265
评论(0)
分类:数据库

谈正确理解 CAP 理论

博客分类：

nosql

转自：http://www.douban.com/group/topic/11765014/ CAP 理论在搞分布式的程序员中已经是路人皆知了。但是 CAP 理论就好比是相对论，虽然所有的人都知道，但是却没有多少人真正理解。要真正理解 CAP 理论必须要读懂它的形式化描述。形式化描述中最重要的莫过于对 Consistency, Availability, Partition-tolerance 的准确定义。 Consistency (一致性) 实际上等同于系统领域的 before-or-after atomicity 这个术语，或者等同于 linearizable (可串行化) ...

2011-07-02 22:21
浏览 1010
评论(0)
分类:数据库

MongoDB入门简介

博客分类：

文档存储nosql

MongoDB Linux Windows json C

MongoDB把数据存储在文件中（默认路径为：/data/db），为提高效率使用内存映射文件进行管理。安装：Linux/OS X下:1 建立数据目录 mkdir -p /data/db2 下载压缩包 curl -O http://downloads.mongodb.org/linux/mongodb-linux-i686-latest.tgz3 解压缩文件 tar xzf mongodb-linux-i386-latest.tgz4 启动服务 bin/mongod run &5 使用自带客户端连接 /bin/mongo6 测试 db.foo.save( { a : 1 } ) db. ...

2011-06-24 18:51
浏览 1117
评论(0)
分类:数据库

从MySQL到MongoDB简易对照表

博客分类：

文档存储nosql

MySQL MongoDB 数据结构 SQL

查询：MySQL:SELECT * FROM userMongo:db.user.find()MySQL:SELECT * FROM user WHERE name = ’starlee’Mongo:db.user.find({‘name’ : ’starlee’})插入：MySQL:INSERT INOT user (`name`, `age`) values (’starlee’,25)Mongo:db.user.insert({‘name’ : ’starlee’, ‘a ...

2011-06-24 18:48
浏览 1177
评论(0)
分类:数据库

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive中分组取前N个值的实现

hadoop状态分析系统chukwa（转）

在CDH3上运行mahout的random forest算法时的异常处理

FTP连接问题相关

hbase-default.xml file seems to be for and old version 异常

HBase加载大数据

sqoop could not find any valid local directory 异常解决

hive 备忘录

Hive User Defined Functions

mongodb blog website

HBase数据库性能调优

MongoDB数据库优化：Mongo Database Profiler

谈正确理解 CAP 理论

MongoDB入门简介

从MySQL到MongoDB简易对照表

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>