`
085567
  • 浏览: 219398 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
需求:假设有一个学生各门课的成绩的表单,应用hive取出每科成绩前2名 数据如下表: id      clsno   score 1       c1      20 2       c1      30 3       c1      40 4       c1      50 5       c1      80 11      c1      80 12      c1      60 6       c2      20 7       c2      30 8       c2      40 9       c2      50 10      c2    ...
Apache 的开源项目 hadoop, 作为一个分布式存储和计算系统,已经被业界广泛应用。很多大型企业都有了各自基于 hadoop 的应用和相关扩展。当 1000+ 以上个节点的 hadoop 集群变得常见时,集群自身的相关信息如何收集和分析呢?针 ...
在应用apache mahout中的random forest分类的时候,报java.lang.IllegalStateException: java.io.EOFException异常。具体如下图:   这个错误发生是在训练出模型后,将模型存储的时候。原因是cloudera的hadoop版本在mapreduce 任务运行完后,会生成一个_SUCCESS目录,这将导致如上异常。     解决的办法是在配置文件mapred-site.xml中加入配置mapreduce.fileoutputcommitter.marksuccessfuljobs 值为false。   ...

FTP连接问题相关

  425 Security: Bad IP connecting.错误应对     ftp软件报此错误,估计是在连接中变换了ip 编辑vsftp配置文档,位置:     /etc/vsftpd/vsftpd.conf 在最后一行添加     pasv_promiscuous = YES   ...
  在应用java调用hbase的时候报异常: java.lang.RuntimeException: hbase-default.xml file seems to be for and old version of HBase (null), this version is 0.90.1-CDH3B4       at org.apache.hadoop.hbase.HBaseConfiguration.checkDefaultsVersion(HBaseConfiguration.java:66)         at org.apache.hadoop.hbase.HBase ...
一、概述 HBase有很多种方法将数据加载到表中,最简单直接的方法就是通过MapReduce调用TableOutputFormat方法,或者在client上调用API写入数据。但是,这都不是最有效的方式。 这篇文档将向你描述如何在HBase中加载大数据。采用MapReduce作业,将数据以HBase内部的组织格式输出成文件,然后将数据文件加载到已运行的集群中。(注:就是生成HFile,然后加载到HBase中。) 二、大数据载入的步骤 大数据的加载包含了2个步骤: 1、通过MapReduce的作业进行数据准备过程 首先,通过MapReduce使用HFileOutputFormat来生成 ...
在没有更改任何配置的情况下sqoop突然报警:org.apache.hadoop.util.diskchecker$diskerrorexception: could not find any valid local directory; 原来是硬盘空间满了,占用到了100%;删除没用的数据后,sqoop能正常运行。    过了一天后,又报sqoop error reading task output 异常,查了N久之后才发现是zookeeper的节点down掉了。。。。。重新启动zookeeper节点,运行sqoop导入,正常。。。。集群小加上监控系统不完善麻烦事就是多。。。

hive 备忘录

    博客分类:
  • hive
1 hive结果用gzip压缩输出     在运行查询命令之前,设置下面参数: set mapred.output.compress=true; set hive.exec.compress.output=true; set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; INSERT OVERWRIT ...
Hive User Defined Functions Hive User Defined Functions (UDFs) fall into the following categories: (* ) Built-in Operators Relational Operators Arithmetic Operators Logical Operators Complex Type Constructors Operators on ...
http://www.hellophp.cn/   http://blog.izhoufeng.com/posts/tag/mongodb
 因官方Book Performance Tuning部分章节 没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。   配置优化   zookeeper.session.timeout   默认值:3分钟(180000ms)    说明:RegionServer与Zookeeper间的连接超时时间。当超时时间到后,ReigonServer会被Zookeeper从RS集群清 单中移除,HMaster收到移除通知后,会对这台server负责的regions重新balance,让其他存活的Reg ...
在MySQL中,慢查询日志是经常作为我 们优化数据库的依据,那在MongoDB中是否有类似的功能呢?答案是肯定的,那就是Mongo Database Profiler.不仅有,而且还有一些比MySQL的Slow Query Log更详细的信息。它就是我们这篇文章的主题。   开启 Profiling 功能   有两种方式可以控制 Profiling 的开关和级别,第一种是直接在启动参数里直接进行设置。   启动MongoDB时加上–profile=级别 即可。   也可以在客户端调用db.setProfilingLevel(级别) 命令来实时配置。可以通过db.getProfi ...
转自:http://www.douban.com/group/topic/11765014/     CAP 理论在搞分布式的程序员中已经是路人皆知了。但是 CAP 理论就好比是相对论,虽然所有的人都知道,但是却没有多少人真正理解。 要真正理解 CAP 理论必须要读懂它的形式化描述。 形式化描述中最重要的莫过于对 Consistency, Availability, Partition-tolerance 的准确定义。 Consistency (一致性) 实际上等同于系统领域的 before-or-after atomicity 这个术语,或者等同于 linearizable (可串行化) ...
MongoDB把数据存储在文件中(默认路径为:/data/db),为提高效率使用内存映射文件进行管理。 安装:Linux/OS X下:1 建立数据目录 mkdir -p /data/db2 下载压缩包 curl -O http://downloads.mongodb.org/linux/mongodb-linux-i686-latest.tgz3 解压缩文件 tar xzf mongodb-linux-i386-latest.tgz4 启动服务 bin/mongod run &5 使用自带客户端连接 /bin/mongo6 测试 db.foo.save( { a : 1 } ) db. ...
查询:MySQL:SELECT * FROM userMongo:db.user.find()MySQL:SELECT * FROM user WHERE name = ’starlee’Mongo:db.user.find({‘name’ : ’starlee’})插入:MySQL:INSERT INOT user (`name`, `age`) values (’starlee’,25)Mongo:db.user.insert({‘name’ : ’starlee’, ‘a ...
Global site tag (gtag.js) - Google Analytics