- 浏览: 145481 次
- 性别:
- 来自: 哈尔滨
最新评论
-
yuesen0007:
厉害
MySQL逗号分割字段的行列转换技巧(转载) -
书音棋:
107x 写道 不错,谢谢!很早之前搞的,希望对你有用。
hive优化之------控制hive任务中的map数和reduce数 -
书音棋:
chwshuang 写道感觉哥们是做开发的,不是专门做测试的! ...
压力测试你应该知道的几个道理 -
chwshuang:
感觉哥们是做开发的,不是专门做测试的!因为我也深有体会!不知道 ...
压力测试你应该知道的几个道理 -
107x:
不错,谢谢!
hive优化之------控制hive任务中的map数和reduce数
文章列表
Command模式(命令)
Java深入到一定程度,就不可避免的碰到设计模式这一概念,了解设计模式,将使自己对java中的接口或抽象类应用有更深的理解.设计模式在java的中型系统中应用广泛,遵循一定的编程模式,才能使自己的代码便于理解,易于交流,Command(命令模式)模式是比较常用的一个模式.
Command命令模式: Command模式通过被称为Command的类封装了对目标对象的调用行为以及调用参数。将一个请求封装为一个对象,从而使你不同的请求对客户进行参数化;对请求排队或记录请求日志,以及支持可撤销的操作。
优点: 解耦了调用者和接受者之间联系。调用 ...
一、 控制hive任务中的map数: 1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么 ...
原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF
1.内置运算符1.1关系运算符
运算符
类型
说明
A = B
所有原始类型
如果A与B相等,返回TRUE,否则返回FALSE
A == B
1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下: mapred.child.java.opts -Xmx 1024m
2.hive默认建表时的路径也可以在hive-site.xml里配置,如下: hive.metastore.warehouse.dir value >/user/hive/warehouse description >location of default database for the warehouse
3.执行join操作的时候,尽量把小表放前面,大表放前面可能会因为内存溢出而出错
4.对 ...
最近在使用hive时,需要将hive查询的数据导出到本地文件系统,HQL语法如下:
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1
查询结果导出到本地文件后,试图使用excel加载时遇上了麻烦:不知道hive导出文件时使用的分隔符,
使用文本编辑器打开也显示乱码。
最后在官方文档上找了半天才发现,hive使用 ^A 符号作为域的分隔符,原文如下:
Data written to the filesystem is serialized as text with columns separated ...
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。
理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。
长期观察hadoop处理数据的过程,有几个显著的特征:
1.不怕数据多,就怕数据倾斜。
2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的。map reduce作业初始化的时间是比较长的。
3.对sum,count来说,不存在数据倾斜问题。
4.对count(distinct ),效率较低,数
Mapr框架安装完后,安装与配置hbase、hive。其中mapr框架的安装路径为/opt/maprHbase的安装路径为/opt/mapr/hbase/hbase-0.90.4Hive的安装路径为/opt/mapr/hive/hive-0.7.1整合hive与hbase的过程如下:1. 将文件 /opt/mapr/hbase/hbase-0.90.4/hbase-0.90.4.jar 与/opt/mapr/hbase/hbase-0.90.4/lib/zookeeper-3.3.2.jar拷贝到/opt/mapr/hive/hive-0.7.1/lib文件夹下面注意:如果hive/lib ...
当在hive中show table 时如果报以下错时 FAILED: Error in metadata: javax.jdo.JDODataStoreException: Error(s) were found while auto-creating/validating the datastore for classes. The errors are printed in the log, and are attached to this exception.NestedThrowables:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxE ...
M2_REPO是一个用来定义 maven 2仓库在硬盘中的存储位置,windows默认是C:\Users\机器名\.m2\repository.按道理安装了m2eclipse插件就会在eclipse有了相应的设置。
如果没有安装m2eclipse插件,eclipse打开maven工程,可能就会报Unbound classpath variable: 'M2_REPO/**/***/***.jar'错误,这个时候就需要手动设置M2_REPO。
设置方式: Eclipse->Windows->Preferences->java->Build Path->Cla ...
从三个方面着手优化 :1. hadoop配置2. 设计mapred/job3. 代码级别.4. 改造hadoop一. conf/hadoop-site.xml配置.经验要求高, 特别需要结合实际情况.
大数据量处理(转载)
- 博客分类:
- java
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取 ,然后根据所取得的值将url分别存储到1000个小文件(记为 )中。这样每个小文件的大约为300M。 s 遍历文件b,采取和a相同的方式将url分别存储到1000各小文件(记为 )。这样处理后,所有可能相同的url都在对应的小文件( )中,不对应的小文件不可能有相同的url。然后我们只要求出1000对 ...
1、需要的jar包:
commons-codec-1.4.jar
commons-logging-1.0.4.jar
hadoop-0.20.2-core.jar
hbase-0.20.6.jar
log4j-1.2.15.jar
zookeeper-3.2.2.jar
2、已有表结构:
1、表名:scores
2、列族:
course:art
course:math
grade:
3、scan 'scores'的内容:
在项目中经常回存在通过JS去请求操作的事件发生,而这些请求的url链接又通常会使用到中文。
而这些中文在JS中可以正常alert出来,但是提交给后台时就显示成乱码了。
这里提供一个解决方案,基本原理就是在JS中将中文转码成URI方式,如下:
var queryTitle = document.getElementById('queryTitle').value; queryTitle=encodeURI(queryTitle); queryTitle=encodeURI(queryTitle); 需要转 ...
hadoop hbase Ganglia 汇总
- 博客分类:
- java
9.2.1. hbase.regionserver.blockCacheCount
内存中的Block cache item数量。这个是存储文件(HFiles)的缓存中的数量。
9.2.2. hbase.regionserver.blockCacheFree
内存中的Block cache memory 剩余 (单位 bytes).
9.2.3. hbase.regionserver.blockCacheHitRatio
Block cache 命中率(0 到 100). TODO: 描述当cacheBlocks=false时对这个值得影响
9.2.4. hb ...
NoSQL现在风生水起,hbase的使用也越来越广,但目前几乎所有的NoSQL产品在运维上都没法和DB相提并论,在这篇blog中来总结下我们在运维hbase时的一些问题以及解决的方法,也希望得到更多hbase同行们的建议,:)
在运维hbase时, ...