`
书音棋
  • 浏览: 145481 次
  • 性别: Icon_minigender_1
  • 来自: 哈尔滨
社区版块
存档分类
最新评论
文章列表
Command模式(命令)    Java深入到一定程度,就不可避免的碰到设计模式这一概念,了解设计模式,将使自己对java中的接口或抽象类应用有更深的理解.设计模式在java的中型系统中应用广泛,遵循一定的编程模式,才能使自己的代码便于理解,易于交流,Command(命令模式)模式是比较常用的一个模式.    Command命令模式: Command模式通过被称为Command的类封装了对目标对象的调用行为以及调用参数。将一个请求封装为一个对象,从而使你不同的请求对客户进行参数化;对请求排队或记录请求日志,以及支持可撤销的操作。    优点: 解耦了调用者和接受者之间联系。调用 ...
  一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.    举例: a)    假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块),从而产生7个map数b)    假设input目录下有3个文件a,b,c,大小分别为10m,20m,130m,那么 ...
原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.内置运算符1.1关系运算符 运算符 类型 说明 A = B 所有原始类型 如果A与B相等,返回TRUE,否则返回FALSE A == B
1.当hive执行join内存溢出时,可以修改hive的配置文件hive-site.xml,增大内存,如下: mapred.child.java.opts -Xmx 1024m 2.hive默认建表时的路径也可以在hive-site.xml里配置,如下: hive.metastore.warehouse.dir value >/user/hive/warehouse description >location of default database for the warehouse 3.执行join操作的时候,尽量把小表放前面,大表放前面可能会因为内存溢出而出错 4.对 ...
最近在使用hive时,需要将hive查询的数据导出到本地文件系统,HQL语法如下: INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1 查询结果导出到本地文件后,试图使用excel加载时遇上了麻烦:不知道hive导出文件时使用的分隔符, 使用文本编辑器打开也显示乱码。 最后在官方文档上找了半天才发现,hive使用 ^A 符号作为域的分隔符,原文如下: Data written to the filesystem is serialized as text with columns separated ...
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。   长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的。map reduce作业初始化的时间是比较长的。 3.对sum,count来说,不存在数据倾斜问题。 4.对count(distinct ),效率较低,数
Mapr框架安装完后,安装与配置hbase、hive。其中mapr框架的安装路径为/opt/maprHbase的安装路径为/opt/mapr/hbase/hbase-0.90.4Hive的安装路径为/opt/mapr/hive/hive-0.7.1整合hive与hbase的过程如下:1. 将文件 /opt/mapr/hbase/hbase-0.90.4/hbase-0.90.4.jar 与/opt/mapr/hbase/hbase-0.90.4/lib/zookeeper-3.3.2.jar拷贝到/opt/mapr/hive/hive-0.7.1/lib文件夹下面注意:如果hive/lib ...
当在hive中show table 时如果报以下错时   FAILED: Error in metadata: javax.jdo.JDODataStoreException: Error(s) were found while auto-creating/validating the datastore for classes. The errors are printed in the log, and are attached to this exception.NestedThrowables:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxE ...
M2_REPO是一个用来定义 maven 2仓库在硬盘中的存储位置,windows默认是C:\Users\机器名\.m2\repository.按道理安装了m2eclipse插件就会在eclipse有了相应的设置。 如果没有安装m2eclipse插件,eclipse打开maven工程,可能就会报Unbound classpath variable: 'M2_REPO/**/***/***.jar'错误,这个时候就需要手动设置M2_REPO。 设置方式: Eclipse->Windows->Preferences->java->Build Path->Cla ...
从三个方面着手优化 :1. hadoop配置2. 设计mapred/job3. 代码级别.4. 改造hadoop一. conf/hadoop-site.xml配置.经验要求高, 特别需要结合实际情况.
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url? 方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a,对每个url求取 ,然后根据所取得的值将url分别存储到1000个小文件(记为 )中。这样每个小文件的大约为300M。 s 遍历文件b,采取和a相同的方式将url分别存储到1000各小文件(记为 )。这样处理后,所有可能相同的url都在对应的小文件( )中,不对应的小文件不可能有相同的url。然后我们只要求出1000对 ...
1、需要的jar包: commons-codec-1.4.jar commons-logging-1.0.4.jar hadoop-0.20.2-core.jar hbase-0.20.6.jar log4j-1.2.15.jar zookeeper-3.2.2.jar   2、已有表结构: 1、表名:scores 2、列族: course:art course:math grade:   3、scan 'scores'的内容:
在项目中经常回存在通过JS去请求操作的事件发生,而这些请求的url链接又通常会使用到中文。   而这些中文在JS中可以正常alert出来,但是提交给后台时就显示成乱码了。   这里提供一个解决方案,基本原理就是在JS中将中文转码成URI方式,如下:           var queryTitle = document.getElementById('queryTitle').value;            queryTitle=encodeURI(queryTitle);        queryTitle=encodeURI(queryTitle);       需要转 ...
9.2.1. hbase.regionserver.blockCacheCount 内存中的Block cache item数量。这个是存储文件(HFiles)的缓存中的数量。   9.2.2. hbase.regionserver.blockCacheFree 内存中的Block cache memory 剩余 (单位 bytes).   9.2.3. hbase.regionserver.blockCacheHitRatio Block cache 命中率(0 到 100). TODO: 描述当cacheBlocks=false时对这个值得影响   9.2.4. hb ...
  NoSQL现在风生水起,hbase的使用也越来越广,但目前几乎所有的NoSQL产品在运维上都没法和DB相提并论,在这篇blog中来总结下我们在运维hbase时的一些问题以及解决的方法,也希望得到更多hbase同行们的建议,:) 在运维hbase时, ...
Global site tag (gtag.js) - Google Analytics