Command模式(命令)

博客分类：

java

Command模式(命令) Java深入到一定程度,就不可避免的碰到设计模式这一概念,了解设计模式,将使自己对java中的接口或抽象类应用有更深的理解.设计模式在java的中型系统中应用广泛,遵循一定的编程模式,才能使自己的代码便于理解,易于交流,Command(命令模式)模式是比较常用的一个模式. Command命令模式: Command模式通过被称为Command的类封装了对目标对象的调用行为以及调用参数。将一个请求封装为一个对象，从而使你不同的请求对客户进行参数化；对请求排队或记录请求日志，以及支持可撤销的操作。优点: 解耦了调用者和接受者之间联系。调用 ...

2012-09-14 10:01
浏览 1245
评论(0)
分类:编程语言

hive优化之------控制hive任务中的map数和reduce数

博客分类：

hadoop

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m，20m，130m，那么 ...

2012-08-17 18:03
浏览 15214
评论(2)
分类:互联网

hive函数参考手册

博客分类：

hadoop

sql java unix

原文见：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.内置运算符1.1关系运算符运算符类型说明 A = B 所有原始类型如果A与B相等,返回TRUE,否则返回FALSE A == B

2012-08-17 14:46
浏览 1409
评论(0)
分类:互联网

【转】hive优化

博客分类：

hadoop

java mapreduce

1.当hive执行join内存溢出时，可以修改hive的配置文件hive-site.xml，增大内存，如下： mapred.child.java.opts -Xmx 1024m 2.hive默认建表时的路径也可以在hive-site.xml里配置，如下: hive.metastore.warehouse.dir value >/user/hive/warehouse description >location of default database for the warehouse 3.执行join操作的时候，尽量把小表放前面，大表放前面可能会因为内存溢出而出错 4.对 ...

2012-08-15 17:16
浏览 1420
评论(0)
分类:互联网

hive导出查询结果到本地文件

博客分类：

java

sql apache

最近在使用hive时，需要将hive查询的数据导出到本地文件系统，HQL语法如下： INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1 查询结果导出到本地文件后，试图使用excel加载时遇上了麻烦：不知道hive导出文件时使用的分隔符，使用文本编辑器打开也显示乱码。最后在官方文档上找了半天才发现，hive使用 ^A 符号作为域的分隔符，原文如下： Data written to the filesystem is serialized as text with columns separated ...

2012-08-15 15:00
浏览 7317
评论(0)
分类:互联网

hive 调优(转)

博客分类：

java

hadoop sql 算法 family

优化时，把hive sql当做map reduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。长期观察hadoop处理数据的过程，有几个显著的特征: 1.不怕数据多，就怕数据倾斜。 2．对jobs数比较多的作业运行效率相对比较低，比如即使有几百行的表，如果多次关联多次汇总，产生十几个jobs，没半小时是跑不完的。map reduce作业初始化的时间是比较长的。 3.对sum，count来说，不存在数据倾斜问题。 4.对count(distinct ),效率较低，数

2012-08-15 14:27
浏览 1188
评论(0)
分类:互联网

使用hive读取hbase数据

博客分类：

java

hadoop apache java mapreduce

Mapr框架安装完后，安装与配置hbase、hive。其中mapr框架的安装路径为/opt/maprHbase的安装路径为/opt/mapr/hbase/hbase-0.90.4Hive的安装路径为/opt/mapr/hive/hive-0.7.1整合hive与hbase的过程如下：1．将文件 /opt/mapr/hbase/hbase-0.90.4/hbase-0.90.4.jar 与/opt/mapr/hbase/hbase-0.90.4/lib/zookeeper-3.3.2.jar拷贝到/opt/mapr/hive/hive-0.7.1/lib文件夹下面注意：如果hive/lib ...

2012-08-15 10:25
浏览 5075
评论(0)
分类:互联网

hive的Specified key was too long; max key length is 767 bytes问题解决

博客分类：

java

java hadoop mysql jdbc

当在hive中show table 时如果报以下错时 FAILED: Error in metadata: javax.jdo.JDODataStoreException: Error(s) were found while auto-creating/validating the datastore for classes. The errors are printed in the log, and are attached to this exception.NestedThrowables:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxE ...

2012-08-14 15:08
浏览 4365
评论(0)
分类:开源软件

M2_REPO介绍

博客分类：

java
linux
eclipse

java windows maven eclipse

M2_REPO是一个用来定义 maven 2仓库在硬盘中的存储位置，windows默认是C:\Users\机器名\.m2\repository.按道理安装了m2eclipse插件就会在eclipse有了相应的设置。如果没有安装m2eclipse插件，eclipse打开maven工程，可能就会报Unbound classpath variable: 'M2_REPO/**/***/***.jar'错误，这个时候就需要手动设置M2_REPO。设置方式： Eclipse->Windows->Preferences->java->Build Path->Cla ...

2012-08-13 22:32
浏览 1165
评论(0)
分类:开源软件

hadoop优化

博客分类：

java

java hadoop apache

从三个方面着手优化 :1. hadoop配置2. 设计mapred/job3. 代码级别.4. 改造hadoop一. conf/hadoop-site.xml配置.经验要求高, 特别需要结合实际情况.

2012-08-13 22:16
浏览 967
评论(0)
分类:开源软件

大数据量处理(转载)

博客分类：

java

1. 给定a、b两个文件，各存放50亿个url，每个url各占64字节，内存限制是4G，让你找出a、b文件共同的url？方案1：可以估计每个文件安的大小为50G×64=320G，远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。 s 遍历文件a，对每个url求取，然后根据所取得的值将url分别存储到1000个小文件（记为）中。这样每个小文件的大约为300M。 s 遍历文件b，采取和a相同的方式将url分别存储到1000各小文件（记为）。这样处理后，所有可能相同的url都在对应的小文件（）中，不对应的小文件不可能有相同的url。然后我们只要求出1000对 ...

2012-08-10 15:23
浏览 1573
评论(0)
分类:互联网

hbase连接java(转载)

博客分类：

java

family hbase hadoop apache java

1、需要的jar包： commons-codec-1.4.jar commons-logging-1.0.4.jar hadoop-0.20.2-core.jar hbase-0.20.6.jar log4j-1.2.15.jar zookeeper-3.2.2.jar 2、已有表结构： 1、表名：scores 2、列族： course:art course:math grade: 3、scan 'scores'的内容：

2012-07-20 16:43
浏览 1230
评论(0)
分类:互联网

js url传参中文乱码

博客分类：

java

java ajax jquery

在项目中经常回存在通过JS去请求操作的事件发生，而这些请求的url链接又通常会使用到中文。而这些中文在JS中可以正常alert出来，但是提交给后台时就显示成乱码了。这里提供一个解决方案，基本原理就是在JS中将中文转码成URI方式，如下： var queryTitle = document.getElementById('queryTitle').value; queryTitle=encodeURI(queryTitle); queryTitle=encodeURI(queryTitle); 需要转 ...

2012-07-13 15:41
浏览 2537
评论(1)
分类:Web前端

hadoop hbase Ganglia 汇总

博客分类：

java

9.2.1. hbase.regionserver.blockCacheCount 内存中的Block cache item数量。这个是存储文件(HFiles)的缓存中的数量。 9.2.2. hbase.regionserver.blockCacheFree 内存中的Block cache memory 剩余 (单位 bytes). 9.2.3. hbase.regionserver.blockCacheHitRatio Block cache 命中率(0 到 100). TODO: 描述当cacheBlocks=false时对这个值得影响 9.2.4. hb ...

2012-07-09 17:16
浏览 2109
评论(0)
分类:开源软件

hbase很有价值的读写性能提升(转载)

博客分类：

linux
java

hbase nosql

NoSQL现在风生水起，hbase的使用也越来越广，但目前几乎所有的NoSQL产品在运维上都没法和DB相提并论，在这篇blog中来总结下我们在运维hbase时的一些问题以及解决的方法，也希望得到更多hbase同行们的建议，:) 在运维hbase时，� ...

2012-07-05 17:47
浏览 2172
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Command模式(命令)

hive优化之------控制hive任务中的map数和reduce数

hive函数参考手册

【转】hive优化

hive导出查询结果到本地文件

hive 调优(转)

使用hive读取hbase数据

hive的Specified key was too long; max key length is 767 bytes问题解决

M2_REPO介绍

hadoop优化

大数据量处理(转载)

hbase连接java(转载)

js url传参中文乱码

hadoop hbase Ganglia 汇总

hbase很有价值的读写性能提升(转载)

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>