windows下用eclipse连接linux中的hadoop,并执行mr

博客分类：

hadoop

1. 准备： linux上已经安装好hadoop集群或者单机； windows上有个hadoop-0.20.2文件夹； Eclipse Europa 3.3.2 (勿使用其他版本，测试没通过)下载地址： http://www.eclipse.org/downloads/packages/release/europa/winter 2. ...

2012-07-09 18:05
浏览 4170
评论(0)
分类:互联网

hadoop修改kerberos默认的配置文件

博客分类：

hadoop

hadoop kerberos krb5

kerberos默认的配置文件krb5.conf文件位于/etc目录下，如果需要为hadoop指定到另外目录的配置文件，修改$HADOOP_HOME/conf/hadoop-env.sh export HADOOP_OPTS="-Djava.net.preferIPv4Stack=true -Djava.security.krb5.conf=/home/p_sdo_data_etl/krb5.conf ${HADOOP_OPTS}"

2012-07-05 15:23
浏览 2115
评论(0)
分类:互联网

hive的一个bug?

博客分类：

hive

hive case when bug

select count(1) from ( select case when data_type = '15' then '1' else '0' end as ssss from woa_login_android where version_type = 0 and data_type in ('15','30') and pt = '2012-07-03' ) a where a.ssss = '1' 这个结果集是有记录的，子查询的case when 后面只有一个条件，在外面用where过滤是没问题的，如果在子查询中的cas ...

2012-07-05 10:20
浏览 1876
评论(1)
分类:互联网

hive中转义特殊字符

博客分类：

java
hive

hive 特殊字符 java perl

原SQL如下： regexp_extract(lower(url), 'bookid\\=([^&$]+)', 1) 封装hive sql用的是perl,perl中用hive -e的方式将sql传给hive执行，上面的语句中perl经过转义，变成了 regexp_extract(lower(url), 'bookid=([^&5.008008+)', 1) 这类，我看是因为美元符$和中括号]在一起表示什么特殊字符？没去细究，后来将美元符替换成\\u0024解决。。附，java中一些特殊字符的转义：点的转义：. ==& ...

2012-06-27 09:51
浏览 12198
评论(0)
分类:数据库

java播放mp3(不用jmf)

博客分类：

java

java java mp3

帮一个小妹写一个播放mp3的代码，对于java不熟的我来说可真折腾。网上好多代码都是用jmf的，需要单独安装，除了jar包，还依赖很多dll文件。找了又找，终于找到一个只依赖jar包的；原帖地址：http://blog.csdn.net/liuzhongbing/article/details/4535402 依赖的jar包见附件。 import java.io.File; import java.io.IOException; import javax.sound.sampled.AudioFormat; import javax. ...

2012-06-26 01:16
浏览 5370
评论(3)
分类:互联网

hive的不等值关联

博客分类：

hive

hive 非等值连接 join

hive中不支持不等值关联，诸如： select a.app_name, b.app_name from a left outer join b on (b.app_name like a.app_name) select a.app_name, b.app_name from a left outer join b on (b.num < a.num) 其实，不支持指的是在on后面的连接条件中不支持费等值连接，在业务场景以及数据量允许的条件下，可做如下变通： select a.app_name, b.app_name ...

2012-06-25 10:22
浏览 7842
评论(0)
分类:互联网

hive中一些实用的小技巧

博客分类：

hive

hive 实用

1. 忽略错误，继续执行下面的语句，特别是在使用hive -f "xxx.sql"时候比较实用： hive --hiveconf hive.cli.errors.ignore=true -f "xxx.sql" 2. 虚拟列： INPUT__FILE__NAME（输入文件的路径） BLOCK__OFFSET__INSIDE__FILE（记录在文件中的偏移量） select id,INPUT__FILE__NAME,BLOCK__OFFSET__INSIDE__FILE from lxw_test3 ...

2012-06-21 17:47
浏览 4234
评论(0)
分类:互联网

mapreduce报错：java.io.IOException: Split metadata size exceeded 10000000.

博客分类：

java
hive
hadoop

hadoop hive

Failure Info:Job initialization failed: java.io.IOException: Split metadata size exceeded 10000000. Aborting job job_201205162059_1073852 at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48) at org.apache.hadoop.mapred.JobInProgress.createSplit ...

2012-06-21 15:46
浏览 7348
评论(0)
分类:互联网

hive新旧jar包冲突引起的错误java.lang.NoSuchFieldError: info

博客分类：

hadoop
hive

hadoop hive

Exception in thread "main" java.lang.NoSuchFieldError: info at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:583) at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.java:557) at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) at ...

2012-06-21 11:34
浏览 5248
评论(0)
分类:互联网

hive0.80, 0.90新特性

博客分类：

hadoop
hive

hadoop hive hive新特性

目前使用的hive版本为0.70,看了一下0.80和0.90的新特性，还是有蛮多实用的东西，主要是性能的提升，但是metastore变动较大，升级有一定的风险，目前正在测试： 0.80: https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12310843&version=12316178 0.90.0： https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12310843&version=123177 ...

2012-06-20 10:12
浏览 1820
评论(0)
分类:互联网

互联网数据仓库到底在做什么

博客分类：

数据仓库

数据仓库互联网数据

1. 提供报表给高层做决策，如邮件报表； 2. 为网站运营提供运营支持，实现数据化运营；可通过经分系统，自主查询系统等方式提供运营数据； 3. 为其他业务部门提供数据，成为公司的数据交换和提供平台；可通过主动提供，被动下载等方式来提供业务部门所需要的数据； 4. 分析用户行为数据，通过数据挖掘来降低投入成本，提高投入效果；如广告投放，个性化推荐等业务； 5. 发掘开发数据产品，直接或者间接为公司盈利； 6. 建设开放数据平台，开放公司数据；。。。

2012-06-19 18:11
浏览 1909
评论(0)
分类:互联网

java对hbase的基本操作

博客分类：

java
hadoop

hadoop hbase java

package com.sdo.sjzx.jptj; import java.io.IOException; import java.util.ArrayList; import java.util.HashMap; import java.util.Iterator; import java.util.List; import java.util.Map; import java.util.Set; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConf ...

2012-06-19 16:07
浏览 1984
评论(0)
分类:互联网

多叉树展现

博客分类：

java

java js jquery 多叉树

最近在分析hive表的血缘关系，需要将表的父子关系展现出来，在网上找了一个开源的东西，jQuery orgChart,初步实现了该需求； https://github.com/wesnolte/jOrgChart#readme 展示效果见附件图片。

2012-06-18 16:16
浏览 1530
评论(0)
分类:互联网

HBase基本命令备忘

博客分类：

hadoop

hadoop hbase

名称命令表达式创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录 put '表名称', '行名称', '列名称:', '值' 查看记录 get '表名称', '行名称' 查看表中的记录总数 count '表名称' 删除记录 delete '表名' ,'行名称' , '列名称' 删除一张表先要屏蔽该表，才能对该表进行删除，第一步 disable '表名称' 第二步 drop '表名称' 查看所有记录 scan "表名称" 查看某个表某个 ...

2012-06-14 17:09
浏览 1456
评论(0)
分类:互联网

java读取utf8类型的文件

博客分类：

java

源文件为utf-8格式，且里面包含中文，如： in ('133','153','180','189') then '电信' in ('130','131','132','145','155','156','183','185','186') then '联通' 1，不加转码的时候中文会乱码： public static void main(String[] args) throws Exception { File f = new File("D:/youni_insert_youni_file_transfer_ft.pl"); Input ...

2012-06-14 10:05
浏览 1913
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

windows下用eclipse连接linux中的hadoop,并执行mr

hadoop修改kerberos默认的配置文件

hive的一个bug?

hive中转义特殊字符

java播放mp3(不用jmf)

hive的不等值关联

hive中一些实用的小技巧

mapreduce报错：java.io.IOException: Split metadata size exceeded 10000000.

hive新旧jar包冲突引起的错误java.lang.NoSuchFieldError: info

hive0.80, 0.90新特性

互联网数据仓库到底在做什么

java对hbase的基本操作

多叉树展现

HBase基本命令备忘

java读取utf8类型的文件

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>