- 浏览: 82576 次
- 性别:
- 来自: 北京
最新评论
-
KeatsLee:
这篇文章是自己总结的吗?还是来自某本书,麻烦告知一下。觉得很经 ...
Java IO -
di1984HIT:
写的不错啊。
hive 实现多行转一行处理方法 -
di1984HIT:
大数据量分析。
hive海量数据--统计一年网站各个产品的UV
文章列表
hive海量数据--统计一年网站各个产品的UV
- 博客分类:
- hive
在做年终报表需要统计公司网站各个产品一年总的UV,抽出id,product到表year2012,数据条数大概为5千多亿条,由于数据量太大。
1 .
select count(distinct id) as uv,product from year2012 where log_date>='2012-01-01' and log_date<='2012-12-31' group by product;
第一种方案显然不可取。
2.
select count(1) as uv,product from (select id,product,sum(1) as c ...
mysql 导出导入数据实战
- 博客分类:
- Mysql
1.导出数据:
mysql -h****** -uacorn -p***** -Dscrat -e " select * from table " > ******.txt
2.导入数据
mysql -h****** -uacorn -p***** -Dscrat -e "load data local infile '/home/acorn/acorn/forum_member.txt' into table acorn_forum_biz";
从客户端导入数据必须是 load data local i ...
hive 仓库中已存在分区,导入数据报错
- 博客分类:
- hive
1.查看数据仓库中数据已存在
hadoop fs -ls /warehouse/photo_action_dap/log_date=2012-12-15
2.查看mysql数据库,分区表中没有2012-12-15分区信息
3.元数据库中没有分区数据,导致导入错误;
解决办法:
1.手动将分区信息添加到数据库中
2.执行 hadoop fs -rmr /warehouse/photo_action_dap/log_date=2012-12-15
然后重新向photo_action_dap表中导入数据
建议采用方法2;
由于同事将未登录网站的相关信息导入到日常访问信息表中,之前的数据总量为7亿,现在13亿,数据差不多扩了一倍,所以在统计独立IP、UV、PV、独立cookie数,出现数据倾斜,reduce 进度99%时就被卡住了,因为未登录用户的用户ID为0,这样导致所有用户ID为0的数据都分到了一个reduce上,6亿的数据。目前简单的解决方法:
关联查询的sql:
insert overwrite local directory '$HIVE_RESULT'
select sum(case when d.pv_flag=1 then 1 else 0 end) a ...
centos系统中脚本文件中中文乱码
- 博客分类:
- linux
1.确认系统中的LANG=zh_CN.UTF-8
2.确认服务器用户目录下是否有.vimrc文件,以及其中的配置
cat ~/.vimrc
set fileencodings=utf-8,gb2312,gbk,cp936,big5,ucs-bom
set encoding=utf-8
set termencoding=utf-8
set fileencoding=utf-8
4.继续确认系统编码
cat /etc/sysconfig/i18n
LANG="en_US.UTF-8:zh_CN.gbk:zh_CN.UTF-8"
SUPPORTED="zh_CN. ...
在linux上安装配置samba服务器
http://publish.it168.com/2007/0629/20070629156203.shtml
启动samba服务 //redHat
[root@linux samba]# service smb start (启动samba服务)
Starting SMB services: [ OK ]
Starting NMB services: [ OK ]
[root@linux samba]# testparm (检查配置文件的正确性)
Load smb config files from /etc/sam ...
信息: The APR based Apache Tomcat Native library which allows optimal performance in production environments was not found on the java.library.path: C:\Program Files\Java\jdk1.6.0_06\bin;D:\Apache Software Foundation\Apache Tomcat 6.0.18\bin
2009-7-13 12:25:51 org.apache.coyote.http11.Http11Protocol i ...
出现以上错误,是由于工程下面的.classpath文件中执行的路径,Myeclipse找不到所致,注意不要直接导入别人的工程,可以自己新建一个工程,然后将相关的包类拷贝过来就可以了
com.mysql.jdbc.CommunicationsException: Communications link failure due to under
lying exception:
** BEGIN NESTED EXCEPTION **
java.io.EOFException
STACKTRACE:
java.io.EOFException
at com.mysql.jdbc.MysqlIO.readFully(MysqlIO.java:1913)
at com.mysql.jdbc.MysqlIO.reuseAndReadPacket( ...
本篇主要讲述IO相关的内容,主要包括:与IO相关的简单的历史背景知识;Java IO的简单分类;与IO设计相关的两个模式;同时列举几个简单的例子;分析其中几个实现的源代码;最后给大家一些简单扩展的例子。治学先治史,下 ...
http://www.iteye.com/topic/364016?page=5
ak478288:
简单用户表 tb_user:
userid , username
用户详细信息表 tb_userinfo
userid , email , homepage , phone , address
把用户信息分开的目的就是保证经常查询的数据在一张表,其它信息放到另一张表
论坛主题表 tb_bbs
bbsid , userid , title , ip , repleycount , replyuserid , createtime , lastreplytime
论坛内容标 ...
一,先说一下为什么要分表
当一张的数据达到几百万时,你查询一次所花的时间会变多,如果有联合查询的话,我想有可能会死在那儿了。分表的目的就在于此,减小数据库的负担,缩短查询时间。
根据个人经验,mysql执行一 ...
转载于http://blog.sina.com.cn/s/blog_438308750100im0b.htmlyubaojian0616@163.com 于堡舰
我原来的公司是一家网络游戏公司,其中网站交易与游戏数据库结合通过ws实现的,但是交易记录存放在网站上,级别是千万级别的数据库是mysql数据库.
可能 ...
你是否已经对每次从Map中取得关键字然后再取得相应的值感觉厌倦?使用Map.Entry类,你可以得到在同一时间得到所有的信息。标准的Map访问方法如下:
Set keys = map.keySet( );
if(keys != null) {
Iterator iterator = keys.iterator( );
while(iterator.hasNext( )) {
Object key = iterator.next( );
Object value = map.get(key);
;....
;}
}
然后,这个方法有一个问题。从Map中取得关键字之后,我们必须每次重复返回到 ...
线性表,链表,哈希表是常用的数据结构,在进行Java开发时,JDK已经为我们提供了一系列相应的类来实现基本的数据结构。这些类均在java.util包中。本文试图通过简单的描述,向读者阐述各个类的作用以及如何正确使用这些类。 ...