hive海量数据--统计一年网站各个产品的UV

博客分类：

hive

在做年终报表需要统计公司网站各个产品一年总的UV，抽出id，product到表year2012，数据条数大概为5千多亿条，由于数据量太大。 1 . select count(distinct id) as uv,product from year2012 where log_date>='2012-01-01' and log_date<='2012-12-31' group by product; 第一种方案显然不可取。 2. select count(1) as uv,product from (select id,product,sum(1) as c ...

2013-02-06 11:00
浏览 5262
评论(1)
分类:开源软件

mysql 导出导入数据实战

博客分类：

Mysql

1.导出数据： mysql -h****** -uacorn -p***** -Dscrat -e " select * from table " > ******.txt 2.导入数据 mysql -h****** -uacorn -p***** -Dscrat -e "load data local infile '/home/acorn/acorn/forum_member.txt' into table acorn_forum_biz"; 从客户端导入数据必须是 load data local i ...

2012-12-19 18:30
浏览 831
评论(0)
分类:数据库

hive 仓库中已存在分区，导入数据报错

博客分类：

hive

1.查看数据仓库中数据已存在 hadoop fs -ls /warehouse/photo_action_dap/log_date=2012-12-15 2.查看mysql数据库，分区表中没有2012-12-15分区信息 3.元数据库中没有分区数据，导致导入错误；解决办法： 1.手动将分区信息添加到数据库中 2.执行 hadoop fs -rmr /warehouse/photo_action_dap/log_date=2012-12-15 然后重新向photo_action_dap表中导入数据建议采用方法2；

2012-12-17 13:03
浏览 2703
评论(0)
分类:开源软件

hive 数据倾斜问题

博客分类：

hive

hive 数据倾斜海量数据

由于同事将未登录网站的相关信息导入到日常访问信息表中，之前的数据总量为7亿，现在13亿，数据差不多扩了一倍，所以在统计独立IP、UV、PV、独立cookie数，出现数据倾斜，reduce 进度99%时就被卡住了，因为未登录用户的用户ID为0，这样导致所有用户ID为0的数据都分到了一个reduce上，6亿的数据。目前简单的解决方法：关联查询的sql： insert overwrite local directory '$HIVE_RESULT' select sum(case when d.pv_flag=1 then 1 else 0 end) a ...

2012-12-17 09:59
浏览 3373
评论(0)
分类:开源软件

centos系统中脚本文件中中文乱码

博客分类：

linux

1.确认系统中的LANG=zh_CN.UTF-8 2.确认服务器用户目录下是否有.vimrc文件，以及其中的配置 cat ~/.vimrc set fileencodings=utf-8,gb2312,gbk,cp936,big5,ucs-bom set encoding=utf-8 set termencoding=utf-8 set fileencoding=utf-8 4.继续确认系统编码 cat /etc/sysconfig/i18n LANG="en_US.UTF-8:zh_CN.gbk:zh_CN.UTF-8" SUPPORTED="zh_CN. ...

2012-08-20 10:41
浏览 1255
评论(0)
分类:操作系统

在linux上配置samba

博客分类：

linux

Linux Ubuntu Windows RedHat Security

在linux上安装配置samba服务器 http://publish.it168.com/2007/0629/20070629156203.shtml 启动samba服务 //redHat [root@linux samba]# service smb start （启动samba服务） Starting SMB services: [ OK ] Starting NMB services: [ OK ] [root@linux samba]# testparm （检查配置文件的正确性） Load smb config files from /etc/sam ...

2011-04-13 11:19
浏览 2106
评论(0)
分类:操作系统

java.lang.NoSuchMethodError: org.springframework.util.ReflectionUtils.makeAccess

博客分类：

综合技术

Java Apache Spring log4j Tomcat

信息: The APR based Apache Tomcat Native library which allows optimal performance in production environments was not found on the java.library.path: C:\Program Files\Java\jdk1.6.0_06\bin;D:\Apache Software Foundation\Apache Tomcat 6.0.18\bin 2009-7-13 12:25:51 org.apache.coyote.http11.Http11Protocol i ...

2011-04-09 16:14
浏览 2489
评论(0)
分类:编程语言

Myeclipse中的工作出现错误，但是工程里面的类没有错误

博客分类：

综合技术

Myeclipse 工作

出现以上错误，是由于工程下面的.classpath文件中执行的路径，Myeclipse找不到所致，注意不要直接导入别人的工程，可以自己新建一个工程，然后将相关的包类拷贝过来就可以了

2011-01-11 11:24
浏览 1135
评论(0)
分类:编程语言

Mysql不能连接

博客分类：

JAVA

MySQL Java JDBC 防火墙 thread

com.mysql.jdbc.CommunicationsException: Communications link failure due to under lying exception: ** BEGIN NESTED EXCEPTION ** java.io.EOFException STACKTRACE: java.io.EOFException at com.mysql.jdbc.MysqlIO.readFully(MysqlIO.java:1913) at com.mysql.jdbc.MysqlIO.reuseAndReadPacket( ...

2011-01-11 11:07
浏览 1116
评论(0)
分类:数据库

Java IO

博客分类：

JAVA

Java 设计模式多线程数据结构 JMS

本篇主要讲述IO相关的内容，主要包括：与IO相关的简单的历史背景知识；Java IO的简单分类；与IO设计相关的两个模式；同时列举几个简单的例子；分析其中几个实现的源代码；最后给大家一些简单扩展的例子。治学先治史，下� ...

2011-01-04 12:08
浏览 2303
评论(1)
分类:编程语言

大型论坛数据库设计

博客分类：

数据库

BBS Hibernate SQL 算法 .net

http://www.iteye.com/topic/364016?page=5 ak478288: 简单用户表 tb_user: userid , username 用户详细信息表 tb_userinfo userid , email , homepage , phone , address 把用户信息分开的目的就是保证经常查询的数据在一张表，其它信息放到另一张表论坛主题表 tb_bbs bbsid , userid , title , ip , repleycount , replyuserid , createtime , lastreplytime 论坛内容标 ...

2010-12-15 11:11
浏览 1766
评论(0)
分类:数据库

mysql分表的3种方法

博客分类：

数据库

MySQL SQL PHP 算法 Linux

一，先说一下为什么要分表当一张的数据达到几百万时，你查询一次所花的时间会变多，如果有联合查询的话，我想有可能会死在那儿了。分表的目的就在于此，减小数据库的负担，缩短查询时间。根据个人经验，mysql执行一� ...

2010-12-15 10:52
浏览 1093
评论(0)
分类:数据库

mysql数据库千万级别数据的查询优化和分页测试

博客分类：

数据库

MySQL 数据结构 Solr lucene 游戏

转载于http://blog.sina.com.cn/s/blog_438308750100im0b.htmlyubaojian0616@163.com 于堡舰我原来的公司是一家网络游戏公司,其中网站交易与游戏数据库结合通过ws实现的,但是交易记录存放在网站上,级别是千万级别的数据库是mysql数据库. 可能� ...

2010-12-15 10:19
浏览 1351
评论(0)
分类:数据库

[J2SE]Map.Entry 类使用简介(转)

博客分类：

JAVA

J2SE

你是否已经对每次从Map中取得关键字然后再取得相应的值感觉厌倦？使用Map.Entry类，你可以得到在同一时间得到所有的信息。标准的Map访问方法如下： Set keys = map.keySet( ); if(keys != null) { Iterator iterator = keys.iterator( ); while(iterator.hasNext( )) { Object key = iterator.next( ); Object value = map.get(key); ;.... ;} } 然后，这个方法有一个问题。从Map中取得关键字之后，我们必须每次重复返回到 ...

2010-12-10 09:30
浏览 893
评论(0)
分类:编程语言

比较分析Vector,Arraylist,Hashtable,HashMap数据结构

博客分类：

JAVA

数据结构框架编程算法 JDK

线性表，链表，哈希表是常用的数据结构，在进行Java开发时，JDK已经为我们提供了一系列相应的类来实现基本的数据结构。这些类均在java.util包中。本文试图通过简单的描述，向读者阐述各个类的作用以及如何正确使用这些类。 ...

2010-12-09 09:15
浏览 889
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive海量数据--统计一年网站各个产品的UV

mysql 导出导入数据实战

hive 仓库中已存在分区，导入数据报错

hive 数据倾斜问题

centos系统中脚本文件中中文乱码

在linux上配置samba

java.lang.NoSuchMethodError: org.springframework.util.ReflectionUtils.makeAccess

Myeclipse中的工作出现错误，但是工程里面的类没有错误

Mysql不能连接

Java IO

大型论坛数据库设计

mysql分表的3种方法

mysql数据库千万级别数据的查询优化和分页测试

[J2SE]Map.Entry 类使用简介(转)

比较分析Vector,Arraylist,Hashtable,HashMap数据结构

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>