hive优化

博客分类：

hive

http://shiyanjun.cn/archives/588.html http://www.cnblogs.com/xd502djj/p/3799432.html https://www.2cto.com/net/201708/668075.html http://dacoolbaby.iteye.com/blog/1879002 基本原则：

2017-10-17 11:05
浏览 557
评论(0)
分类:互联网

1. What is a logical data mapping and what does it mean to the ETL team? 什么是逻辑数据映射？它对ETL项目组的作用是什么？答：逻辑数据映射（Logical Data Map）用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档，通常以表格或Excel的格式保存如下的信息：目标表名：目标列名：目标表类型：注明是事实表、维度表或支架维度表。 SCD类型：对于维度表而言。

2016-09-29 14:36
浏览 432
评论(0)
分类:数据库

Hadoop 统计一个目录的文件大小

博客分类：

hive

Hadoop 统计一个目录的文件大小 hive的查询注意事项以及优化总结 . http://www.cnblogs.com/xd502djj/p/3799432.html Hadoop Hive基础sql语法 http://www.cnblogs.com/HondaHsu/p/4346354.html

2016-02-03 13:38
浏览 1735
评论(0)
分类:数据库

hive优化之-控制hive任务中的map数和reduce数

博客分类：

hive

1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块（6个128m的块和1个12m的块），从而产生7个map数b) 假设input目录下有3个文件a,b,c,大小分别为10m，20m，130m，那么hadoop会分隔成4个块（10m,20m,12 ...

2016-02-01 15:55
浏览 792
评论(0)
分类:数据库

数据库设计

博客分类：

数据库设计

数据库设计

题目：一个简单的论坛系统，以数据库储存如下数据：用户名，email，主页，电话，联系地址，发帖标题，发帖内容，回复标题，回复内容。每天论坛访问量300万左右，更新帖子10万左右。请给出数据库表结构设计，并结合范 ...

2015-08-26 14:08
浏览 587
评论(0)
分类:数据库

处理Excel，填充空白区域

博客分类：

excel

在企业应用开发中经常是业务人员提供Excel的数据源，而开发人员将Excel数据导入到数据库中，然后在数据库中进行处理。在Excel中为了表示一种层次和所属关系，很多时候会产生很多空白的单元格。比如一个CRM数据，里面有销售团队、销售员和客户数据，销售员属于某个销售团队，客户属于某个具体的销售，于是业务人员会提供这样的数据：销售团队销售员客户 G1 S1 C1

2015-06-12 09:26
浏览 639
评论(0)
分类:行业应用

from insert select where

博客分类：

hive

from dim.dim_wms_store a insert overwrite table test_20150609 select * where store_id=2 insert overwrite table test_201506092 select * where store_id=5 -------------------------------------------------- FROM ( FROM ( SELECT id fact_chuku_id, IF ( export_type = '6', concat('C ...

2015-06-09 17:47
浏览 1093
评论(0)
分类:数据库

各仓仓容

博客分类：

wms

1、库存数据取自WMS系统,数据已剔除三级分类：京东服务、购机送费、远程服务、游戏软件、京东贺卡、教育软件、礼盒礼券、礼品卡券、京东礼券、合约虚拟商品、大闸蟹、京东卡、上门服务、杀毒软件、运营商周边、选号入网、4G网络、“0”元购机、办套餐 2、仓容使用率<100%,亮绿灯；100<=仓容使用率<=130%,亮黄灯；仓容使用率>130%,亮红灯； 3、中小件库房实用面积=财务坪效所用面积； 4、大家电库房使用面积=存储区面积（含储位和拣通道）-月台收货区面积

2015-06-05 09:31
浏览 634
评论(0)
分类:行业应用

仓储订单生产节点监控

博客分类：

wms

2015-06-05 09:28
浏览 592
评论(0)
分类:行业应用

hive建表

博客分类：

hive

DROP TABLE IF EXISTS app_wms_data_clean_bs_pack; CREATE EXTERNAL TABLE app_wms_data_clean_bs_pack( stat_date string comment '统计日期', GOODS_NO string COMMENT 'sku', PACKCODE string COMMENT '包装', PACK_NAME string COMMENT '名称', ...

2015-05-07 09:55
浏览 911
评论(0)
分类:数据库

百度地图坐标获取

博客分类：

web

百度地图坐标获取

http://blog.sina.com.cn/s/blog_4ffbe80f01018w5o.html google：打开google地图-->查找目的地-->右键：此位置居中-->地址栏键入javascript:void(prompt('',gApplication.getMap().getCenter()));回车如果上述方法没有显示、报错‘ prompt is not defined’或其他不能够，尝试以下方法firefox打开google地图-->查找目的地-->右键：此位置居中-->打开FIREBUG -> 控制台 -> 点 ...

2015-04-02 13:09
浏览 955
评论(0)
分类:Web前端

hive分享

博客分类：

hive

hive笔记

开发常用日期处理函数 No.1 sysdate(int) 语法：sysdate(整数数字) 返回值：string类型的日期说明：返回系统当前日期加上括号中的整数数字对应的日期，如sysdate(-1)返回昨天的日期‘2015-01-27’，sysdate(0)返回今天‘2015-01-28’，sysdate(1)返回明天‘2015-01-29’，以此类推。举例：输入：Select sysdate(-1) from tablename limit 1; 返回：2015-01-27 输入：Select sysdate(0) from tablename limit 1; ...

2015-01-30 14:29
浏览 3186
评论(0)
分类:数据库

hive 表连接

博客分类：

hive

http://shiyanjun.cn/archives/588.html 生成一个MR Job 多表连接，如果多个表中每个表都使用同一个列进行连接（出现在JOIN子句中），则只会生成一个MR Job，例如：

2015-01-27 14:38
浏览 1215
评论(0)
分类:Web前端

订单打印日志

博客分类：

hadoop

hadoop

任务ID：153513开始执行，执行命令：workspace/ods_etl/fdm_chat_analysis_order_new_chain.py 2015-01-22 03:37:57 INFO hive -e "use fdm;use fdm; set hive.ppd.remove.duplicatefilters=false; set mapred.job.priority=NORMAL; set mapred.output.compress=true; set hive.exec.compress.output=true; set mapred.output.compre ...

2015-01-27 10:09
浏览 945
评论(0)
分类:互联网

数据 140g, 按照字段time 降序排列选出最大的前50个

博客分类：

hive

hive

数据 140g, 按照字段time 降序排列选出最大的前50个。使用一般方法 select * from table order by time desc limit 50. 执行了1小时6分钟完全算出。任务数1个 map数 1783 reduce 1 而 select * from (select * from table distribute by time sort by time desc limit 50 ) t order by time desc limit 50; 需要5分钟算出。结果一致。任务数2个分别是：

2015-01-26 14:00
浏览 994
评论(0)
分类:数据库

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive优化

ETL

Hadoop 统计一个目录的文件大小

hive优化之-控制hive任务中的map数和reduce数

数据库设计

处理Excel，填充空白区域

from insert select where

各仓仓容

仓储订单生产节点监控

hive建表

百度地图坐标获取

hive分享

hive 表连接

订单打印日志

数据 140g, 按照字段time 降序排列选出最大的前50个

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>