【头脑风暴】产品流程图

博客分类：

头脑风暴

很久以前的博客，回归到官方博客来，欢迎大家拍砖我的感觉：作为天天和数据打交道的数据仓库工程师，接触数据多了，接触数据产品多了，多少对产品有了自己的小小体会，看到这个流程图挺有感触的。(自我感觉有 ...

2012-07-02 14:31
浏览 3360
评论(1)
分类:互联网

在互联网行业，文本数据远大于结构化的数据，海量的数据的文本处理也是迫在眉睫。字符串的字符操作>>> s='hello World! Everyone! This Is My First String!'>>> s #打印出s的内容'hello World! Everyone! This Is My First String!'>>> s.lower() #小写字符串s'hello world! everyone! this is my first string!'>>> s.upper() #大 ...

2012-07-02 14:27
浏览 6474
评论(0)
论坛回复 / 浏览 (0 / 2425)
分类:编程语言

PYTHON-文件输入输出学习

博客分类：

PYTHON

python 文件输入输出

文件字符流的输入输出对应的函数不太多，大概如下几个函数能满足大部分的需求 open() close() read() readline() readlines()

2012-07-02 14:25
浏览 2356
评论(0)
分类:编程语言

HIVE如何使用自定义函数

博客分类：

HIVE

hive udf 自定义函数

HIVE提供了很多函数，但这些函数只能满足一般的需求，针对复杂的业务分析，需要自己开发适合业务需求的函数。如何开发HIVE的UDF/UDAF/UDTF，请参看如下博客介绍的自定义函数的模板： http://hugh-wangp.iteye.com/blog/1472371 如何 ...

2012-06-28 19:44
浏览 2728
评论(0)
分类:开源软件

[陷阱]HIVE外部分区表一定要增加分区

博客分类：

HIVE

hadoop 外部表分区

刚开始玩HIVE外部表可能会遇到的小陷阱。只要我们牢记外部表也是一种表就可以，普通表有分区，外部表也是有分区的。所以如果是基于分区表创建的外部表一定要对外部表执行ALTER TABLE table_name ADD PARTITION。否则是根本访问不到数据的。例子应该会更直观：原始的表： hive> desc shaka_test_external; OK id bigint gender string(分区字段) 记录： hive> select * from shaka_test_externa ...

2012-06-27 16:43
浏览 13196
评论(0)
分类:开源软件

Hadoop查看目录空间使用情况

博客分类：

HADOOP

hadoop count hadoop fs -count

查看目录空间使用情况命令：hadoop fs -count [-q] <paths> 统计出目录数、文件数及指定路径下文件的大小，输出列为： DIR_COUNT, FILE_COUNT, CONTENT_SIZE FILE_NAME. 带上-q选项后的输出列为： QUOTA, REMAINING_QUOTA, SPACE_QUOTA, REMAINING_SPACE_QUOTA, DIR_COUNT, FILE_COUNT, CONTENT_SIZE, FILE_NAME. 查看指定目录下各子目录包含的目录数和文件数 awk 'BE ...

2012-06-26 18:42
浏览 14460
评论(0)
分类:开源软件

HIVE元数据

博客分类：

HIVE

Hive Metadata 元数据 Mysql

HIVE元数据表数据字典：表名说明 BUCKETING_COLS Hive表CLUSTERED BY字段信息(字段名，字段序号)

2012-06-20 12:52
浏览 13404
评论(1)
分类:开源软件

LINUX下单机安装HADOOP+HIVE手册

博客分类：

HIVE
HADOOP

hadoop hive linux

HADOOP篇 HADOOP安装 1.tar -zvxf hadoop-0.19.2.tar.gz 2.HADOOP的安装路径添加到环境文件/etc/profile中： export HADOOP_HOME=/home/hadoop/setup/hadoop-0.19.2 export PATH=$HADOOP_HOME/bin:$PATH HADOOP配置 1.在$HADOOP/conf/hadoop-env.sh中配置JAVA环境 export JAVA_HOME=/home/hadoop/setup/jdk1.7.0_04 2.在$HADOO ...

2012-05-31 15:59
浏览 2218
评论(0)
分类:开源软件

推测执行的不适应场景

博客分类：

HADOOP

hadoop map reduce speculative execution 推测执行

在HADOOP里，如果一个任务运行比预期的慢，就会尽快检测和启动另一个相同的任务作为备份来执行相同的工作，虽然它会降低执行慢的任务执行失败带来的损失，但也会消耗更多的资源，执行重复的工作。有利有弊，可以选择使用。自己写MR代码时就遇到了推测执行会产生错误的情况。当我使用MultipleOutputFormat来把不同数据写到不同目录里时就报错了，错误信息为： org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: faile ...

2012-05-25 16:13
浏览 2174
评论(0)
分类:开源软件

JAVA正则表达式--不包含指定字符串

博客分类：

JAVA

java 正则不包含字符串

功能需求： URL的字符串匹配，但又不能包含指定的字符串 URL为我的ITEYE空间：http://hugh-wangp.iteye.com/ 我想统计我ITEYE空间的流量，但是又不想知道微博(weibo)和收藏(link)的流量所有我要在匹配：http://hugh-wangp.iteye.com的同时，URL里又不能有weibo和link字符串功能实现： //待匹配的正则表达式 String reg= "^http://hugh-wangp\\.iteye\\.com/(?!.*((weibo)|(link))).*$"; ...

2012-05-24 14:57
浏览 9673
评论(0)
论坛回复 / 浏览 (0 / 2710)
分类:编程语言

何为大数据

博客分类：

数据仓库

数据规模数据结构数据关联性数据使用数据分析

1.数据规模这个是最基本的要求，数据规模不到一定级别，你就不好意思说你是大数据。但数据规模多大才算大，我给不出来一个通用的数字去界定大数据。虽然很多公司的数据量都会上P，但这个不能作为大数据的标准。自� ...

2012-05-19 22:36
浏览 1569
评论(0)
分类:数据库

选书、阅读模式--读《如何阅读一本书》后

博客分类：

行为模式

选书阅读模式

看过《如何阅读一本书》后惊觉自己潜移默化的阅读习惯完全可以用这本书所描述的规则所概括。虽然阅读习惯是有一定的规则，但其实以前从来也没有去关注和总结自己的阅读习惯和风格，或者说是适合自己的阅读模式。借此� ...

2012-05-05 19:32
浏览 1369
评论(0)
分类:非技术

小文件合并

博客分类：

HIVE

hadoop hive 文件参数效率

文件数目过多，增加namenode的压力，hdfs的压力，同时需要更多map进程，影响处理效率。可以通过配置如下几个参数，合并Map和Reduce的结果文件，消除这些影响。控制每个任务合并小文件后的文件大小(默认256000000)：hive.merge.size.per.task 告诉hadoop什么样的文件属于小文件(默认16000000)：hive.merge.smallfiles.avgsize 是否合并Map的输出文件(默认true)：hive.merge.mapfiles 是否合并Reduce的输出文件(默认false)：hive.merge.mapre ...

2012-05-03 13:07
浏览 3244
评论(0)
分类:开源软件

ETL过程的数据测试

博客分类：

数据仓库

数据仓库 ETL 数据测试数据研发

1.记录数对比在两种情况下必须要做如此的验证： a. 数据迁移这个场景主要是DW环境从一种迁移到另一种，比如RAC迁到HIVE之类的，记录数对比是首要的，迁移的数据量都不对，具体的数据内容对不对就不用考虑了。 ...

2012-04-15 17:47
浏览 1539
评论(0)
分类:数据库

HIVE UDF/UDAF/UDTF的Map Reduce代码框架模板

博客分类：

HIVE

HIVE UDF UDTF UDAF MAP REDUCE

自己写代码时候的利用到的模板 UDF步骤： 1.必须继承org.apache.hadoop.hive.ql.exec.UDF 2.必须实现evaluate函数，evaluate函数支持重载 package com.alibaba.hive.udf; import org.apache.hadoop.hive.ql.exec.UDF public class helloword extends UDF{ public String evaluate(){ return "hello world!" ...

2012-04-01 10:09
浏览 5953
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【头脑风暴】产品流程图

PYTHON-字符串处理函数

PYTHON-文件输入输出学习

HIVE如何使用自定义函数

[陷阱]HIVE外部分区表一定要增加分区

Hadoop查看目录空间使用情况

HIVE元数据

LINUX下单机安装HADOOP+HIVE手册

推测执行的不适应场景

JAVA正则表达式--不包含指定字符串

何为大数据

选书、阅读模式--读《如何阅读一本书》后

小文件合并

ETL过程的数据测试

HIVE UDF/UDAF/UDTF的Map Reduce代码框架模板

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>