[置顶] birt一点一滴系列文章

博客分类：

BIRT
BI

birt一点一滴系列文章本人从认识birt到使用birt开发统计报表遇到了很多问题。为了让以后的使用birt开发的小伙伴少走弯路。特意收集汇总一下：嘎嘎。有时间会继续不断添加的。 birt一点一滴系列之用jndi方式配置t数据源 birt一点一滴系列之根据选择的指标实现不同统计图表切换 birt一点一滴系列之图表以URL方式交互 birt一点一滴系列之级联参数创建 birt一点一滴系列之给选择参数添加全选项 birt一点一滴系列之birt调试方法 birt一点一滴系列之birt中获取项目相对路径 birt一点一滴系列之读取数据库配置文件 birt一点一滴系 ...

2015-05-25 17:49
浏览 591
评论(1)
分类:开源软件

浅析 Hadoop 中的数据倾斜

博客分类：

HADOOP

hadoop 数据倾斜

在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大，但是集群中可能硬件不同，应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间，硬件不同就不说了，应用的类型不同其中就比如page rank 或者data mining 里面一些计算，它的每条记录消耗的成本不太一样，这里只讨论关于关系型运算的（一般能用SQL表述的) 数据切分上的数据倾斜问题. hadoop 中数据倾斜会极大影响性能的一个背景是mapreduce 框架中总是不分条件的进行sort . 在通用情况下map sort + partition +red ...

2015-06-26 16:31
浏览 1271
评论(0)
分类:开源软件

HDFS原理分析

博客分类：

HADOOP

hdfs hadoop

HDFS是Hadoop Distribute File System 的简称，也就是Hadoop的一个分布式文件系统。一、HDFS的主要设计理念 1、存储超大文件这里的“超大文件”是指几百MB、GB甚至TB级别的文件。 2、最高效的访问模式是一次写入、多次读取(流式数据访问) HDFS存储的数据集作为hadoop的分析对象。在数据集生成后，长时间在此数据集上进行各种分析。每次分析都将设计该数据集的大部分数据甚至全部数据，因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。 3、运行在普通廉价的服务器上 HDFS设计理念之一就是让它能运

2015-06-26 15:39
浏览 485
评论(0)
分类:开源软件

Python如何进行中文注释

博客分类：

python

很简单在python脚本中添加：#coding:utf-8 #hello.py #coding:utf-8 #支持中文注释 print 'hello world'

2015-06-24 10:31
浏览 1098
评论(0)
分类:编程语言

MapReduce初级案例详细

博客分类：

HADOOP

1、数据去重　　 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。 1.1 实例描述

2015-06-15 16:56
浏览 918
评论(0)
分类:开源软件

（读书笔记）Hive一点一滴系列之数据类型和文件格式

博客分类：

hive
BI
HADOOP

一、基本数据类型类型长度 tinyint 1b smalint 2b int 4b bigint 8b Boolean 布尔 float 单精度浮点数 double 双精度浮点数 string 字符序列 timestamp 整数，浮点数和字符串（UTC） binary 字节数组注意：hive不支持“字符数组”。优化考虑因为定长的记录更容易进行建立索引，数据扫描。 hive 根据不同字段间的分隔符来 ...

2015-06-04 19:00
浏览 827
评论(0)
分类:开源软件

Hive一点一滴系列之Eclipse调用hive执行操作

博客分类：

HADOOP
hive

1、在hive 中启动hive服务，端口为10002. hive --service hiveserver -p 10002 2、调用代码 package com.hrj.jdbc; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; /** * nohup hive --service hiveserver -p 1 ...

2015-06-04 09:50
浏览 1186
评论(0)
分类:编程语言

linux在shell中获取时间

博客分类：

shell

获得当天的日期 date +%Y-%m-%d 输出： 2011-07-28 将当前日期赋值给DATE变量DATE=$(date +%Y%m%d) 有时候我们需要使用今天之前或者往后的日期，这时可以使用date的 -d参数获取明天的日期 date -d next-day +%Y%m%d 获取昨天的日期 date -d last-day +%Y%m%d

2015-06-04 09:28
浏览 658
评论(0)
分类:编程语言

Flume NG 简介及配置实战

博客分类：

Flume
HADOOP

(转)http://my.oschina.net/leejun2005/blog/288136 Flume 作为 cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后一个发行版本 0.94.0 中，日志传输不稳定的现象尤为严重，为了解决这些问题，2011 年 10 月 22 号，cloudera 完 ...

2015-05-29 17:07
浏览 948
评论(0)
分类:开源软件

shell调用awk(转)

博客分类：

shell

1.命令行方式 awk [-F field-separator] 'commands' input-file(s) 其中，commands 是真正awk命令，[-F域分隔符]是可选的。 input-file(s) 是待处理的文件。在awk中，文件的每一行中，由域分隔符分开的每一项称为一个域。通常，在不指名-F域分隔符的情况下，默认的域分隔符是空格。 2.shell脚本方式将所有的awk命令插入一个文件，并使awk程序可执行，然后awk命令解释器作为脚本的首行，一遍通过键入脚本名称来调用。相当于shell脚本首行的：#!/bin/sh 可以换成：#!/bin/aw ...

2015-05-29 15:59
浏览 1047
评论(0)
分类:编程语言

linux shell if 参数的使用

shell 编程中使用到得if语句内判断参数　　–b 当file存在并且是块文件时返回真　　-c 当file存在并且是字符文件时返回真　　-d 当pathname存在并且是一个目录时返回真　　-e 当pathname指定的文件或目录存在时返回真　　-f 当file存在并且是正规文件时返回真　　-g 当由pathname指定的文件或目录存在并且设置了SGID位时返回为真　　-h 当file存在并且是符号链接文件时返回真，该选项在一些老系统上无效　　-k 当由pathname指定的文件或目录存在并且设置了“粘滞”位时返回真

2015-05-29 14:57
浏览 509
评论(0)
分类:编程语言

sqoop一点一滴之数据导出命令

博客分类：

BI
sqoop

sqoop export –connect jdbc:mysql://192.168.102.103/test –username root –password root–table test –export-dir /user/hive/warehouse/actmp –input-fields-terminated-by '\001' –input-null-string '\\N' –input-null-non-string '\\N' export 数据导出命令 --connect 数据库连接 --username 用户名 --password 用户密码 ...

2015-05-28 17:36
浏览 838
评论(0)
分类:开源软件

sqoop一点一滴之导数据从mysql2hive

博客分类：

HADOOP
sqoop
hive

1、使用sqoop在hive中创建table test sqoop create-hive-table --connect jdbc:mysql://192.168.100.65:3301/crm --table d_accounttype --username crm --password crm --hive-table d_accounttype 2、编写mysql 导入opt 文件 import --connect jdbc:mysql://192.168.100.65:3301/crm --username crm --password c ...

2015-05-27 17:22
浏览 1079
评论(0)
分类:开源软件

birt一点一滴系列之数据导出excel单sheet页设置

博客分类：

BI
BIRT

birt sheet

在URL中添加参数“__ExcelEmitter.SingleSheet” if(format == "xls") { action = action + " &__emitterid=uk.co.spudsoft.birt.emitters.excel.XlsEmitter&__ExcelEmitter.DisplayRowColHeadings=true&__ExcelEmitter.SingleSheet=true"; }

2015-05-26 15:46
浏览 1889
评论(0)
分类:开源软件

birt一点一滴系列之用jndi方式配置t数据源

博客分类：

BI
BIRT

birt

1、在tomcat目录\conf\context.xml文件中加入配置 <?xml version="1.0" encoding="UTF-8"?> <Context> <Resource auth="Container" name="jdbc/testDB" type="javax.sql.DataSource" maxActive="20" maxIdle= ...

2015-05-25 09:11
浏览 975
评论(0)
分类:开源软件

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

[置顶] birt一点一滴系列文章

浅析 Hadoop 中的数据倾斜

HDFS原理分析

Python如何进行中文注释

MapReduce初级案例详细

（读书笔记）Hive一点一滴系列之数据类型和文件格式

Hive一点一滴系列之Eclipse调用hive执行操作

linux在shell中获取时间

Flume NG 简介及配置实战

shell调用awk(转)

linux shell if 参数的使用

sqoop一点一滴之数据导出命令

sqoop一点一滴之导数据从mysql2hive

birt一点一滴系列之数据导出excel单sheet页设置

birt一点一滴系列之用jndi方式配置t数据源

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>