- 浏览: 23344 次
- 性别:
- 来自: 北京
最新评论
文章列表
birt一点一滴系列文章
本人从认识birt到使用birt开发统计报表遇到了很多问题。为了让以后的使用birt开发的小伙伴少走弯路。特意收集汇总一下:嘎嘎。有时间会继续不断添加的。
birt一点一滴系列之用jndi方式配置t数据源
birt一点一滴系列之根据选择的指标实现不同统计图表切换
birt一点一滴系列之图表以URL方式交互
birt一点一滴系列之级联参数创建
birt一点一滴系列之给选择参数添加全选项
birt一点一滴系列之birt调试方法
birt一点一滴系列之birt中获取项目相对路径
birt一点一滴系列之读取数据库配置文件
birt一点一滴系 ...
在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记录消耗的成本不太一样,这里只讨论关于关系型运算的(一般能用SQL表述的) 数据切分上的数据倾斜问题.
hadoop 中数据倾斜会极大影响性能的一个背景是mapreduce 框架中总是不分条件的进行sort . 在通用情况下map sort + partition +red ...
HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。
一、HDFS的主要设计理念
1、存储超大文件
这里的“超大文件”是指几百MB、GB甚至TB级别的文件。
2、最高效的访问模式是 一次写入、多次读取(流式数据访问)
HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析。每次分析都将设计该数据集的大部分数据甚至全部数据,因此读取整个数据集的时间延迟比读取第一条记录的时间延迟更重要。
3、运行在普通廉价的服务器上
HDFS设计理念之一就是让它能运
Python如何进行中文注释
- 博客分类:
- python
很简单在python脚本中添加:#coding:utf-8
#hello.py
#coding:utf-8
#支持中文注释
print 'hello world'
MapReduce初级案例详细
- 博客分类:
- HADOOP
1、数据去重
"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。
1.1 实例描述
一、基本数据类型
类型 长度
tinyint 1b
smalint 2b
int 4b
bigint 8b
Boolean 布尔
float 单精度浮点数
double 双精度浮点数
string 字符序列
timestamp 整数,浮点数和字符串 (UTC)
binary 字节数组
注意:hive不支持“字符数组”。优化考虑因为定长的记录更容易进行建立索引,数据扫描。
hive 根据不同字段间的分隔符来 ...
1、在hive 中启动hive服务,端口为10002.
hive --service hiveserver -p 10002
2、调用代码
package com.hrj.jdbc;
import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
/**
* nohup hive --service hiveserver -p 1 ...
linux在shell中获取时间
- 博客分类:
- shell
获得当天的日期
date +%Y-%m-%d
输出: 2011-07-28
将当前日期赋值给DATE变量DATE=$(date +%Y%m%d)
有时候我们需要使用今天之前或者往后的日期,这时可以使用date的 -d参数
获取明天的日期
date -d next-day +%Y%m%d
获取昨天的日期
date -d last-day +%Y%m%d
(转)http://my.oschina.net/leejun2005/blog/288136
Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版本 0.94.0 中,日志传输不稳定的现象尤为严重,为了解决这些问题,2011 年 10 月 22 号,cloudera 完 ...
shell调用awk(转)
- 博客分类:
- shell
1.命令行方式
awk [-F field-separator] 'commands' input-file(s)
其中,commands 是真正awk命令,[-F域分隔符]是可选的。 input-file(s) 是待处理的文件。
在awk中,文件的每一行中,由域分隔符分开的每一项称为一个域。通常,在不指名-F域分隔符的情况下,默认的域分隔符是空格。
2.shell脚本方式
将所有的awk命令插入一个文件,并使awk程序可执行,然后awk命令解释器作为脚本的首行,一遍通过键入脚本名称来调用。
相当于shell脚本首行的:#!/bin/sh
可以换成:#!/bin/aw ...
shell 编程中使用到得if语句内判断参数
–b 当file存在并且是块文件时返回真
-c 当file存在并且是字符文件时返回真
-d 当pathname存在并且是一个目录时返回真
-e 当pathname指定的文件或目录存在时返回真
-f 当file存在并且是正规文件时返回真
-g 当由pathname指定的文件或目录存在并且设置了SGID位时返回为真
-h 当file存在并且是符号链接文件时返回真,该选项在一些老系统上无效
-k 当由pathname指定的文件或目录存在并且设置了“粘滞”位时返回真
sqoop export –connect jdbc:mysql://192.168.102.103/test –username root –password root–table test –export-dir /user/hive/warehouse/actmp –input-fields-terminated-by '\001' –input-null-string '\\N' –input-null-non-string '\\N'
export 数据导出命令
--connect 数据库连接
--username 用户名
--password 用户密码 ...
1、使用sqoop在hive中创建table test
sqoop create-hive-table --connect jdbc:mysql://192.168.100.65:3301/crm --table d_accounttype --username crm --password crm --hive-table d_accounttype
2、编写mysql 导入opt 文件
import
--connect
jdbc:mysql://192.168.100.65:3301/crm
--username
crm
--password
c ...
在URL中添加参数“__ExcelEmitter.SingleSheet”
if(format == "xls")
{
action = action + " &__emitterid=uk.co.spudsoft.birt.emitters.excel.XlsEmitter&__ExcelEmitter.DisplayRowColHeadings=true&__ExcelEmitter.SingleSheet=true";
}
1、在tomcat目录\conf\context.xml文件中加入配置
<?xml version="1.0" encoding="UTF-8"?>
<Context>
<Resource
auth="Container"
name="jdbc/testDB"
type="javax.sql.DataSource"
maxActive="20"
maxIdle= ...