- 浏览: 25249 次
- 性别:
- 来自: 深圳
最新评论
文章列表
转载:http://blog.csdn.net/shukebai/article/details/60955497
随着互联网信息技术的飞速发展,数据量不断增大,业务逻辑也日趋复杂,对系统的高并发访问、海量数据处理的场景也越来越多。如何用较低成本实现系统的高可用、易伸缩、可 ...
转载:http://www.importnew.com/25189.html
概述
canal是阿里巴巴旗下的一款开源项目,纯Java开发。基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了MySQL(也支持mariaDB)。
起源:早期,阿里巴巴B2B公司因为存在杭州和美国双机房部署,存在跨机房同步的业务需求。不过早期的数据库同步业务,主要是基于trigger的方式获取增量变更,不过从2010年开始,阿里系公司开始逐步的尝试基于数据库的日志解析,获取增量变更进行同步,由此衍生出了增量订阅&消费的业务,从此开启了一段新纪元。
基于日志增量订阅&消费支持的业 ...
1.将jmbi sql先上生产环境, 参考附件jmbi.sql
2.kettle安装部署
选好目标机器,装好jdk1.8 然后登录测试环境192.168.1.142,复制kettle安装文件,job,shell脚本
scp -r /d1/usr/kettle root@目标IP:/d1/usr/kettle
scp -r /root/.kettle root@目标IP:/root/.kettle
scp -r /root/.pentaho root@目标IP:/root/.pentaho
修改.kettle文件夹下的kettle.properties配置为生产环境DB连接,hdfs
修改ke ...
设置了定时任务,但MR任务没有执行。
第一步:手动执行shell脚本, 如果有问题,检查相关设置,如source /etc/profile, 绝对路径之类 这里不是重点, 手动可以执行成功
第二步: 检查shell脚本文件格式, 设置测试输出,确保crontab任务调度没有问题, 测试hymtest.sh
#!/bin/bash
DATE=$(date +%Y%m%d:%H:%M:%S)
echo $DATE + "every minute test">>/bigdata/shell/hymoutput.txt
echo 导入每天指数涨跌排行数据 {存到:hb ...
一,flume配置
# Name the components on this agent
a1.sources = tailsource-1
a1.sinks = remotesink
a1.channels = memoryChnanel-1
# Describe/configure the source
a1.sources.tailsource-1.type = exec
a1.sources.tailsource-1.command = tail -F /var/log/test/raw_data.txt
a1.sources.tailsource-1.cha ...
一.准备flume配置
a1.sources = r1
a1.sinks = k1
a1.channels = c1
a1.sources.r1.type = spooldir
a1.sources.r1.channels = c1
a1.sources.r1.spoolDir = /var/log/test
a1.sources.r1.fileHeader = true
a1.channels.c1.type = memory
a1.channels.c1.capacity = 10000
a1.channels.c1.transactionCapacity = 10000
a1.ch ...
导出步骤:在old cluster上/opt/cloudera/parcels/CDH/lib/hbase/bin
执行:./hbase org.apache.hadoop.hbase.mapreduce.Export my_user hdfs://new cluster ip:8020/test/my_user
例如:./hbase org.apache.hadoop.hbase.mapreduce.Export my_user hdfs://172.18.203.111:8020/test/my_user
导入步骤:在new cluster上/opt/cloudera/parcels/ ...
一句话介绍Zeppelin
以笔记(Note)的形式展示的数据可视化工具。
一.下载安装启动
http://zeppelin.apache.org/download.html
wget http://mirrors.tuna.tsinghua.edu.cn/apache/zeppelin/zeppelin-0.7.3/zeppelin-0.7.3-bin-all.tgz
tar -zvxf zeppelin-0.7.3-bin-all.tgz -C /opt
bin/zeppelin-daemon.sh start
二.配置Interpreters
连接 hive
default.dri ...
一.下载
https://github.com/azkaban/azkaban
git clone https://github.com/azkaban/azkaban.git
或wget azkaban.version url
二.编译
o build Azkaban packages from source, run:
./gradlew distTar
The above command builds all Azkaban packages and packages them into GZipped Tar archives. To build Zip archives, run ...
1. Kylin的一些概念
No. 关键字 解释
1 Kylin 一款基于Hive的开源OLAP工具,我们可以设计Hive表的字段为维度和度量,通过Kylin来构建Cube,Kylin会将Cube结构存储在 HBase 之上,基于Cube我们可以做各种多维分析。
参考:https://mp.weixin.qq.com/s/kfFh7I_V5haghV6qUzHtag
2 Kylin核心思想 Kylin的核心思想是预计算,用空间换时间,即对多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube,供查询时直接访问。把高复杂度的聚合运算、多表连接等操作转换成对预计算结果的查询,这决定了Ky ...
为了实现各业务平台日志信息采集到大数据平台hdfs上。之前的定技术栈是 flume->kafka->storm->hdfs. 其中通过storm需要写代码,稳定性,可扩展性,维护性不好。
从kafka到hdfs,有专门的日志工具logstash可以解决这个问题. 目前已经在我们的开发环境稳定的运行了一个礼拜(http://192.168.23.31:50070/explorer.html#/data/logstash)。
现请部署到生产环境。
logstash安装配置如下:
1. logstash下载安装, 下载比较慢的话,可以传给你。
wget -c htt ...
package org.jumore.test;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.hbase.HBaseConfiguration;
import org.apache.hadoop.hbase.HColumnDescriptor;
import org.apache.hadoop.hbase.HTableDescriptor;
...
#!/bin/bash
# Program:
# uninstall ambari automatic
# History:
# 2014/01/13 - Ivan - 2862099249@qq.com - First release
PATH=/bin:/sbin:/usr/bin:/usr/sbin:/usr/local/bin:/usr/local/sbin:~/bin
export PATH
#取得集群的所有主机名,这里需要注意:/etc/hosts配置的IP和主机名只能用一个空格分割
hostList=$(cat /etc/hosts ...
1.修改集群各机器名称
vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=server01
2.修改hosts,机器名和IP地址映射
172.18.203.21 server01
172.18.203.22 server02
172.18.203.23 server03
172.18.203.24 server04
172.18.203.25 server05
3.集群中的每台主机上执行下面命令,一路回车,可生成本机的rsa类型的密钥
ssh-keygen -t rsa
4. 把自己的公钥拷贝到集群中的Master机
...
一.安装JDK环境:根据自己的linux系统选择相应的版本,比如我的centos7是x64的,所以我选择jdk-8u74-linux-x64.tar.gz下载
下载下来以后,我们将其移到我们创建的一个目录中,存放tar包的目录为/usr/local/src/jdk,然后解压:
tar -zxf /usr/local/src/jdk/jdk-7u65-linux-x64.tar.gz
编辑 vi /etc/profile 文件
在文件后面添加:
export JAVA_HOME=/usr/local/src/jdk/jdk1.8.0_74
export JRE_HOME=${JAVA_HOME}/ ...