- 浏览: 25253 次
- 性别:
- 来自: 深圳
文章分类
最新评论
1. Kylin的一些概念
No. 关键字 解释
1 Kylin 一款基于Hive的开源OLAP工具,我们可以设计Hive表的字段为维度和度量,通过Kylin来构建Cube,Kylin会将Cube结构存储在 HBase 之上,基于Cube我们可以做各种多维分析。
参考:https://mp.weixin.qq.com/s/kfFh7I_V5haghV6qUzHtag
2 Kylin核心思想 Kylin的核心思想是预计算,用空间换时间,即对多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube,供查询时直接访问。把高复杂度的聚合运算、多表连接等操作转换成对预计算结果的查询,这决定了Kylin能够拥有很好的快速查询和高并发能力。
参考: 同上
2. Kylin在CDH上的部署
参考:http://www.cnblogs.com/dolittle/p/5915528.html
下载链接:wget hhttps://mirrors.tuna.tsinghua.edu.cn/apache/kylin/apache-kylin-2.1.0/
1. 配置目标文件为 /etc/profile
#Kylin
export KYLIN_HOME=/opt/kylin
#Hadoop relative
export HBASE_HOME=/opt/cloudera/parcels/CDH/lib/hbase
export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop
export HIVE_HOME=/opt/cloudera/parcels/CDH/lib/hadoop/hive
export HADOOP_CMD=/opt/cloudera/parcels/CDH/lib/hadoop/bin/hadoop
2. 更新文件:
source /etc/profile
检查配置是否成功
echo $KYLIN_HOME
到安装目录下 kylin/bin下
运行sudo -u hdfs sh check-env.sh
3. 启动和停止
在kylin的解压包下找到 bin并进入,执行kylin.sh文件
启动kylin:sudo ./kylin.sh start
停止kylin:sudo ./kylin.sh stop
查看日志可在 kylin/logs下查看kylin.log
4. GUI
http://xxx.xxx.xxx.xxx:7070/kylin/login
用户密码必须大写
ADMIN/KYLIN
补充集群配置:
1、修改配置
集群中只能有一个job,或者all,因为all包含job,query不限。
vi /bigdata/kylin/conf/kylin.properties
|--1、主节点添加配置
kylin.server.mode=all
kylin.server.cluster-servers=node1:7070,node2:7070
kylin.job.jar=/bigdata/kylin/lib/kylin-job-2.0.0.jar
kylin.coprocessor.local.jar=/bigdata/kylin/lib/kylin-coprocessor-2.0.0.jar
kylin.job.yarn.app.rest.check.status.url=http://node1:8088/ws/v1/cluster/apps/${job_id}?anonymous=true
kylin.rest.servers=node1:7070,node2:7070
kylin.job.mr.lib.dir=/opt/cloudera/parcels/CDH-5.10.1-1.cdh5.10.1.p0.10/lib/sentry/lib
注意一定要加kylin.job.mr.lib.dir,这个在官方配置中没有,但是如果cdh环境不加,导入数据会失败。
|--2、从节点添加配置
kyin.server.mode=query
kylin.server.cluster-servers=node1:7070,node2:7070
kylin.job.jar=/bigdata/kylin/lib/kylin-job-2.0.0.jar
kylin.coprocessor.local.jar=/bigdata/kylin/lib/kylin-coprocessor-2.0.0.jar
kylin.job.yarn.app.rest.check.status.url=http://node1:8088/ws/v1/cluster/apps/${job_id}?anonymous=true
kylin.rest.servers=node1:7070,node2:7070
kylin.job.mr.lib.dir=/opt/cloudera/parcels/CDH-5.10.1-1.cdh5.10.1.p0.10/lib/sentry/lib
3、准备hdfs目录和环境变量
sudo -u hdfs hdfs dfs -mkdir /kylin
sudo -u hdfs hdfs dfs -chown -R root:root /kylin
vi /etc/profile
export HCAT_HOME=/opt/cloudera/parcels/CDH-5.10.1-1.cdh5.10.1.p0.10/lib/hive-hcatalog/share/hcatalog
export KYLIN_HOME=/bigdata/kylin
export PATH=$JAVA_HOME/bin:$KYLIN_HOME/bin:$HCAT_HOME/bin:$PATH
source /etc/profile
4、所有节点启动访问
/bigdata/kylin/bin/kylin.sh start
http://nn2:7070/kylin/login
用户名:ADMIN 密码:KYLIN
No. 关键字 解释
1 Kylin 一款基于Hive的开源OLAP工具,我们可以设计Hive表的字段为维度和度量,通过Kylin来构建Cube,Kylin会将Cube结构存储在 HBase 之上,基于Cube我们可以做各种多维分析。
参考:https://mp.weixin.qq.com/s/kfFh7I_V5haghV6qUzHtag
2 Kylin核心思想 Kylin的核心思想是预计算,用空间换时间,即对多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube,供查询时直接访问。把高复杂度的聚合运算、多表连接等操作转换成对预计算结果的查询,这决定了Kylin能够拥有很好的快速查询和高并发能力。
参考: 同上
2. Kylin在CDH上的部署
参考:http://www.cnblogs.com/dolittle/p/5915528.html
下载链接:wget hhttps://mirrors.tuna.tsinghua.edu.cn/apache/kylin/apache-kylin-2.1.0/
1. 配置目标文件为 /etc/profile
#Kylin
export KYLIN_HOME=/opt/kylin
#Hadoop relative
export HBASE_HOME=/opt/cloudera/parcels/CDH/lib/hbase
export HADOOP_HOME=/opt/cloudera/parcels/CDH/lib/hadoop
export HIVE_HOME=/opt/cloudera/parcels/CDH/lib/hadoop/hive
export HADOOP_CMD=/opt/cloudera/parcels/CDH/lib/hadoop/bin/hadoop
2. 更新文件:
source /etc/profile
检查配置是否成功
echo $KYLIN_HOME
到安装目录下 kylin/bin下
运行sudo -u hdfs sh check-env.sh
3. 启动和停止
在kylin的解压包下找到 bin并进入,执行kylin.sh文件
启动kylin:sudo ./kylin.sh start
停止kylin:sudo ./kylin.sh stop
查看日志可在 kylin/logs下查看kylin.log
4. GUI
http://xxx.xxx.xxx.xxx:7070/kylin/login
用户密码必须大写
ADMIN/KYLIN
补充集群配置:
1、修改配置
集群中只能有一个job,或者all,因为all包含job,query不限。
vi /bigdata/kylin/conf/kylin.properties
|--1、主节点添加配置
kylin.server.mode=all
kylin.server.cluster-servers=node1:7070,node2:7070
kylin.job.jar=/bigdata/kylin/lib/kylin-job-2.0.0.jar
kylin.coprocessor.local.jar=/bigdata/kylin/lib/kylin-coprocessor-2.0.0.jar
kylin.job.yarn.app.rest.check.status.url=http://node1:8088/ws/v1/cluster/apps/${job_id}?anonymous=true
kylin.rest.servers=node1:7070,node2:7070
kylin.job.mr.lib.dir=/opt/cloudera/parcels/CDH-5.10.1-1.cdh5.10.1.p0.10/lib/sentry/lib
注意一定要加kylin.job.mr.lib.dir,这个在官方配置中没有,但是如果cdh环境不加,导入数据会失败。
|--2、从节点添加配置
kyin.server.mode=query
kylin.server.cluster-servers=node1:7070,node2:7070
kylin.job.jar=/bigdata/kylin/lib/kylin-job-2.0.0.jar
kylin.coprocessor.local.jar=/bigdata/kylin/lib/kylin-coprocessor-2.0.0.jar
kylin.job.yarn.app.rest.check.status.url=http://node1:8088/ws/v1/cluster/apps/${job_id}?anonymous=true
kylin.rest.servers=node1:7070,node2:7070
kylin.job.mr.lib.dir=/opt/cloudera/parcels/CDH-5.10.1-1.cdh5.10.1.p0.10/lib/sentry/lib
3、准备hdfs目录和环境变量
sudo -u hdfs hdfs dfs -mkdir /kylin
sudo -u hdfs hdfs dfs -chown -R root:root /kylin
vi /etc/profile
export HCAT_HOME=/opt/cloudera/parcels/CDH-5.10.1-1.cdh5.10.1.p0.10/lib/hive-hcatalog/share/hcatalog
export KYLIN_HOME=/bigdata/kylin
export PATH=$JAVA_HOME/bin:$KYLIN_HOME/bin:$HCAT_HOME/bin:$PATH
source /etc/profile
4、所有节点启动访问
/bigdata/kylin/bin/kylin.sh start
http://nn2:7070/kylin/login
用户名:ADMIN 密码:KYLIN
发表评论
-
Canal相关理解
2017-12-29 16:18 456转载:http://www.importnew.com/251 ... -
kettle部署
2017-12-26 16:04 7131.将jmbi sql先上生产环境, 参考附件jmbi.sql ... -
crontab定时运行MR不行,手动shell可以执行成功问题排查过程
2017-12-26 15:48 851设置了定时任务,但MR任务没有执行。 第一步:手动执行she ... -
Flume+kafka+Spark Steaming demo2
2017-11-22 13:15 454一,flume配置 # Name the components ... -
Flume+Kafka+Spark Steaming demo
2017-11-21 15:21 436一.准备flume配置 a1.sources = r1 a1. ... -
HBase表导出成HDFS
2017-10-19 19:40 892导出步骤:在old cluster上/opt/cloudera ... -
zepplin实战
2017-10-13 16:10 357一句话介绍Zeppelin 以笔记(Note)的形式展示的数据 ... -
Azkaban安装
2017-10-10 18:32 902一.下载 https://github.com/azkaban ... -
KYKIN安装
2017-09-30 17:35 121. Kylin的一些概念 No. 关键字 解释 1 Kyl ... -
Logstash安装部署配置
2017-04-28 10:24 1015为了实现各业务平台日志信息采集到大数据平台hdf ... -
HBASE API
2017-04-18 11:01 466package org.jumore.test; impor ... -
Ambari卸载shell
2017-03-28 17:28 463#!/bin/bash # Program: # uni ... -
linux ssh 相互密码登录
2017-02-22 13:40 4091.修改集群各机器名称 vim /etc/sysconfig/ ... -
Kettle Linux 安装部署
2017-02-15 17:20 1348一.安装JDK环境:根据自己的linux系统选择相应的版本,比 ... -
hadoop环境搭建
2017-01-23 17:31 348192.168.23.231 server1 192.168. ... -
环境安装
2017-01-17 16:26 389物理机部署分配 3台物理机上部署 Zookeeper 3个,F ... -
Storm demo
2016-12-19 15:50 439public class SentenceSpout exte ... -
运行Hadoop jar 第三方jar包依赖
2016-08-22 13:47 1008将自己编写的MapReduce程序打包成jar后,在运行 ha ... -
windows10下运行MR错误
2016-07-05 13:45 1648当在windows下运行MR程序时,会报各种错误。现把这次碰到 ... -
HBase问题
2016-06-16 17:02 3011.java.net.UnknownHostException ...
相关推荐
pandas whl安装包,对应各个python版本和系统(具体看资源名字),找准自己对应的下载即可! 下载后解压出来是已.whl为后缀的安装包,进入终端,直接pip install pandas-xxx.whl即可,非常方便。 再也不用担心pip联网下载网络超时,各种安装不成功的问题。
基于java的大学生兼职信息系统答辩PPT.pptx
基于java的乐校园二手书交易管理系统答辩PPT.pptx
tornado-6.4-cp38-abi3-musllinux_1_1_i686.whl
Android Studio Ladybug 2024.2.1(android-studio-2024.2.1.10-mac.dmg)适用于macOS Intel系统,文件使用360压缩软件分割成两个压缩包,必须一起下载使用: part1: https://download.csdn.net/download/weixin_43800734/89954174 part2: https://download.csdn.net/download/weixin_43800734/89954175
有学生和教师两种角色 登录和注册模块 考场信息模块 考试信息模块 点我收藏 功能 监考安排模块 考场类型模块 系统公告模块 个人中心模块: 1、修改个人信息,可以上传图片 2、我的收藏列表 账号管理模块 服务模块 eclipse或者idea 均可以运行 jdk1.8 apache-maven-3.6 mysql5.7及以上 tomcat 8.0及以上版本
tornado-6.1b2-cp38-cp38-macosx_10_9_x86_64.whl
Android Studio Ladybug 2024.2.1(android-studio-2024.2.1.10-mac.dmg)适用于macOS Intel系统,文件使用360压缩软件分割成两个压缩包,必须一起下载使用: part1: https://download.csdn.net/download/weixin_43800734/89954174 part2: https://download.csdn.net/download/weixin_43800734/89954175
matlab
基于java的毕业生就业信息管理系统答辩PPT.pptx
随着高等教育的普及和毕业设计的日益重要,为了方便教师、学生和管理员进行毕业设计的选题和管理,我们开发了这款基于Web的毕业设计选题系统。 该系统主要包括教师管理、院系管理、学生管理等多个模块。在教师管理模块中,管理员可以新增、删除教师信息,并查看教师的详细资料,方便进行教师资源的分配和管理。院系管理模块则允许管理员对各个院系的信息进行管理和维护,确保信息的准确性和完整性。 学生管理模块是系统的核心之一,它提供了学生选题、任务书管理、开题报告管理、开题成绩管理等功能。学生可以在此模块中进行毕业设计的选题,并上传任务书和开题报告,管理员和教师则可以对学生的报告进行审阅和评分。 此外,系统还具备课题分类管理和课题信息管理功能,方便对毕业设计课题进行分类和归档,提高管理效率。在线留言功能则为学生、教师和管理员提供了一个交流互动的平台,可以就毕业设计相关问题进行讨论和解答。 整个系统设计简洁明了,操作便捷,大大提高了毕业设计的选题和管理效率,为高等教育的发展做出了积极贡献。
这个数据集来自世界卫生组织(WHO),包含了2000年至2015年期间193个国家的预期寿命和相关健康因素的数据。它提供了一个全面的视角,用于分析影响全球人口预期寿命的多种因素。数据集涵盖了从婴儿死亡率、GDP、BMI到免疫接种覆盖率等多个维度,为研究者提供了丰富的信息来探索和预测预期寿命。 该数据集的特点在于其跨国家的比较性,使得研究者能够识别出不同国家之间预期寿命的差异,并分析这些差异背后的原因。数据集包含22个特征列和2938行数据,涉及的变量被分为几个大类:免疫相关因素、死亡因素、经济因素和社会因素。这些数据不仅有助于了解全球健康趋势,还可以辅助制定公共卫生政策和社会福利计划。 数据集的处理包括对缺失值的处理、数据类型转换以及去重等步骤,以确保数据的准确性和可靠性。研究者可以使用这个数据集来探索如教育、健康习惯、生活方式等因素如何影响人们的寿命,以及不同国家的经济发展水平如何与预期寿命相关联。此外,数据集还可以用于预测模型的构建,通过回归分析等统计方法来预测预期寿命。 总的来说,这个数据集是研究全球健康和预期寿命变化的宝贵资源,它不仅提供了历史数据,还为未来的研究和政策制
基于微信小程序的高校毕业论文管理系统小程序答辩PPT.pptx
基于java的超市 Pos 收银管理系统答辩PPT.pptx
基于java的网上报名系统答辩PPT.pptx
基于java的网上书城答辩PPT.pptx
婚恋网站 SSM毕业设计 附带论文 启动教程:https://www.bilibili.com/video/BV1GK1iYyE2B
基于java的戒烟网站答辩PPT.pptx
基于微信小程序的“健康早知道”微信小程序答辩PPT.pptx
Capital Bikeshare 数据集是一个包含从2020年5月到2024年8月的自行车共享使用情况的数据集。这个数据集记录了华盛顿特区Capital Bikeshare项目中自行车的租赁模式,包括了骑行的持续时间、开始和结束日期时间、起始和结束站点、使用的自行车编号、用户类型(注册会员或临时用户)等信息。这些数据可以帮助分析和预测自行车共享系统的需求模式,以及了解用户行为和偏好。 数据集的特点包括: 时间范围:覆盖了四年多的时间,提供了长期的数据观察。 细节丰富:包含了每次骑行的详细信息,如日期、时间、天气条件、季节等,有助于深入分析。 用户分类:数据中区分了注册用户和临时用户,可以分析不同用户群体的使用习惯。 天气和季节因素:包含了天气情况和季节信息,可以研究这些因素对骑行需求的影响。 通过分析这个数据集,可以得出关于自行车共享使用模式的多种见解,比如一天中不同时间段的使用高峰、不同天气条件下的使用差异、季节性变化对骑行需求的影响等。这些信息对于城市规划者、交通管理者以及自行车共享服务提供商来说都是非常宝贵的,可以帮助他们优化服务、提高效率和满足用户需求。同时,这个数据集也