- 浏览: 186478 次
- 性别:
- 来自: 北京
最新评论
-
一碗单炒饭:
正需要,谢谢
清除eclipse中 Launch configuration的历史记录 -
heweina2007:
非常有用。谢谢!
清除eclipse中 Launch configuration的历史记录 -
功夫小当家:
这个也不好用了吗?之前这个办法,我这里可以解决,那你现在的办法 ...
INSTALL_FAILED_UID_CHANGED解决办法 -
ziyue137:
设置----->安全----->未知来源,这个没有 ...
INSTALL_FAILED_UID_CHANGED解决办法 -
zfc645486908:
您好,感谢你写这篇技术文章,对我帮助很大,刚好用到,但是我需要 ...
Android中如何把bitmap存成BMP格式的图片
文章列表
问题描述:
hadoop-3.0.0 搭建HA 启动start-yarn.sh脚本之后,ResourceManager并未启动
分析:
执行start-yarn.sh脚本启动yarn,log如下:
jps查看ResourceManger并没有启动起来,
查看启动脚本,发现需要配置yarn.resourcemanager.hostname.${id} 参数
在yarn-site.xml中配置一下,重启启动
jps查看,启动成功
对比hadoop-2.8.1中的strat-yarn.sh脚本,发现 hadoop-3.0中已经
(1)下载和安装:
wget https://dl.influxdata.com/influxdb/releases/influxdb-1.2.4.x86_64.rpm
sudo yum localinstall influxdb-1.2.4.x86_64.rpm
(2)启动
sudo service influxdb start
启动失败查看 influxdb启动日志的位置:/var/log/influxdb/influxd.log,分析发现8088端口被占用
查看配置信息
influxd config | head -n 10
解决方案:
● ...
hadoop client机作为集群的堡垒机使用,使得集群环境和开发环境分离开来
选择集群外的一台机器,搭建client机,流程如下:
(1)配置单向(master可以ssh到client,client不可以ssh到master)ssh免登陆, 把master的id_rsa.pub内容添加到client机器的authorized_keys中
(2)修改client机器的 /etc/hosts 文件,添加master节点的ip和hostname
(3)把master节点的hadoop包scp到client机
(4)修改client机器的 /etc/profile ...
1.flume对接kafka的两种方式:pull 和 push 流程如下:
2.两者的区别
3.使用pull方式可能遇到的问题:
本地测试环境:
spark 2.3
flume 1.8
使用pull方式,flume报错如下:
(官网上存在这个bug,尚未修复:https://issues.apache.org/jira/browse/SPARK-17152)
java.lang.IllegalStateException: begin() called when transaction is OPEN!
网上的解决方法:
这 ...
spark支持分区的自动探测
例如:目录如下:
df读取的时候,分别传不同的路径进去,schema是不一样的,通过下图可以看到,spark可以探测到当前路径下的分区
可以控制这个参数,决定是否开启自动类型推测(控制的是类型推测,如果设为false,都是分区字段string类型)
spark.sql.sources.partitionColumnTypeInference.enabled
测试代码:
分区类型推测的源码位置:
需求描述:
flume使用 execSource 类型 实现截取数据行中指定列的数据(详见下图)
实现:
1.方案一: execSource接受的是linux命令,所以可以使用linux awk实现这个功能
命令:tail -F /root/test.log | awk -F ',' '{print $2;ffl ...
1.本地环境:
apache-flume-1.8.0-src (官网下载源码,或者git下载)
java1.8
2.编译
(1)用Inteallij IDEA 导入已下载的flume工程
(2)修改flume-parent下的 pom.xml 添加 aliyun的仓库(加快下载,有些包直接从maven repository上 ...
1.在Spark1.2中提供了External DataSource API,开发者可以根据接口来实现自己的外部数据源,如avro, csv, json, parquet等等。
(1)spark自带的外部数据源
(2)其他开发者贡献的 https://spark-packages.org/
以avro为例,点击homepage,跳转到github网址:https://github.com/databricks/spark-avro,github页面详细介绍了用法
本地shell测试
2.spark 外部数据源 Api 练习
package ...
DataFrame Api 练习(需要了解下functions.scala源码)
package df
import org.apache.spark.sql.SparkSession
object DataFrameDemo {
def main(args: Array[String]): Unit = {
val spark = SparkSession.builder().appName("DF_DEMO").master("local").getOrCreate()
/**
* ...
1.RDD转成DataFrame的两种方式:
package df
import org.apache.spark.sql.{Row, SparkSession}
object RDD2DataFrame {
case class Person(name: String, score: Int)
def main(args: Array[String]): Unit = {
//enableHiveSupport()开启支持hive
val spark = SparkSession.builder().appName("DF_DE ...
1.什么是spark-sql?
spark-sql 不是sql,它是spark提供的处理结构化数据的框架,不仅仅是一个sql框架,还支持DataFrame和DataSet
hive on spark 是hive提供的以spark作为计算引擎的计算框架,类似的框架还有hive on tez, mr等,hive1.1版本开始 ...
参考美团的技术博客 https://tech.meituan.com/spark-tuning-basic.html,整理一下spark优化知识点。
1.尽可能少的创建RDD
避免创建重复的RDD (例如:一个文件被读取多次,对应多个RDD)
尽可能复用RDD (例如: rdd1 完全包含 rdd2的信息,直接使用rdd1即可,不用再创建rdd2)
对多次使用的RDD进行持久化 (例如:先调用 rdd.map,第二次又调用了rdd.reduce,每次你对一个RDD执行一个算子操作时,都会重新从源头处计算一遍,计算出那个RDD来,然后再对这个RDD执行你的算子操作。这种方式的性 ...
1.开启thriftServer服务
命令:./start-thriftserver.sh --master local[2]
2.启动后,查看服务的http://hd1:4040 页面
3.启动spark bin目录下的beeline:
命令:bin/beeline -u jdbc:hive2://localhost:10000 -n root
4.连接成功后,多次执行sql(我本地测试用的select * from a),然后查看服务的 http://hd1:4040/SQL/ 和 http://hd1:4040/sqlserver/ 页面
...
1.什么是flume?
分布式的海量日志的收集,聚合,移动,传输的框架:
fulme Agent是一个jvm进程,包括Source, Channel, Sink三部分。
flume event是数据流中的一个基本单位
Source接收并且消费外部数据源传递过来的events,Channel用于中间的存储,Sink做数据输出。外部数据源发送数据到flume,必须按照Source支持的格式发,例如Avro Source接收的是Avro events(可能是外部的avro client 或 avro sink发来的数据)
复杂的流:flume支持多跳的流(多个agent连接到一 ...