`
amazon10
  • 浏览: 29475 次
  • 性别: Icon_minigender_1
  • 来自: 西安
社区版块
存档分类
最新评论
文章列表
自动提交offset      以下实例代码展示了如何自动提交topic的offset: public void autoOffsetCommit() {    Properties props = new Properties();    props.put("bootstrap.servers", "localhost:9092");    props.put("group.id", "t ...
1. Container内存使用的监控        NodeManager作为Yarn运行中的一个守护进程,其中一个职责是监控运行在节点上的container,通常包含每个容器的内存使用。         为监控容器的内存使用情况,在Yarn的配置文件yarn-site.xml中配置yarn.nodemanager.container-monitor.interval-ms属性遍历当前正在运行的容器,计算进程树(process tree,即每个容器中所有的子进程),对于每个进程检查/proc/<pid>/stat文件(其中pid为容器的进程ID),抽取出物理内存(又称RSS) ...
最近在ubuntu16.04上使用idea,可是无法输入中文,经测试,在idea的bin目录下idea.sh文件中添加如下两行可以解决中文无法输入的问题: export XMODIFIERS=@im=fcitx export QT_IM_MODULE=fcitx
资源参数调优   了解完了Spark作业运行的基本原理之后,对资源相关的参数就容易理解了。所谓的Spark资源参数调优,其实主要就是对Spark运行过程中各个使用资源的地方,通过调节各种参数,来优化资源使用的效率,从而提 ...
以下是Shffule过程中的一些主要参数,这里详细讲解了各个参数的功能、默认值以及基于实践经验给出的调优建议。 spark.shuffle.file.buffer   1、默认值:32k  参数说明:该参数用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前,会先写入buffer缓冲中,待缓冲写满之后,才会溢写到磁盘。  调优建议:如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如64k),从而减少shuffle write过程中溢写磁盘文件的次数,也就可以减少磁盘IO次数,进而提升性能。在实 ...
spark.executor.num=3 spark.executor.cores=4 spark.executor.memory=2g spark.shuffle.compress=true spark.storage.memoryFraction=0.3 spark.yarn.executor.memoryOverhead=768 spark.shuffle.memoryFraction=0.05 spark.shuffle.sort.bypassMergeThreshold=100 spark.io.compression.codec=org.apache.spark.i ...
       hadoop的ha操作流程,本操作是利用ambari完成,如果不是使用ambari,可以参考,要保证其中命令的执行顺序。如果是手动安装hadoop的ha时,可以参考以下执行的命令,但是要保证命令执行的顺序。          hadoop2.0以后的版本支持HA,如图安装HDFS的HA,保证节点在三个以上。        1. 安装流程从下图开始:       2. 点击后跳转到如下页面,输入Nameservice ID,要牢记ID,用于查看dfs:      3. 选择要添加为namenode的节点,一般这些节点都是在hadoop集群节点(同时部署了Zoo ...
如果在使用hadoop集群中出现namenode处于safemode错误提示时,使用以下命令解除namenode的safemode模式: $HADOOP_HOME/bin/hadoop dfsadmin -safemode leave
hive执行优化: 1. 使用tez [code language=”SQL”] set hive.execution.engine=tez; [/code] 设置以上属性后,每次hive查询都会利用tez执行任务。 2. 使用ORCFile存储数据 Hive支持ORCFile,   [code language=”SQL”]  
1. 停止主备节点上的namenode 2. 删除namenode和datanode上的data目录 3. 在主节点上重新格式化namenode 4. 启动journalnode节点:hadoop-daemon.sh start journalnode 5. 启动备份节点的namenode:hadoop-daemon.sh start namenode 5. 格式化ZKFC:sh bin/hdfs zkfc -formatZK 6. 启动ZKFC:sh bin/hdfs start zkfc
Global site tag (gtag.js) - Google Analytics