- 浏览: 109727 次
- 性别:
- 来自: 北京
最新评论
-
zenoh:
是啊,我也纳闷,apache hadoop2.2.0的已经修复 ...
安装CDH5 hadoop2.2.0遇到的配置问题 -
Molisa:
你好,我有两个问题请教一下:1.为了密码安全,你有没有试过使用 ...
使用oozie调度sqoop从oracle导入hbase
文章列表
impala版本:1.1.1
hive版本:0.10
最近在使用JDBC执行impala sql的时候遇到一个问题,使用JDBC执行insert overwrite/into table...select...语句的时候,执行的结果显示是成功,但是查看表中的数据的时候,发现数据并没有插入到目标表中。通过查看http://impala-node-hostname:25000/queries 发现刚才执行的SQL的状态是Exception.说明确实执行失败。
出现这种情况的原因是由于hive驱动的bug造成的,因为sessions在执行的时候,impala将取消正在运行 ...
准备:
下载安装hadoop
wget http://archive.cloudera.com/cdh4/cdh/4/hadoop-2.0.0-cdh4.3.0.tar.gz
下载安装zookeeper
wget http://archive.cloudera.com/cdh4/cdh/4/zookeeper-3.4.5-cdh4.3.0.tar.gz
1、当前hadoop集群的情况
10.95.3.61 master (主NN)
10.95.3.62 slave1 (DN)
10.95.3.63 slav ...
{header:'名称',width:200,sortable:true,dataIndex:'appname'},
{header:'图标',width:350,sortable:true,dataIndex:'appico',renderer:function(data, metadata, record, rowIndex, columnIndex, store) {
var data = record.data ;
var url = data ...
spark3.0出来一段时间了,内部做了很多的优化,所以想尝尝新。
下载下来spark3.0的源码,查看pom.xml文件,发现profile中的hadoop版本是2.7,所以把这个属性改成2.6, 当然我们是cdh5.14.2,hadoop版本是2.6.0。开始编译,发现编译报错,这是因为在2.6.0到2.6.3hadoop中有个class在之后的版本变了,而spark里使用的是之后版本的新API。
找到resource-managers/yarn/src/main/scala/org/apache/spark/deploy ...
从spark2.4升级到spark3.0,在跑spark任务的时候,报了一下错误:
Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/internal/connector/SimpleTableProvider
at java.lang.ClassLoader.defineClass1(Native Method)
at java.lang.ClassLoader.defineClass(ClassLoader.java:763)
at java.secur ...
在对mysql 权限进行管理的时候出现如下错误:
ERROR 1396 (HY000): Operation CREATE USER failed for ‘username’@’hostname’
But 这个用户只真是存在的 。回想一个之前的操作 : 先是用 grant 语句创建了一个用户,然后权限有变 用 update 更新了一下 mysql.user 的数据 。结果就出现了上面的错误 。
解决办法 :删除无效/冲突的用户授权 ,重新根据需求授权。
这就是说 MySQL 权限控制最好是使用统一的操作方式。
FLUSH PRIVILEGES不会删除用户 ,而是从mysql数据库中的授权表 ...
操作系统:CentOS-6.5-x86_64-minimal
[root@localhost ~]# cat /etc/redhat-release
CentOS release 6.5 (Final)
卸载自带的5.1的mysql-libs包
#rpm -e --nodeps mysql-libs
安装wget
#yum install wget -y
……省略……
Installed:
wget.x86_64 0:1.12-1.8.el6
Complete!
下载5.6的依赖源配置repo rpm文件
#wget http://repo.mysql.com/mysql-com ...
具体错误如下:
SSLError: Failed to connect. Please check openssl library versions
解决方案:
这是由于centos6.5(我们是用的这个)默认装的openssl的版本问题太低造成的,通过以下解决:
1、Check the OpenSSL library version installed on your host(s):
rpm -qa | grep openssl
openssl-1.0.1e-15.el6.x86_64
2、If the output says openssl-1.0.1e-15.x86_64 (1.0. ...
JAVA_OPTS ,顾名思义,是用来设置JVM相关运行参数的变量。
JVM:JAVA_OPTS="-server -Xms2048m -Xmx2048m -Xss512k"
-server:一定要作为第一个参数,在多个CPU时性能佳
-Xms:初始Heap大小,使用的最小内存,cpu性能高时此值应设的大一些
-Xmx:java heap最大值,使用的最大内存
上面两个值是分配JVM的最小和最大内存,取决于硬件物理内存的大小,建议均设为物理内存的一半。
-XX:PermSize:设定内存的永久保存区域
-XX:MaxPermSize:设定最大内存的永久保存区域
-X ...
impala版本:impala-1.3.0-cdh5.0.0-src.tar.gz 编译后的版本
编译好后,在启动impala查询时候出现了下列的错误:
Query: show tables
ERROR: AnalysisException: This Impala daemon is not ready to accept user
requests. Status: Waiting for catalog update from the StateStore.
解决方式:
出现上述错误的原因是在/etc/hosts中没有配置 127.0.0.1 localhost 导 ...
Hadoop archive 唯一的优势可能就是将众多的小文件打包成一个har 文件了,那这个文件就会按照dfs.block.size 的大小进行分块,因为hdfs为每个块的元数据大小大约为150个字节,如果众多小文件的存在(什么是小文件内,就是小于dfs.block.size 大小的文件,这样每个文件就是一个block)占用大量的namenode 堆内存空间,打成har 文件可以大大降低namenode 守护节点的内存压力。但对于MapReduce 来说起不到任何作用,因为har文件就相当一个目录,仍然不能讲小文件合并到一个split中去,一个小文件一个split ,任然是低效的,这里要说 ...
Hadoop中有个参数是mapred.job.reuse.jvm.num.tasks(hadoop2 为:mapreduce.job.jvm.numtasks),默认是1,表示一个JVM上最多可以顺序执行的task数目(属于同一个Job)是1。也就是说一个task启一个JVM。
比如我配的是每个slave节点最多同时运行8个map和8个reduce。那么在map阶段,slave节点会启动最多8个JVM用于map。如下:
root@slave1:~# jps
28291 Child
28290 Child
28281 Child
28293 Child
2827 ...
1. 使用自定义Writable
自带的Text很好用,但是字符串转换开销较大,故根据实际需要自定义Writable,注意作为Key时要实现WritableCompareable接口
避免output.collect(new Text( ),new Text())
提倡key.set( ) value.set( ) output.collect(key,value)
前者会产生大量的Text对象,使用完后Java垃圾回收器会花费大量的时间去收集这些对象
2. 使用StringBuilder
不要使用Formatter StringBuffer(线程安全)
Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore。
一、本地derby
这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
...
GIT最初是由Linus Benedict Torvalds为了更有效地管理Linux内核开发而创立的分布式版本控制软件,与常用的版本控制工具如CVS、Subversion不同,它不必服务器端软件支持,速度和效率也有着相当程度的提高。
如果拥有CVS或者SVN的使用背景,那么更熟悉的方法是客户端-服务器端模式,所有的文件仓库(repository)都是存放在服务器上的,用户需要在本地安装客户端去服务器上的项目中获取旧版本,提交新版本。
GIT抛弃了这种模式,当用户从远端GIT仓库下载一个工程(project)时,这个工程的所有文件,包括版本历史,文件改动都会下载下来,这时 候本地GI ...