`
heipark
  • 浏览: 2097487 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
添加设备时agent会使用host命令反向解析获取cloudera manager server 主机名,我这里服务器默认安装了bind,而且/etc/hosts解析也不能成功,导致无法获取server主机名,错误信息如下:   BEGIN host -t PTR 172.16.11.25 25.11.16.172.in-addr.arpa domain name pointer localhost. END (0) using localhost as scm server hostname BEGIN which python /usr/local/bin/python END (0 ...
删除kafka存储目录(server.properties文件log.dirs配置,默认为"/tmp/kafka-logs")相关topic目录 删除zookeeper "/brokers/topics/"目录下相关topic节点   --end
官方文档:https://kafka.apache.org/documentation.html   说下quick start遇到问题: 运行kafka二进制项目不需要scala 文档API栏目,每个API后面有example,字比较小,打开里面有示例   错误: 1. producer的配置只需要kafka server ip即可,但如果kafka server使用hostname作为zookeeper地址配置,那就需要在producer端配置zookeeper hostname与IP映射(hosts文件),否则会出现"kafka Failed to s ...
Cassandra中通过JNA可以调用Native方法优化Jvm内存,大概意思就是不让操作系统将jvm内存置换到系统swap分区,从而提升jvm内存性能。它有两个用处:   Since 0.6.2: JNA for mlockall. This prevents Linux from swapping out parts of the JVM that aren't accessed frequently. Chris Goffinet reported a 13% performance improvement in his tests from this change. CAS ...
一、Cassandra2.0访问密码设置 1. vi /etc/cassandra/conf/cassandra.yaml,修改:   authenticator: PasswordAuthenticator   2. 重启   /etc/init.d/cassandra restart  这里要注意下Cassandra2.0默认没有system_auth表,需要做上面配置并重启Cassandra后才会生成System_auth表。   3. 修改system_auto的副本因子(必须做must)   cqlsh <your_host> -u cassan ...
    运行cqlsh报错:No module named cqlshlib     我是通过yum安装的是datastax的社区版本,安装之前系统有python2.7,安装cassandra的时候我看到级联安装了python2.6。我发现在cqlsh的py文件安装到了python2.6,解决办法:下载apache-cassandra.2.0.zip包,里面有pylib目录,进入后执行python setup.py install,就可以在python2.7下使用cqlsh了。   --end  
完成配置需要以下文件: slf4j-log4j12-xxx.jar slf4j-api-xxx,jar log4j-xxx.jar log4j.propertes 如果使用maven则直接引用下面的依赖就行了,另外两个jar会级联依赖进来。   <dependency> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> <version>1.7.5</version> </depende ...
启动dfs client时候报错:“java.io.IOException: No FileSystem for scheme: hdfs"”   出现这个错误是因为缺少hadoop-hdfs jar包,在项目中进行如下依赖配置即可,两个都不能少,下面是cloudera maven配置   <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version ...
kanbanflow.com(推荐好用) http://volerro.com https://trello.com/tour http://leankit.com/ 上面几个都有free账号可以使用。
报错行:   Cluster cluster = Cluster.builder().addContactPoint(node).build();   错误信息: Exception in thread "main" com.datastax.driver.core.exceptions.NoHostAvailableException: All host(s) tried for query failed (tried: /127.0.0.1 ([/127.0.0.1] Cannot connect)) at com.datastax.driver.core ...
  Combiner是在Map端被执行,共有两个时机会被触发:          ① 从环形缓冲器溢写分区文件的时候          ② 合并溢写分区文件的时候  1. 初始化combinerRunner和combineCollector MapTask.run()   ┟ runNewMapper(job, split, umbilical, reporter);      ┟ output = new NewOutputCollector(taskContext, job, umbilical, reporter); if(job.getNumReduceTasks( ...
  MapTask.runNewMapper() ->   ...   if (job.getNumReduceTasks() == 0) {       // 无reduce,直接写HDFS       // 这个writer输出时不执行Partitioner.getPartition()方法      output =  new NewDirectOutputCollector(taskContext, job, umbilical, reporter);   } el ...
前言     Hadoop二次排序简单说就是先根据字段A分组排序,然后在对组内根据字段B排序。Hadoop二次排序在面试的时候出现频率也是比较高的。今天花了点时间通过源码深入学习了一下。(后面内容以Hadoop自带实例——SecondarySort讲解,见本文附录)     Hadoop默认是根据reduce key排序,通过Hadoop二次排序可以实现根据value值(需要将其放入复合key中)进行排序,排序后做可以取TOP值。比如可以做,每个网站访问量最大前10个URL等分析。   关键点 1、Partitioner     它的作用是决定数据分区,说白了就是决定map输出k ...
 hadoop1.0没有HA,可以添加NFS做为metadata存储备份,如果NN挂了,可以借助NFS上文件重新建立NN,这样虽然不能实现无间断服务,但可以保障集群数据不丢失。修改hdfs-site.xml配置如下:   <property> <name>dfs.name.dir</name> <value>/data/dfs/nn,/nfs/dfs/nn</value> </property> 引入NFS后,会带来新问题: 如果NFS无法访问,NN无法启动 如果NFS中途故障,机器可以读取文 ...
一、不使用HA场景 1.1 获取FileSystem(下称FS)方法一:   FileSystem fs = FileSystem.get(URI.create("hdfs://<nn_ip>:<nn_port>"), new Configuration());   1.2 获取FS方法二(★推荐): Configuration conf = new Configuration(); conf.set("fs.default.name", "hdfs://<nn_ip>:&l ...
Global site tag (gtag.js) - Google Analytics