- 浏览: 2097487 次
- 性别:
- 来自: 北京
最新评论
-
伍大都督:
解释太到位了,感谢分享
理解Linux系统中的load average(图文版) -
rfjian123:
非常感谢,用你的方法解决了问题。
Server sent unexpected return value (403 Forbidden) in response to OPTIONS -
yuhaifei12:
今天遇到同样的问题了。设置的是每分钟执行一次。结果发现每分钟执 ...
解决Linux下crontab同一时间重复执行问题 -
BigBird2012:
想问一下,使用ExecutorService每次都要调用 sh ...
spring quartz使用多线程并发“陷阱” -
zhuqx1130:
有用,谢谢
解决Sublime Text 3中文显示乱码(tab中文方块)问题
文章列表
添加设备时agent会使用host命令反向解析获取cloudera manager server 主机名,我这里服务器默认安装了bind,而且/etc/hosts解析也不能成功,导致无法获取server主机名,错误信息如下:
BEGIN host -t PTR 172.16.11.25 25.11.16.172.in-addr.arpa domain name pointer localhost. END (0) using localhost as scm server hostname BEGIN which python /usr/local/bin/python END (0 ...
删除kafka存储目录(server.properties文件log.dirs配置,默认为"/tmp/kafka-logs")相关topic目录
删除zookeeper "/brokers/topics/"目录下相关topic节点
--end
官方文档:https://kafka.apache.org/documentation.html
说下quick start遇到问题:
运行kafka二进制项目不需要scala
文档API栏目,每个API后面有example,字比较小,打开里面有示例
错误:
1. producer的配置只需要kafka server ip即可,但如果kafka server使用hostname作为zookeeper地址配置,那就需要在producer端配置zookeeper hostname与IP映射(hosts文件),否则会出现"kafka Failed to s ...
Cassandra中通过JNA可以调用Native方法优化Jvm内存,大概意思就是不让操作系统将jvm内存置换到系统swap分区,从而提升jvm内存性能。它有两个用处:
Since 0.6.2: JNA for mlockall. This prevents Linux from swapping out parts of the JVM that aren't accessed frequently. Chris Goffinet reported a 13% performance improvement in his tests from this change. CAS ...
一、Cassandra2.0访问密码设置
1. vi /etc/cassandra/conf/cassandra.yaml,修改:
authenticator: PasswordAuthenticator
2. 重启
/etc/init.d/cassandra restart
这里要注意下Cassandra2.0默认没有system_auth表,需要做上面配置并重启Cassandra后才会生成System_auth表。
3. 修改system_auto的副本因子(必须做must)
cqlsh <your_host> -u cassan ...
运行cqlsh报错:No module named cqlshlib
我是通过yum安装的是datastax的社区版本,安装之前系统有python2.7,安装cassandra的时候我看到级联安装了python2.6。我发现在cqlsh的py文件安装到了python2.6,解决办法:下载apache-cassandra.2.0.zip包,里面有pylib目录,进入后执行python setup.py install,就可以在python2.7下使用cqlsh了。
--end
完成配置需要以下文件:
slf4j-log4j12-xxx.jar
slf4j-api-xxx,jar
log4j-xxx.jar
log4j.propertes
如果使用maven则直接引用下面的依赖就行了,另外两个jar会级联依赖进来。
<dependency>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
<version>1.7.5</version>
</depende ...
启动dfs client时候报错:“java.io.IOException: No FileSystem for scheme: hdfs"”
出现这个错误是因为缺少hadoop-hdfs jar包,在项目中进行如下依赖配置即可,两个都不能少,下面是cloudera maven配置
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version ...
国外优秀KanBan项目
- 博客分类:
- 敏捷
kanbanflow.com(推荐好用)
http://volerro.com
https://trello.com/tour
http://leankit.com/
上面几个都有free账号可以使用。
报错行:
Cluster cluster = Cluster.builder().addContactPoint(node).build();
错误信息:
Exception in thread "main" com.datastax.driver.core.exceptions.NoHostAvailableException: All host(s) tried for query failed (tried: /127.0.0.1 ([/127.0.0.1] Cannot connect))
at com.datastax.driver.core ...
Combiner是在Map端被执行,共有两个时机会被触发:
① 从环形缓冲器溢写分区文件的时候
② 合并溢写分区文件的时候
1. 初始化combinerRunner和combineCollector
MapTask.run()
┟ runNewMapper(job, split, umbilical, reporter);
┟ output = new NewOutputCollector(taskContext, job, umbilical, reporter);
if(job.getNumReduceTasks( ...
MapTask.runNewMapper() ->
...
if (job.getNumReduceTasks() == 0) {
// 无reduce,直接写HDFS
// 这个writer输出时不执行Partitioner.getPartition()方法
output = new NewDirectOutputCollector(taskContext, job, umbilical, reporter);
} el ...
前言
Hadoop二次排序简单说就是先根据字段A分组排序,然后在对组内根据字段B排序。Hadoop二次排序在面试的时候出现频率也是比较高的。今天花了点时间通过源码深入学习了一下。(后面内容以Hadoop自带实例——SecondarySort讲解,见本文附录)
Hadoop默认是根据reduce key排序,通过Hadoop二次排序可以实现根据value值(需要将其放入复合key中)进行排序,排序后做可以取TOP值。比如可以做,每个网站访问量最大前10个URL等分析。
关键点
1、Partitioner
它的作用是决定数据分区,说白了就是决定map输出k ...
hadoop1.0没有HA,可以添加NFS做为metadata存储备份,如果NN挂了,可以借助NFS上文件重新建立NN,这样虽然不能实现无间断服务,但可以保障集群数据不丢失。修改hdfs-site.xml配置如下:
<property>
<name>dfs.name.dir</name>
<value>/data/dfs/nn,/nfs/dfs/nn</value>
</property>
引入NFS后,会带来新问题:
如果NFS无法访问,NN无法启动
如果NFS中途故障,机器可以读取文 ...
一、不使用HA场景
1.1 获取FileSystem(下称FS)方法一:
FileSystem fs = FileSystem.get(URI.create("hdfs://<nn_ip>:<nn_port>"), new Configuration());
1.2 获取FS方法二(★推荐):
Configuration conf = new Configuration();
conf.set("fs.default.name", "hdfs://<nn_ip>:&l ...