- 浏览: 306421 次
- 性别:
- 来自: 北京
最新评论
-
dandongsoft:
你写的不好用啊
solr 同义词搜索 -
黎明lm:
meifangzi 写道楼主真厉害 都分析源码了 用了很久. ...
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker -
meifangzi:
楼主真厉害 都分析源码了
hadoop 源码分析(二) jobClient 通过RPC 代理提交作业到JobTracker -
zhdkn:
顶一个,最近也在学习设计模式,发现一个问题,如果老是看别人的博 ...
Java观察者模式(Observer)详解及应用 -
lvwenwen:
木南飘香 写道
高并发网站的架构
文章列表
kerberos是由MIT开发的提供网络认证服务的系统,很早就听说过它的大名,但一直没有使用过它。它可用来为网络上的各种server提供认证服务,使得口令不再是以明文方式在网络上传输,并且联接之间通讯是加密的;它和PKI认证的 ...
netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
TIME_WAIT 8947
FIN_WAIT1 15
FIN_WAIT2 1
ESTABLISHED 55
SYN_RECV 21
CLOSING 2
LAST_ACK 4
TCP连接状态详解
LISTEN: 侦听来自远方的TCP端口的连接请求
SYN-SENT: 再发送连接请求后等待匹配的连接请求
SYN-RECEIVED:再收到和发送一个连接请求后等待对方对连接请求的确认
ESTABLISHED: 代表一个打开的连接
FIN-WA ...
MongoDB与内存
转载:http://huoding.com/2011/08/19/107
MongoDB服务器的top命令结果:
shell> top -p $(pidof mongod)
Mem: 32872124k total, 30065320k used, 2806804k free, 245020k buffers
Swap: 2097144k total, 100k used, 2097044k free, 26482048k cached
VIRT RES SHR %MEM
1892g 21g 21g 69.6
这台MongoDB ...
hive表分区
必须在表定义时创建partition
a、单分区建表语句:create table day_table (id int, content string) partitioned by (dt string);单分区表,按天分区,在表结构中存在id,content,dt三列。
以dt为文件夹区分
b、双分区建表语句:create table day_hour_table (id int, content string)partitioned by (dt string, hour string);双分区表,按天和小时分区,在表结构中新增加了dt和hour两列。
先以dt为文件夹 ...
MongoDB创建表步骤,Mongo常用的数据库操作命令,查询,添加,更新,删除_MongoDB 性能监测
->use Admin (切换到创建用户)
->db.TestDb (创建数据库)
->db.addUser(“userName”,”Pwd”) 创建用户
->db.auth(“userName”,”Pwd”) 设置用户为允许连接的用户
->db.createCollection(“TableName”) 创建表
-> ...
ls command not found
分类: linux 技术 2010-10-11 17:40 1244人阅读 评论(2) 收藏 举报
编辑profile文件没有写正确,导致在命令行下 ls等命令不能够识别。
在命令行下打入下面这段就可以了
export PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/root/bin
centos 安裝 ImageMagick imagick for php
yum install ImageMagick
yum install ImageMagick-devel
yum install php-pear [for PECL]
使用 pecl 需要 phpize , 沒的話會出現 ERROR: `phpize’ failed
把 php 相關的都裝了就OK
yum -y install php-devel
另外還要有c 編釋器
yum install gcc //如果還不了就把這個全裝了 yum install gcc gcc-c++ autoconf au ...
CentOS yum安装php版本比较老(PHP 5.1.6),现在很多程序都需要5.2.x的版本支持,所以网上找了找方法,一并记录下来。
这次更新使用的是jasonlitka的yum更新源
安装RPM-GPG-KEY-jlitka。
# rpm --import http://www.jasonlitka.com/media/RPM-GPG-KEY-jlitka
编辑CentOS-Base.repo。
# vi /etc/yum.repos.d/CentOS-Base.repo
增加下面信息
[utterramblings]
name=Jason's Utter Ramblings Repo
...
Hive 数据倾斜总结
转载:http://www.tbdata.org/archives/2109
几个比较特殊的点都提到了,大家可以作为参考。
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分配到各个reduce中,就是解决数据倾斜的根本所 ...
hadoop distcp
使用:distcp src dst
1.要求两个集群有相同的用户名,且此用户的密码也相同
2.配置/etc/hosts,使两个集群的每个结点都包含所有其它机器的主机名到ip的对应信息
3.如果两个集群用户不一样,则可以在一个集群上新建用 ...
MapReduce中Mapper类和Reducer类4函数解析
Mapper类4个函数的解析
protected void setup(Mapper.Context context) throws IOException,InterruptedException //Called once at the beginning of the task
protected void cleanup(Mapper.Context context)throws IOException,InterruptedException //Called once at the end of the task.
...
hadoop metrics 各参数解释
研究使用hadoop的人 对hadoop中详细的计数器有所了解,但是很多人在想完全清楚所有metrics时 发愁找不到资料。而且在代码中查找时介绍也比较少。先罗列出所有。
dfs.datanode.blockChecksumOp_avg_time 块校验平均时间
dfs.datanode.blockChecksumOp_num_ops 块检验次数
dfs.datanode.blockReports_avg_time 块报告平均时间
dfs.datanode.blockReports_num_ops 块报告次数
dfs.datanode.block_ ...
1. 预先生成HFile入库
这个地址有详细的说明http://blog.csdn.net/dajuezhao/archive/2011/04/26/6365053.aspx
2. 通过MapReduce入库
/* MapReduce 读取hdfs上的文件,以HTable.put(put)的方式在map中完成数据写入,无reduce过程*/
import java.io.IOException;
import org.apache.commons.logging.Log;
import org.apache.commons.logging.LogFactory;
import org. ...
如何导入导出MySQL数据库----*.sql文件操作
1. 概述
MySQL数据库的导入,有两种方法:
1) 先导出数据库SQL脚本,再导入;
2) 直接拷贝数据库目录和文件。
在不同操作系统或MySQL版本情况下,直接拷贝文件的方法可能会有不兼容的情况发生。
所以一般推荐用SQL脚本形式导入。下面分别介绍两种方法。
Linux下:
2. 方法一 SQL脚本形式
操作步骤如下:
2.1. 导出SQL脚本
在原数据库服务器上,可以用phpMyAdmin工具,或者mysqldump(mysqldump命令位于mysql/bin/目录中)命令行,导出SQL脚本。
2.1.1 用phpMyAdmin ...
hbase 使用经验。
1、单条rowkey下虽然能支持百万列,但是建议不要这么做,因为真正一个rowkey下挂了这么多数据时会在两个地方出现问题,一是查询时单行记录数据量过大,client超时;第二个问题是regionserver做compact的过程有可能被单条rowkey的数据塞满内存造成OOM
2、datanode的handler的数量不要默认值,太少,要在100左右,另外regionserver的handler的数量在200左右比较合适
3、resultScannser使用完毕记得关闭
4、HTablePool可以管理HTable。查询结束后直接用HTablePool.put ...