`
文章列表
如何手动启动Hadoop 2009-11-20 11:06 From地址为:http://hi.baidu.com/woodyzhou/blog/item/3cab4139cfa7072497ddd8c1.html   Hadoop Cluster的启动可以说十分简单,最简单的一种方法就是运行$HADOOP_HOME/bin/start-all.sh,我也相信绝大多数的人都是这么启动的。但是这个脚本里面到底做了些什么呢?让我们来抽丝剥茧的看一看: 注:不失一般性,我们这里以dfs的启动为例子,mapred的启动道理是一样的。 Dfs 的启动脚 ...
光从字面上来理解,很容易让一些初学者先入为主的认为:SecondaryNameNode(snn)就是NameNode(nn)的热备进程。其 实不是。snn是HDFS架构中的一个组成部分,但是经常由于名字而被人误解它真正的用途,其实它真正的用途,是用来 ...
搜索引擎判断复制网页一般都基于这么一个思想:为每个网页计算出一组信息指纹(Fingerprint) ,若两个网页有一定数量相同的信息指纹,则认为这两个网页的内容重叠性很高,也就是说两个网页是内容复制的。 很多搜索引擎判断内容复制的方法都不太一样,主要是以下两点的不同: 1、计算信息指纹(Fingerprint) 的算法; 2、判断信息指纹的相似程度的参数。在描述具体的算法前,先说清楚两点: 1、什么是信息指纹? 信息指纹就是把网页里面正文信息,提取一定的信息,可以是关键字、词、句子或者段落及其在网页里面的权重等,对它进行加密,如MD5加密,从而形成的一个字符串。信息指纹如同人的 ...
1:Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out Answer:程序 里面需要打开多个文件 ,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。 修改办法: 修改2个文件。         /etc/security/limits.conf vi /etc/security/limits.conf 加上: * soft nofile 102400 * hard nofile 409600     $cd /etc/pam ...
个人技术博客:http://demi-panda.com   有的时候, datanode或者tasktracker crash,或者需要向集群中增加新的机器时又不能重启集群。下面方法也许对你有用。 1.把新机器的增加到conf/slaves文件中(datanode或者tasktracker crash则可跳过) 2.在新机器上进入hadoop安装目录   $bin/hadoop-daemon.sh start datanode   $bin/hadoop-daemon.sh start tasktracker 3.在namenode上   $bin/ha ...

HDFS 安全模式

safemode模式 NameNode在启动的时候首先进入安全模式,如果 datanode 丢失的block达到一定的比例(1-dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。 dfs.safemode.threshold.pct(缺省值0.999f)表示HDFS启动的时候,如果DataNode上报的block个数达到了元 数据 记录的block个数的0.999倍才可以离开安全模式,否则一直是这种只读模式。如果设为1则HDFS永远是处于SafeMode。 下面这行摘录自NameNode启动时的日志(block上报比例1达到了阀 ...
个人技术博客:http://demi-panda.com 《Java编程思想第四版》(Thinking in Java (4th Edition))完整中文版下载 电驴上的资源,下载回来看了觉得不错,书签都已经做好了,很方便,现在分享一下! 这段是verycd上的介绍: 本书是全球程序员必备图书《Java编程思想》的最新版本 本书曾获: ·被china-pub会员评为“2007年我最喜爱的十大技术图书”之一 ·2003年《Software Development》杂志最佳书籍Jolt大奖 ·2003年《Java Developer’s Journal》读者选择最佳书 ...
1.安装Cairo-dock 2.在Dock上右击,Cairo-Dock--->配置--->附加组建--->(勾 选)weather--->应用--->(在weather上右击)--->配置此小程序--->配置--->(根据您所 在的地址填写,例如长沙,在"您的位置代码"中填CHXX0013,在"您查询的地址"中填ChangSha,China)--->应用 3.您不在长沙,不知道位置代码?别急我把它贴在这后面,你自己查! 国内: 城市 国家 代码 北京 中国 CHXX0008 上海 ...
Java 语言中的 volatile 变量可以被看作是一种 “程度较轻的 synchronized ”;与 synchronized 块相比,volatile 变量所需的编码较少,并且运行时开销也较少,但是它所能实现的功能也仅是 synchronized 的一部分。本文介绍了几种有效 ...
"^\d+$"  //非负整数(正整数 + 0) "^\[0-9\]*\[1-9\]\[0-9\]*$"  //正整数 "^((-\d+)\|(0+))$"  //非正整数(负整数 + 0) "^-\[0-9\]*\[1-9\]\[0-9\]*$"  //负整数 "^-?\d+$"    //整数 "^\d+(\.\d+)?$"  //非负浮点数(正浮点数 + 0) "^((\[0-9\]+\.\[0-9\]*\[1-9\]\[0-9\]*)\|(\[0- ...
新升级系统内存,从原来的2G加到4G,但是在使用命令查看的时候只能看到3291M,如下: view plain copy to clipboard print ? $ free -m                 total       used       free     shared    buffers     cached   Mem:          3291          801         2489            0           ...
cairo-dock中设置天气的代码 2010年05月01日 星期六 14:47 你只需要把你的城市代码填入即可,例如 CHXX0008 name=”北京” country=”中国” id=”CHXX0008″ name=” 上海” country=”中国” id=”CHXX0116″ name=”广州” country=”中国” id=”CHXX0037″ name=” 安顺” country=”中国” id=”CHXX0005″ name=”保定” country=”中国” id=”CHXX0308″ name=” 保山” country=”中国 ...
nutch过滤规则crawl-urlfilter.txt vs regex-urlfilter.txt 需要注意在conf下面的2个文件:regex-urlfilter.txt,crawl-urlfilter.txt      # skip URLs containing certain characters as probable queries, etc.      -[?*!@=] (-改+)      这段意思是跳过在连接中存在? * ! @ = 的页面,因为默认是跳过所以,在动态页中存在?一般按照默认的是不能抓取到的。可以在上面2个文件中都修改成:   ...
作者:马士华 发表于:2008-03-06 20:11 最后更新于:2008-03-07 12:44版权声明 :可以任意转载,转载时请务必以超链接形式标明文章原始出处 和作者信息。 http://www.hadoop.org.cn/mapreduce/nutch-mapreduce/   Nutch 是最早用MapReduce的项目 ...
JConsole很好用,可以解决很多疑难杂症。但远程连接需要设置一下Java opt才可以使用。一下是步骤:          1.在java opt下添加如下内容:        如果是无须验证添加        JAVA_OPTS="$JAVA_OPTS -Dcom.sun.management.jmxremote.port=12345"        JAVA_OPTS="$JAVA_OPTS -Dcom.sun.management.jmxremote.authenticate=false"        JAVA_OP ...
Global site tag (gtag.js) - Google Analytics