`
文章列表
将命令环境切换到Nutch目录下,执行ant命令。出现如下错误: Java代码 Buildfile: build.xml    init:  BUILD FAILED  /home/xp/nutch-1.2/build.xml:62: Specify at least one source--a file or resource  collection.  Total time: 0 seconds 解决办法有两个: (1). 从SVN: ­http://svn.apache.org/viewvc/nutch/tags/release-1.2/conf/ ...
WARN hdfs.DFSClient: NotReplicatedYetException sleeping /user/administrator/chen3/NOTICE.txt retries left 2 10/01/07 19:50:23 INFO hdfs.DFSClient: org.apache.hadoop.ipc.RemoteException: java.io.IOException: File /user/administrator/xp/NOTICE.txt could only be replicated to 0 nodes, instead of ...
特别注意:hadoop的相关配置文件尽量使用主机名而不是ip地址(使用ip时,执行mapred可能出现“java.lang.IllegalArgumentException: Wrong FS: hdfs://192.168.9.138:9000/home/hadoop/HadoopInstall/tmp/mapred/system/job_200911032130_0008/job.xml, expected: hdfs://hadoopm:9000”这样的错误)。我在部署中,因为/etc/hosts文件书写错误造成了不小的麻烦。主要原因的是我的/etc/hosts 写错了。错误的文件如下: ...

温故而知新

又回过头来复习以前的知识了?在家里实在无聊!把之前学习过的东西整理下!反正闲着也是闲着!
使用 Memcache 进行缓存 使用缓存主要是为了提高响应速度。 HTML 页面 页面可以根据功能来划分进行缓存,请参考:应用 memcached 提升站点性能——减少读自数据库和数据源。 当然,也可以缓存整个页面,简化缓存及模板处理逻辑。 数据查询结果 如果你是直接使用 GAE DatastoreService 来进行数据查询,那么有必要缓存查询结果: 单一实体 根据唯一标识进行查询的实体。 集合实体 根据组合查询条件查询的实体,例如分页结果。 Memcache 使用注意 调用 GAE Memcache 也是会消耗一定 CPU 的(需要进行序列化/反序列化) 使用 ...
10月19日,Google对Google Search Appliance进行了更新,用户除了可以搜索本地数据之外,还可以通过同一个界面搜索来自互联网的数据。 Google Search Appliance是Google提供的一款机架式设备,它可以收录来自Oracle数据库、SAP系统、SharePoint、 Salesforce.com、HR系统、内部网、维基等平台的企业数据,然后给员工提供一个类似于Google搜索的用户界面。该设备基于一台标准的戴尔服务器,由英特尔Xeon 5500处理器驱动,最新版产品可以收录3000万份文档。 新添加的“Cloud Connect”功能可以让企业 ...
已经有越来越多的专家看到缺乏云计算标准将会无形中阻碍到人们接受云计算,这主要源于对云供应商锁定用户的担忧和对不同云计算之间虚拟机与数据迁移的无助。 如今,仅有云计算标准——Open Virtualization Format(OVF)。它是 ...
1、确保这台机子上已经安装了tomcat. 2、把nutch-1.2/nutch-1.2.war拷贝到$TOMCAT_HOME/webapps. 3、进入$TOMCAT_HOME/webapps/WEB-INF/classes.    3.1 配置nutch-site.xml        <property>              <name>http.agent.name</name>       <value>nutch-1.0</value>       <description>HTTP 'Use ...
Nutch readdb命令可以用来统计目前crawldb库里面URL的情况 root@namenode:/# bin/crawler readdb /user/root/crawl/crawldb -stats CrawlDb statistics start: /user/root/crawl/crawldb Statistics for CrawlDb: /user/root/crawl/crawldb TOTAL urls:    26400413 retry 0:    26366653 retry 1:    33760 min score:    0.054 avg ...
下面是nutch fetch job中map shuffle reduce的时间花费的一个列表: server name Fri Mar 05 09:45:13 GMT 2010 job_201003050945_0006 fetch crawl/segments/20100305102846 user name User : username   --用户名JobName : fetch crawl/segments/20100305102846  --job的名称JobConf : hdfs://servername:9000/opt/crawl ...
tar命令 [root@linux ~]# tar [-cxtzjvfpPN] 文件与目录 .... 参数: -c :建立一个压缩文件的参数指令(create 的意思); -x :解开一个压缩文件的参数指令! -t :查看 tarfile 里面的文件! 特别注意,在参数的下达中, c/x/t 仅能存在一个!不可同时存在! 因为不可能同时压缩与解压缩。 -z :是否同时具有 gzip 的属性?亦即是否需要用 gzi ...
先将export LANG=zh_CN加入/etc/profile ,退出系统重新登录,登录提示显示英文。将/etc/profile 中的export LANG=zh_CN删除,将LNAG=zh_CN加入/etc/environment,退出系统重新登录,登录提示显示中文。用户环境建立的过程中总 是先执行/etc/profile然后在读取/etc/environment。为什么会有如上所叙的不同呢? 应该是先执行/etc/environment,后执行/etc/profile。 /etc/environment是设置整个系 ...
今天早上12点刚到北京,一下火车就急急忙忙的赶往公司。到了公司把早上的半天假给补上。整整做了12个小时的火车!并且还没有座,我的天哪!车上那个急呀!挪个脚都困难! 今年是关键的一年!争取在事业上有所突破!谢谢大家长期的支持!加油!
    今天早上起了个大早,老妈给下了饺子!一家人围着圆桌子吃饺子,我心里想要是能吃上个元宝饺子(饺子里有钱)!这 一年就能事事顺心!工作顺利!哎!可惜啊!都吃了两碗了,还没有!算了。先去拜年吧!     先去了姥爷姥姥家!给他们摆了个年!陪着他们拉拉家常!挺好!接着去二叔、三叔、四叔家都给他们分别拜了年!同学给我打电话让出去玩,我没去,大过年的在家里陪陪媳妇,老爹老娘我觉得挺好的!
昨天从黄牛党手上拿了一张高价票。加了100.哎!这年头在外面忙了一年了,也该回家看看老爹老娘了。加100也得要啊!28号晚上就出发。 希望大家新的一年里,心想事成!万事如意!
Global site tag (gtag.js) - Google Analytics