`
lovejuan1314
  • 浏览: 342687 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论
文章列表
想把Nutch抓取的web page结果放入到Hypertable中去,目前思路主要有三个: 1. 修改Nutch源代码,让Nutch基于Hypertable工作,可以参考Hbase的实现. 由于该实现缺失Nutch好多特性,而且不易升级,考虑作罢. 2. 将Nutch抓取结果以命令导出为text的dump文件,然后用MapReduce解析该文件,哪相关信息到Hypertable. 3. 其实和第一一样,只不过是直接使用人家已经改好的基于Hbase的实现,然后导出一份tsv文件导入到Hypertable. 不仅融合了第一的缺点还增加了麻烦. 不考虑. 好,以下代码基于第二种思想实现. ...
# cd /Library/Application Support/VMware Fusion # sudo ./vmware-vdiskmanager -x 20GB training-0.2.vmdk #Error The selected operation can only be executed on a disk with no snapshots. # sudo ./vmware-vdiskmanager -r training-0.2.vmdk -t 0 training-0.3.vmdk #Info Convert: 100% done. Vir ...
hadoop fs -rmr /hypertable rmr: org.apache.hadoop.dfs.SafeModeException: Cannot delete /hypertable. Name node is in safe mode. #### turn off hadoop safe mode firstly hadoop dfsadmin -safemode leave hadoop fs -rmr /hypertable #开启safe mode hadoop dfsadmin -safemode enter ## hadoop safe m ...
well . . . if you want to make it one big partition: fdisk /dev/sdb Now you'll be inside of fdisk n this creates a new partition p for primary partition 1 will be the number of the disk Hit enter, to start at the beginning, and enter again to stop at the end. Then hit ...
Ubuntu 8.10 Intrepid Ibex 32-bit EC2: ami-5c709435 Basic Dependencies apt-get update apt-get install g++ cmake libboost-dev liblog4cpp5-dev git-core cronolog libgoogle-perftools-dev libevent-dev zlib1g-dev libexpat1-dev libdb4.6++-dev libncurses-dev libreadline5-dev wget http://internap. ...
Nutch 得到Related Link以及动态内容 1. vi conf/crawl-urlfilter.txt #+[?*!@=] # 添加接受链接带? = &字符的 # accept URLs containing certain characters as probable queries, etc. +[?=&] ## 抓取程序链接/apps/application.php?id=在网页中是动态的相对链接地址 +^http://www.test01.com/apps/application.php?id=([0-9]) 2. vi con ...
cat access.log-20090904 |awk '{print $3}'|sort|uniq -c|sort -rn|wc -l
SQL> drop user test cascade; drop user test cascade * ERROR at line 1: ORA-01940: cannot drop a user that is currently connected SQL> select username,sid,serial# from v$session; USERNAME SID SERIAL# ------------------------------ ---------- ---------- SYSMAN ...
维护的客户系统因为误操作删除了数据,立即进行rman恢复数据到一个测试环境,然后依据相关表间关系逐步恢复数据到生产环境.由于涉及范围比较大,必须慎重行事.. 但是其中有好几个表都使用了Oracle的long类型字段给恢复带来了麻烦.. 第一,不能直接generate出sql脚本来批量执行,因为long类型字段中有好多值非常大会报字符太长的错误. 所以不可能挨着个的检查和逐个执行脚本. 第二,自己写PL/SQL先查出来long类型的字段以及主键ID值,先批量把其他字段值插完,然后使用游标逐个更新long字段,但是由于数据过多,PL/SQL同样报错.(这个估计是oracle建立时的某个参数的设置 ...
由于需要在本地做一下测试,但是由于本地创建oracle和服务器上的目录结果不同,所以一开始没有成功.先记录一下作为备忘. --- 导出数据 --- ### 注意 directory=/data1/oracle/wkdir 这一项是本地的oracle服务器上的directory目录,如不清楚可以先在本地的oracle服务器上查询一下 SELECT * FROM DBA_DIRECTORIES; --- 在服务器导出数据,排除test1,test2两个大表 expdp dbUser/dbPass@bocc SCHEMAS=dbUser directory=/data1/ora ...
转自:http://qiuqian.info/2009/08/04/18 rsync在我看来是个很另类的东东,最近需要用它同步数据,于是仔细研究了一下它如何在同步时排除某些文件或目录。 本例是说明如何排除tmp目录下的abcd目录: 1. rsync -av -e ssh –exclude-from=ex vm:/home/user/tmp /home/user/temp/ 这将在temp目录下新建tmp目录,ex文件的内容是/tmp/abcd 2. rsync -av -e ssh –exclude-from=ex vm:/home/user/tmp/ /home/user/temp/ ...
转自:http://evan.bloghome.cn/posts/12563.html 在Linux下使用 tar 命令来将文件打包并压缩是很通常的用法了。可是Linux的文件系统对文件大小有限制,也就是说一个文件最大不能超过2G,如果压缩包的的内容很大,最后的结果就会超过2G, ...
转自http://www.blogjava.net/hardson/archive/2006/10/11/58476.html 整理得很好,总结. //用JAVA自带的函数 public static boolean isNumeric(String str){ for (int i = str.length();--i>=0;){ if (!Character.isDigit(str.charAt(i))){ return false; } } return true; } //用正则表达式 public stati ...
## ### [b]Whole-web: Boostrapping the Web Database[/b] wget http://www.alliedquotes.com/mirrors/apache/lucene/nutch/nutch-0.9.tar.gz ## unzip tar xzvf nutch-0.9.tar.gz mv nutch-0.9 nutch cd nutch ## 得到一个url list 文件 wget http://rdf.dmoz.org/rdf/content.rdf.u8.gz ## 解压文件 gunzip content.rdf.u ...
#get vnstat package wget -O vnstat.tar.gz http://humdi.net/vnstat/vnstat-1.7.tar.gz # unzip tar -xzvf vnstat.tar.gz cd vnstat-1.7 #INSTALL make make all make install #initial vnstat -u -i eth0 #use vnstat -tr -l eth0 ### Result ### 133 packets sampled in 5 seconds Traffic averag ...
Global site tag (gtag.js) - Google Analytics