- 浏览: 342687 次
- 性别:
- 来自: 北京
最新评论
-
lovebegar:
很有价值,之前自己写都是第一种,学习了~
Oracle 多行合并一行 方法 -
zuodang:
我尝试在windows中搭环境编译 curl-java-mas ...
有强大的cURL,忘掉httpclient的吧! -
buildhappy:
同求http://www.gknw.de/mirror/cur ...
有强大的cURL,忘掉httpclient的吧! -
zgf_091:
好早的文章,现在才看到,就是这个链接http://www.gk ...
有强大的cURL,忘掉httpclient的吧! -
huchuhan:
LZ应该贴个例子出来, 网上这方面的东西太少了.
有强大的cURL,忘掉httpclient的吧!
文章列表
想把Nutch抓取的web page结果放入到Hypertable中去,目前思路主要有三个:
1. 修改Nutch源代码,让Nutch基于Hypertable工作,可以参考Hbase的实现. 由于该实现缺失Nutch好多特性,而且不易升级,考虑作罢.
2. 将Nutch抓取结果以命令导出为text的dump文件,然后用MapReduce解析该文件,哪相关信息到Hypertable.
3. 其实和第一一样,只不过是直接使用人家已经改好的基于Hbase的实现,然后导出一份tsv文件导入到Hypertable. 不仅融合了第一的缺点还增加了麻烦. 不考虑.
好,以下代码基于第二种思想实现.
...
#
cd /Library/Application Support/VMware Fusion
#
sudo ./vmware-vdiskmanager -x 20GB training-0.2.vmdk
#Error
The selected operation can only be executed on a disk with no snapshots.
#
sudo ./vmware-vdiskmanager -r training-0.2.vmdk -t 0 training-0.3.vmdk
#Info
Convert: 100% done.
Vir ...
- 2009-09-18 12:37
- 浏览 2426
- 评论(0)
hadoop fs -rmr /hypertable
rmr: org.apache.hadoop.dfs.SafeModeException: Cannot delete /hypertable. Name node is in safe mode.
#### turn off hadoop safe mode firstly
hadoop dfsadmin -safemode leave
hadoop fs -rmr /hypertable
#开启safe mode
hadoop dfsadmin -safemode enter
## hadoop safe m ...
- 2009-09-17 15:59
- 浏览 2223
- 评论(0)
well . . . if you want to make it one big partition:
fdisk /dev/sdb
Now you'll be inside of fdisk
n
this creates a new partition
p
for primary partition
1
will be the number of the disk
Hit enter, to start at the beginning, and enter again to stop at the end.
Then hit ...
- 2009-09-17 15:51
- 浏览 1198
- 评论(0)
Ubuntu 8.10 Intrepid Ibex 32-bit
EC2: ami-5c709435
Basic Dependencies
apt-get update
apt-get install g++ cmake libboost-dev liblog4cpp5-dev git-core cronolog libgoogle-perftools-dev libevent-dev zlib1g-dev libexpat1-dev libdb4.6++-dev libncurses-dev libreadline5-dev
wget http://internap. ...
Nutch 得到Related Link以及动态内容
1. vi conf/crawl-urlfilter.txt
#+[?*!@=]
# 添加接受链接带? = &字符的
# accept URLs containing certain characters as probable queries, etc.
+[?=&]
## 抓取程序链接/apps/application.php?id=在网页中是动态的相对链接地址
+^http://www.test01.com/apps/application.php?id=([0-9])
2. vi con ...
- 2009-09-09 19:10
- 浏览 1581
- 评论(0)
cat access.log-20090904 |awk '{print $3}'|sort|uniq -c|sort -rn|wc -l
- 2009-09-08 10:47
- 浏览 2989
- 评论(0)
SQL> drop user test cascade;
drop user test cascade
*
ERROR at line 1:
ORA-01940: cannot drop a user that is currently connected
SQL> select username,sid,serial# from v$session;
USERNAME SID SERIAL#
------------------------------ ---------- ----------
SYSMAN ...
- 2009-09-02 15:26
- 浏览 2538
- 评论(0)
维护的客户系统因为误操作删除了数据,立即进行rman恢复数据到一个测试环境,然后依据相关表间关系逐步恢复数据到生产环境.由于涉及范围比较大,必须慎重行事.. 但是其中有好几个表都使用了Oracle的long类型字段给恢复带来了麻烦..
第一,不能直接generate出sql脚本来批量执行,因为long类型字段中有好多值非常大会报字符太长的错误. 所以不可能挨着个的检查和逐个执行脚本.
第二,自己写PL/SQL先查出来long类型的字段以及主键ID值,先批量把其他字段值插完,然后使用游标逐个更新long字段,但是由于数据过多,PL/SQL同样报错.(这个估计是oracle建立时的某个参数的设置 ...
- 2009-09-01 11:38
- 浏览 1572
- 评论(0)
由于需要在本地做一下测试,但是由于本地创建oracle和服务器上的目录结果不同,所以一开始没有成功.先记录一下作为备忘.
--- 导出数据
--- ### 注意 directory=/data1/oracle/wkdir 这一项是本地的oracle服务器上的directory目录,如不清楚可以先在本地的oracle服务器上查询一下
SELECT * FROM DBA_DIRECTORIES;
--- 在服务器导出数据,排除test1,test2两个大表
expdp dbUser/dbPass@bocc SCHEMAS=dbUser directory=/data1/ora ...
- 2009-08-26 16:03
- 浏览 2655
- 评论(0)
转自:http://qiuqian.info/2009/08/04/18
rsync在我看来是个很另类的东东,最近需要用它同步数据,于是仔细研究了一下它如何在同步时排除某些文件或目录。
本例是说明如何排除tmp目录下的abcd目录:
1. rsync -av -e ssh –exclude-from=ex vm:/home/user/tmp /home/user/temp/
这将在temp目录下新建tmp目录,ex文件的内容是/tmp/abcd
2. rsync -av -e ssh –exclude-from=ex vm:/home/user/tmp/ /home/user/temp/ ...
- 2009-08-26 12:44
- 浏览 6414
- 评论(0)
转自:http://evan.bloghome.cn/posts/12563.html
在Linux下使用 tar 命令来将文件打包并压缩是很通常的用法了。可是Linux的文件系统对文件大小有限制,也就是说一个文件最大不能超过2G,如果压缩包的的内容很大,最后的结果就会超过2G, ...
- 2009-08-26 12:43
- 浏览 4175
- 评论(0)
转自http://www.blogjava.net/hardson/archive/2006/10/11/58476.html
整理得很好,总结.
//用JAVA自带的函数
public static boolean isNumeric(String str){
for (int i = str.length();--i>=0;){
if (!Character.isDigit(str.charAt(i))){
return false;
}
}
return true;
}
//用正则表达式
public stati ...
- 2009-08-26 11:39
- 浏览 2417
- 评论(1)
## ### [b]Whole-web: Boostrapping the Web Database[/b]
wget http://www.alliedquotes.com/mirrors/apache/lucene/nutch/nutch-0.9.tar.gz
## unzip
tar xzvf nutch-0.9.tar.gz
mv nutch-0.9 nutch
cd nutch
## 得到一个url list 文件
wget http://rdf.dmoz.org/rdf/content.rdf.u8.gz
## 解压文件
gunzip content.rdf.u ...
- 2009-08-17 17:38
- 浏览 1636
- 评论(0)
#get vnstat package
wget -O vnstat.tar.gz http://humdi.net/vnstat/vnstat-1.7.tar.gz
# unzip
tar -xzvf vnstat.tar.gz
cd vnstat-1.7
#INSTALL
make
make all
make install
#initial
vnstat -u -i eth0
#use
vnstat -tr -l eth0
### Result ###
133 packets sampled in 5 seconds
Traffic averag ...
- 2009-07-28 18:03
- 浏览 2968
- 评论(0)