- 浏览: 23070 次
- 性别:
- 来自: 上海
最近访客 更多访客>>
最新评论
-
solomon:
晕.比我的ID差一个字母.
"本文为solomon ...
〇,概述与索引 -
talangniao:
???????????????
〇,概述与索引 -
talangniao:
怎么在nutch1.0使用ikanalyzer分词,有没有尝试 ...
二,nutch 1.0 web应用部署 -
ansjsun:
抓取完毕会有一个报告,我这次抓的东西比较少,所以没看出来
少他 ...
三,nutch 1.0 爬虫配置与运行 -
coolasp:
...
〇,概述与索引
文章列表
七大IT狂热门派,你属于哪一派?
如果你在技术圈子泡了太久,有些东西就开始进入你的骨子里——可能会是一个小发明,可能是你喜爱的一台老式电脑,或者你花了几个月才弄懂的编程语言。然后,你就会发现:生活和以前 ...
- 2009-05-11 10:23
- 浏览 1057
- 评论(0)
本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接http://zolomon.iteye.com).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料http://www.google.com/profiles/solomon.royarr
好不容易有空闲一天的时间写点东西,
可是发现这离开已久(其实只有几天)的办公环境已经没有所需足够的资料.
这边的网速连下载一个nutch也会影响到同事工作,
所以先拿一个网上找到的过去的nutch版本的配置文件讲解一下,
回头再修改成对应nutch 1.0的版本. ...
- 2009-05-04 11:04
- 浏览 5185
- 评论(0)
本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接http://zolomon.iteye.com).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料http://www.google.com/profiles/solomon.royarr
本专题包括9个部分.
前3个部分在实施人员的使用层面,
第4部分提供更详细的nutch配置属性的讲解,
第5部分在开发人员的使用层面,
6到8部分在源码研究层面,
第9部分是在二次开发(zh本地化)之后linux实施与管理员如何使用nutch提供的命令与工具进行大 ...
本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接http://zolomon.iteye.com).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料http://www.google.com/profiles/solomon.royarr
在解压出来的目录下的bin目录里建立urls文件夹,
在里面创建url.txt,内容为http://www.17173.com
这里为要抓取的入口路径,可以设置多个值,也可以放置多个txt文件
然后在cygwin里面进入这个bin目录,
输入./ ...
- 2009-04-23 09:13
- 浏览 3749
- 评论(1)
本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接http://zolomon.iteye.com).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料http://www.google.com/profiles/solomon.royarr
a)将解压出来目录中的nutch-1.0.war放到tomcat的webapps目录下.
使用winrar打开.war文件,修改里边的配置文件.
b)修改WEB-INF\classes\crawl-urlfilter.txt
-[?*!@=] ...
- 2009-04-23 09:10
- 浏览 3934
- 评论(1)
本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接http://zolomon.iteye.com).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料http://www.google.com/profiles/solomon.royarr
1)下载nutch 1.0
读者可以选择下面2种中的1种下载nutch.
初学者可以选择第a种,如果想从源码开始的同学可以选择b方式下载.
选择a方式的读者可以在完成a步之后继续下面第2)步解压nutch1.0,
选择b方式的读者请直接跳到7)步 ...
- 2009-04-23 09:09
- 浏览 5263
- 评论(0)
.tar
解包: tar xvf FileName.tar
打包:tar cvf FileName.tar DirName
(注:tar是打包,不是压缩!)
---------------------------------------------
.gz
解压1:gunzip FileName.gz
解压2:gzip -d FileName.gz
压缩:gzip FileName
.tar.gz 和 .tgz
解压:tar zxvf FileName.tar.gz
压缩:tar zcvf FileName.tar.gz DirName
- ...
- 2009-04-22 12:52
- 浏览 2443
- 评论(0)