- 浏览: 101518 次
- 性别:
- 来自: 长沙
最新评论
-
somefuture:
Object object = new Object() { ...
Java创建对象实例的三种方法 -
koubi1986:
你好!请教一些问题:请问一下1。你是如何把nutch抓取到的二 ...
Nutch 使用入门(一)——准备工作及Intranet抓取 -
zengdingshan:
在哪儿能下到源码,学习下
基于Extjs的桌面风格网站 -
lionbule:
softkid 写道dianziermu 写道貌似还有一种:运 ...
Java创建对象实例的三种方法 -
xanodu:
请问nutch用的是哪个版本?
Nutch 使用入门(二)——互联网抓取
文章列表
/**
*本人亦初学者,如有不正确的地方请多多指教。谢谢!
javacc NutchAnalysis.jj *部分内容参考自互联网,如有冒犯,请见谅。
**/
基本信息
本文介绍了如果为Nutch添加中文分词,详细描述了添加中文分词的步骤和应该注意的问题。
准备工作
1.Nutch,到http://nutch.apache.org/
下载nutch-1.0.tar.gz,下载后直接解压缩即可。
2.javacc,到https://javacc.dev.java.net/
下载javacc-5.0.zip,下载后同样解压缩 ...
/**
*本人亦初学者,如有不正确的地方请多多指教。谢谢!
*部分内容参考自互联网,如有冒犯,请见谅。
**/
Nutch的配置文件主要有三类:
1.Hadoop的配置文件,Hadoop-default.xml和Hadoop-site.xml。
2.Nutch的配置文件,Nutch-default.xml和Nutch-site.xml。
3.Nutch的插件的配置文件,这些插件的配置文件在加载插件的时候由插件自行加载,如filter的配置文件。
配置文件的加载顺序决定了配置文件的优先级,先加载的配置文件优先级低,后加载的配置文件优先级高,优先级低的配置会被优先 ...
/**
*本人亦初学者,如有不正确的地方请多多指教。谢谢!
**/
Nutch
互联网抓取
1.
下载列表获取
真正实现全互联网数据抓取需要一个比较大的入口
URL
列表,幸运的是
Nutch
在设计时考虑到了这个问题。通过
DmozPraser
工具提供了对开放式互联网
DMOZ
目录库的支持。
DMOZ
目录库可以直接从网上下载使用,目前最新版的数据压缩文件
content.rdf.u8.gz
有
295MB
,解压缩后达到
1.91GB
。使用
DmozPraser
工具可以从文件中随机抽取部分数据,生成文 ...
/**
*本人亦初学者,如有不正确的地方请多多指教。谢谢!
**/
环境要求:
1.JDK1.5 或者更高。
2.Tomcat5.x 或者更高。
3.windows下需要Linux仿真环境Cygwin来提供Shell支持。
准备工作:
1.下载安装Nutch,你可以从http://lucene.apache.org/nutch/release/ 下载,然后解压即可。我这里解压到 D:Nutch-1.0.
2.在Cygwin命令窗口中,使用Shell命令“cd /cygdrive/d/nutch-1.0"切换 ...
面试过程中,面试官会向应聘者发问,而应聘者的回答将成为面试官考虑是否接受他的重要依据。
对应聘者而言,了解这些问题背后的“猫腻”至关重要。本文对面试中经常出现的一些典型问题进行了整理,
并给出相 ...
- 2009-11-06 17:13
- 浏览 2366
- 评论(0)
Web 应用要适应多语言的需求。不同国家的用户应该可以输入本国语言的字符, 同时 Web 应用又应该可以根据不同的区域设置来用多国语言显示页面。
当前,不同的语言有不同的编码方式来显示对应的语言信息,例如中文可以用 GB2312 编码来显示,日文可以用 Shift-JIS
编码来显示。但 UTF-8 编码方式几乎可以包括了所有的语言字符。用 UTF-8 编码来处理 Web 应用信息的输入和显示可以使不同 Web
应用之间的信息交互标准化,并且可以简化应用的开发过程。 UTF-8 编码介绍
...
- 2009-11-06 16:57
- 浏览 1447
- 评论(0)
一、术语session
在我的经验里,session这个词被滥用的程度大概仅次于transaction,更加有趣的是transaction与session在某些语境下的含义是相同的。
session,中文经常翻译为会话,其本来的含义是指有始有终的一系列动作/消息,比如打电话时从拿起电话拨号到挂断电话这中间的一系列过程可以称之
为一个session。有时候我们可以看到这样的话“在一个浏览器会话期间,...”,这里的会话一词用的就是其本义,是指从一个浏览器窗口打开到关闭这
个期间①。最混乱的是“用户(客户端)在一次会话期间”这样一句话,它可能指用户的一系列动作(一般情况下是同某 ...
- 2009-10-17 18:53
- 浏览 1128
- 评论(0)
历经近一个月的学习和开发,基于Extjs和开源框架(Struts+Spring+Hibernate),数据库使用MysQL的蓝杰网终于上线了。
前台使用Extjs源码中带的sample desktop,界面非常简洁,漂亮,具有典型的RIA风格,后台使用Viewpo ...
我准备发一些Java的小Quiz,这些题目看似比较简单,但如果一不小心,就会得出错误的结论,大家小心咯。
如果你有什么意见或者建议,请留言或者加我的QQ:472429029,验证信息写Java,javaeye什么的都行。
1.下面代码会编译成功吗?如果会,那么运行结果是?
/**
* created on 2009-4-14
* Author softkid
*/
package cn.softkid;
public class AQuestion {
private int i = giveMeJ();//(1)
pr ...
我准备发一些Java的小Quiz,这些题目看似比较简单,但如果一不小心,就会得出错误的结论,大家小心咯。
如果你有什么意见或者建议,请留言或者加我的QQ:472429029,验证信息写Java,javaeye什么的都行。
一。请问下面的代码的运行结果是?
/**
* created on 2009-4-13
* Author softkid
*/
package cn.softkid;
public class MulOrAdd {
public static void main(String[] args) { ...
Java有一下三种方法可以创建对象实例。
1.new
通常都是使用java的关键字new来创建对象实例。
若有一个Something类,则可以通过下面的语句创建Something类的对象实例并指定到变量obj。
Something somethingNew = new Something();
通过new创建对象实例必须把类名写在原代码里面。
2.clone
若程序写成如下,则可以根据当前对象(this)建立一个新实例对象(没有调用构造函数).
public class Something implements Cloneable{
private Something obj;
pub ...
- 2008-12-13 00:28
- 浏览 33541
- 评论(4)
突然想把自己安装JDK和配置环境变量记录一下,主要是因为前几天装了ubuntu8.10,昨天不知道发什么神经,卸载了改装
ultimate2.0,再装JDK的时候,发现自己忘记了安装的细节,又到网上去查阿找的。结果多花了很多的时间。现在好了,写在自己的博客里面。万一忘记了,看看自己的博客就一目了然,也不用担心别人写的东西可能会是错误的。好了,言归正传。
第一步:下载JDK。我下载的是jdk-6u10-linux-x64.bin。当然也可以使用 sudo apt-get install.但是速度出奇的慢。而且,天知道是哪个版本的。
第二步:修改权 ...
由于myeclipse网站上不提供myeclipse6.6GA的linux版本的下载,所以安装起来要麻烦一点。
首先。安装eclipse3.3 classic。在网上下载linux版本后解压缩即可。
http://www.eclipse.org/downloads/moreinfo/classic.php.
我下载的是3.3.2版本的。eclipse-SDK-3.3.2-linux-gtk-x86_64.tar.gz
接下来。打开eclipse 执行下面的操作。
Help->Software Updates->Find and Install->Search for ne ...
DWRUtil.addOptions有5种模式
数组:
DWRUtil.addOptions(selectid, array) 会创建一堆option,每个option的文字和值都是数组元素中的值。
对象数组 (指定text):
DWRUtil.addOptions(selectid, data, prop) 用每个数组元素创造一个option,option的值和文字都是在prop中指定的对象的属性。
对象数组 (指定text和value值):
DWRUtil.addOptions(selectid, array, valueprop, textprop) 用每个数组元素创造一个optio ...
- 2008-11-12 23:37
- 浏览 4964
- 评论(0)
通过将 Struts 动作委托给 Spring 框架而整合 Struts 和 Spring 的一个主要的优点是:您可以将 Spring 的 AOP 拦截器应用于您的 Struts 动作。通过将 Spring 拦截器应用于 Struts 动作,您可以用最小的代价处理横切关注点。
现在向大家介绍一下如果创建自己的拦截器并把它应用于Struts的动作。为了使用拦截器,需要做下面的工作。
1,创建一个日志拦截器
/**
* 一个简单的日志记录拦截器
*/
package cn.dip.struts.filter;
import java.lang ...