- 浏览: 217840 次
- 性别:
- 来自: 武汉
-
最新评论
-
markos_xju:
学会了
简单好用的网络爬虫spider/crawler -
markos_xju:
很有用。
在eclipse下编译运行nutch -
thebye85:
thebye85 写道houwen 写道 脑袋雷劈的 写道如果 ...
log4j xml配置详解 -
thebye85:
houwen 写道 脑袋雷劈的 写道如果这个appender中 ...
log4j xml配置详解 -
chenhailong:
很好的文章,虽然少,但很精练。
其实你还少了activexAp ...
log4j中logger标签的用途
文章列表
Nutch主要分为两个部分:爬虫crawler和查询searcher。Crawler主要用于从网络上抓取网页并为这些网页建立索引。 Searcher主要利用这些索引检索用户的查找关键词来产生查找结果。两者之间的接口是索引,所以除去索引部分,两者 ...
- 2008-10-24 11:19
- 浏览 3899
- 评论(0)
nutch作为开源代码,为热爱搜索引擎的开发人员们提供了很好的学习平台,0.8版本开始,采用了Hadoop作为自己的分布式文件系统,更是把nutch同其他开源搜索引擎的差距拉开。 ntuch提供了一个高效、开源、易操作的搜索引擎,内部有许多细微之处都是值得借鉴的,例如采用了hadoop的分布式文件系统,类似eclipse 的插件技术,apache的httpclient来访问网站,org.cyberneko.html得HtmlParse来解析页面等等。 nutch的官方网站:http://lucene.apache.org/nutch/ nutch的入门文章:http://lucene.a ...
- 2008-10-24 09:25
- 浏览 1661
- 评论(0)
上午师兄过来视察工作,觉得我调研的期刊论文都是“又陈旧又低级”,他手把手地教我如何查找顶级期刊论文会议等,在这里要狠狠感谢下他,呵呵,本人又将它贴上,与大家共勉:
IR
(
Information Retrieval
)信息提取
SIGIR
(
Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval
):信息检索方面最好的会议
, ACM
主办
,
每年开
.
TREC
(
Text REtrieval Conference
)
AIRS
...
- 2008-10-16 11:19
- 浏览 1995
- 评论(0)
昨天室友让我一笔写“田”字,想了好久没有结果,百度一下,有如下定理:
一笔画的规律:
1.凡是由偶点组成的连通图,一定可以一笔画成。画时可以把任一偶点为起点,最后一定能以这个点为终点画完此图。
2.凡是只有两个奇点的连通图(其余都为偶点),一定可以一笔画成。画时必须把一个奇点为起点,另一个奇点终点。
3.其他情况的图都不能一笔画出。
注:与奇数(单数)条边相连的点叫做奇点;与偶数(双数)条边相连的点叫做偶点。
由于“田”字有4个奇点、5个偶点,因此,该字不可能一笔完成。
没事干就想写个小程序找下其解,根据对称性,分别从“田”字的顶点(四个角的点)、外边中间的点、和中心 ...
- 2008-10-15 15:44
- 浏览 7254
- 评论(1)
Map的get()源码如下:
public V get(Object key) {
if (key == null)
return getForNullKey();
int hash = hash(key.hashCode()); //返回key对应的hash值
for (Entry<K,V> e = table[indexFor(hash, table.length)];
e != null;
e = e.next) { // 调用equals()逐个比较k ...
- 2008-10-15 11:13
- 浏览 3233
- 评论(0)
package spider;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.HashSet;
import java.util.LinkedHashSet;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class SearchCr ...
- 2008-10-14 11:26
- 浏览 3886
- 评论(1)
偶尔看到一题:用3 3 8 8 四个数和加减乘除组合得出24,前提是用完这四个数,几年没好好思考了,偶算了半天没答案,就写了个穷举算法,呵呵,貌似结果只有一种啊,各位兄台还有其它答案么?
package my;
public class DigitalPuzzle {
private float[] operands=new float[]{3.0f, 3.0f, 8.0f, 8.0f};
private int[] operators=new int[]{0, 1, 2, 3};//0 1 2 3 stand for + - * /
private float[][] allSerie ...
- 2008-10-14 10:52
- 浏览 8776
- 评论(0)
第三代搜索核心特征的日渐显露:
到现在为止,第三代搜索还没有一个清晰的概念,但从当代搜索的种种不愉快的体验,我们可以推断用户的需求,从而可以明确得知第三代搜索亟待解决的问题,即第三代搜索的方向:
(1)搜 ...
- 2008-08-26 10:05
- 浏览 1361
- 评论(0)
XWork
配置文件是以“
xwork
”命名的
.xml
文件,它必需放到类路径(
classPath
)的根目录,
Web
应用一般放在
classes
目录中,它需要遵守
DTD
的规范(现在是
xwork-1.0.dtd
)。这个文件定义了我们的
Action
,
Interceptor
,
Result
的配置和相互之间的映射。下面我们看看用户注册的完整
XWork
配置文件:
<!DOCTYPE xwork PUBLIC "-//OpenSymphony Group//XWork 1.0//EN" "http://www.ope ...
- 2008-08-23 17:28
- 浏览 1724
- 评论(0)
一、EL简介
1.语法结构
${expression}
2.[]与.运算符
EL 提供.和[]两种运算符来存取数据。
当要存取的属性名称中包含一些特殊字符,如.或?等并非字母或数字的符号,就一定要使用 []。例如:
${use ...
- 2008-08-23 17:10
- 浏览 1698
- 评论(0)
一、dispatcher
(1)为缺省的result类型,一般情况下我们在struts.xml会这么写:
<result name="success">/main.jsp</result>
以上写法使用了两个默认,其完整的写法为:
<result name="success" type="dispatcher">
<param name="location">/maini.jsp</param>
</result>
第一个默 ...
- 2008-08-23 13:46
- 浏览 8039
- 评论(0)
1.RequestDispatcher.forward()
(1)是在服务器
端起作用,当使用forward()时,Servletengine传递HTTP请求从当前的Servlet or
JSP到另外一个Servlet,JSP
或普通HTML文件,也即你的form提交至a.jsp,在a.jsp用到了forward()重定向至b.jsp,此时form提交的所有信息在
b.jsp都可以获得,参数自动传递
.
(2)forward()无法重定向至有frame的jsp文件,可以重定向至有frame的html文件,同时forward()无法在后面带参数
传递,比如servlet?name=frank ...
- 2008-08-23 11:02
- 浏览 1683
- 评论(0)
以下测试仅是本人无聊时的游戏,不能说明任何问题,况且本人一向很佩服google,baidu。我只是想对大家说,搜索的发展空间是很大的,我们还处在“搜索主义的初级阶段”。
test 1: google搜索结果的重复项
ps: 汗!第一页的链 ...
- 2008-08-21 21:14
- 浏览 1465
- 评论(0)
搜索历史的回顾
第一代搜索
以Altavista、YAHOO和Infoseek为代表的第一代搜索出现于1994年前后,采用的基本方法是由网页制作人自行建立网站名称、网站内容的文字摘要,并将其加入到搜索引擎的资料库中。其主要的缺点是:(1 ...
- 2008-08-21 19:40
- 浏览 1686
- 评论(0)