nutch 部分问题解决方案

博客分类：

搜索引擎学习

1.nutch建立索引成功,通过lucene直接搜索索引文件可以搜索到相关结果,但是通过nutch搜索不到结果解决方案: <property> <name>searcher.dir</name> <value>crawl</value></property> 在nutch-default.xml中配置searcher.dir的默� ...

2009-05-23 13:48
浏览 1345
评论(0)

在nutch-site.xml添加以下配置, <configuration> ... <property> <name>searcher.summary.length</name> <value>50</value>//默认为20 <description> The total number of terms to display in a hit summary. </description></property> ... </configuration> ...

2009-05-23 13:44
浏览 1369
评论(1)

Windows 下运行Nutch批处理脚本

博客分类：

搜索引擎学习

脚本 Windows Apache Mapreduce JavaScript

Windows 下运行Nutch批处理脚本日期：2007-08-03 点击： <script src="/plus/count.php?view=yes&aid=39"></script> 403 作者：不会游泳的鱼来源：字体：[ 大中小 ] <script type="text/javascript"></script><script src="http://pagead2.googlesyndicati ...

2009-05-23 13:33
浏览 1465
评论(0)

nutch0.9中的摘要提取机制源码分析

博客分类：

搜索引擎学习

lucene Apache

** * Low level api to get the most relevant (formatted) sections of the document. * This method has been made public to allow visibility of score information held in TextFragment objects. * Thanks to Jason Calabrese for help in redefining the interface. * @param tokenStream * @par ...

2009-05-23 13:28
浏览 1612
评论(2)

Nutch-0.9源代码：Injector类

博客分类：

搜索引擎学习

Hadoop Mapreduce Apache 工作

在对Nutch抓取工作流程分析中，已经简单地提及到了inject操作，如下所示： inject操作调用的是nutch的核心包之一crawl包中的类org.apache.nutch.crawl.Injector。它执行的结果是：crawldb数据库内容得到更新，包括URL及其状态。 inject操作主要作用可以从下面3方面来说明： (1) 将URL集合进行格式化和过滤，消除其中的非法URL，并设定URL状态(UNFETCHED),按照一定方法进行初始化分值； (2) 将URL进行合并，消除重复的URL入口； (3) 将URL及其状态、分值存入crawldb数据库，与原数据库中重复的则删除旧的，更换 ...

2009-05-23 11:13
浏览 1303
评论(0)

Nutch的分页功能

博客分类：

搜索引擎学习

JSP 搜索引擎 J#.net Blog

原文来自http://blog.chinaunix.net/u1/50183/showart_395349.html 搜索引擎nutch在查询搜索结果时，只有下一页功能。现在实现了分页功能，并把是show all hits删去1.删去show all hits修改： int hitsPerSite = 0; // max hits per site2.分页功能 � ...

2009-05-23 10:02
浏览 1385
评论(0)

nutch 高亮,返红

博客分类：

搜索引擎学习

Apache

从网上搜索到的让nutch高亮的例子总是不行,读了源码,自己改了,也行. 1修改类:org.apache.nutch.searcher.Summary; public String toHtml(boolean encode) { Fragment fragment = null; StringBuffer buf = new StringBuffer(); for (int i=0; i<fragments.size(); i++) { fragment = (Fragment) fragments.get(i); if (fragment ...

2009-05-23 01:14
浏览 1622
评论(2)

nutch 0.9二次开发--内存溢出

博客分类：

搜索引擎学习

Hadoop Java Apache XML thread

nutch 0.9二次开发--内存溢出在用nutch抓取网页的时候，设置了10层，运行5个多小时之后，系统提示内存溢出异常: java.lang.OutOfMemoryError: Java heap spacefetcher caught:java.lang.OutOfMemoryError: Java heap spacejava.lang.OutOfMemoryError: Java heap spacefetcher caught:java.lang.OutOfMemoryError: Java heap spaceException in thr ...

2009-05-23 00:40
浏览 1637
评论(0)

nutch 0.9二次开发--添加JE中文分词

博客分类：

搜索引擎学习

lucene Apache Ant Tomcat Web

在lucene包org.apache.lucene.analysis中，它的分词模块抽象出来了一个抽象类—Analyzer.java。这个类包含这个抽象方法 public abstract TokenStream tokenStream(String fieldName, Reader reader); 用户自定义的Analyzer主要就是实现这个方法。这个方法要返回一个token流。而要返回一个分词的完整的token流，又要写另一个类的子类，它就是——Tokenizer.java，而它又是继承自TokenStream.java的。用户自定义的Tokenizer类要写 ...

2009-05-23 00:38
浏览 2053
评论(0)

nutch 0.9二次开发--抓不到包含?等符号的URL

博客分类：

搜索引擎学习

正则表达式 ASP CSS

nutch 0.9二次开发--抓不到包含?等符号的URL 问题：使用nutch抓取不到http://www.tianya.cn/new/TianyaCity/content.asp?idItem=296&idArticle=53561&idWriter=0&key=0等URL 分析：使用nutch默认的配置过滤文件的话，是不抓取到包含?*!@=等字符的URL 解决办法：修改crawl-urlfilter的过滤规则， # The url filter file used by the crawl command. # Better for intrane ...

2009-05-23 00:36
浏览 1356
评论(0)

nutch 0.9二次开发--网页快照

博客分类：

搜索引擎学习

Bean Tomcat JSP

nutch 0.9二次开发--网页快照 nutch通过相关词进行搜索网页的时候,会查询出这个关键词对应的相关信息.. 比如:title,url,content等等. 通过URL我们可以链接到相关真实的URL. 而网页快照其实是nutch在索引时,索引以前网页的内容. 所有当点击网页快照时,我们根据索引文档的ID,去索引出原网页内容. Hit hit = new Hit(getIndexNo,getIndexDocNo); HitDetails details = bean.getDetails(hit); String content = new St ...

2009-05-23 00:35
浏览 2023
评论(0)

nutch-0.9 build.xml和.bat文件配置

博客分类：

搜索引擎学习

XML Ant JVM 脚本 Windows

在Windows下运行Nutch，很简单，只要你能执行Crawl这个类就行，写一个Ant脚本放在Nuthc的根目录下执行它就OK，内容如下： <project name="nutch-crawl" default="crawl" basedir="."> <property name="lib.dir" location="lib"/> <property name="conf.dir" location=" ...

2009-05-23 00:34
浏览 1483
评论(0)

nutch 0.9二次开发--搜索结果优化

博客分类：

搜索引擎学习

QQ 腾讯 lucene HTML Apache

使用nutch 0.9自带的程序包搜索的时候，存在一个冗余数据的情况。例如，如果想搜索关于姚明、易建联等的信息时，nutch默认会把网页中导航条或者一些标题等中包含姚明和易建联信息的页面检索出来，以腾讯为例，http://sports.qq.com/nba/的导航条部分包含了姚明和易建联。但这个页面的其他信息没有设计到姚明和易建联，所以这个页面可能实际上不是我们想要的；还有一种情况，当我们想搜索“莎娃”的时，nutch会抓取到http://sports.qq.com/a/20090108/000407.htm，但实际上“莎娃”只是在这个页面的右边超链接款上有包含“莎娃”的信息。 ...

2009-05-23 00:22
浏览 2354
评论(0)

nutch 0.9二次开发--搜索结果高亮

博客分类：

搜索引擎学习

Bean Apache HTML

方法1.将 org.apache.nutch.searcher.Summary 第107行代码修改为： public String toString() { StringBuffer buffer = new StringBuffer(); for (int i = 0; i < fragments.size(); i++) { buffer.append(fragments.get(i)); } return "<span style='color:red'>" + buffer.toString()+ &quo ...

2009-05-22 22:27
浏览 1588
评论(0)

教你索引邮件

博客分类：

搜索引擎学习

lucene QQ Gmail 算法单元测试

就是教你怎样把邮件建立索引，再搜索出来。用MAPI把邮件读取到数据库里，用SharpICTCLAS做一个lucene的中文的语汇单元分析器，用lucene建立索引及查询索引。把某目录邮件读取到数据库里的代码很简单 private static void getmails(){ _Application appOutlook = new Application(); NameSpace outlookNS = appOutlook.GetNamespace("MAPI"

2009-05-18 22:23
浏览 1921
评论(0)

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

nutch 部分问题解决方案

如何增加Nutch中Summary的长度

Windows 下运行Nutch批处理脚本

nutch0.9中的摘要提取机制源码分析

Nutch-0.9源代码：Injector类

Nutch的分页功能

nutch 高亮,返红

nutch 0.9二次开发--内存溢出

nutch 0.9二次开发--添加JE中文分词

nutch 0.9二次开发--抓不到包含?等符号的URL

nutch 0.9二次开发--网页快照

nutch-0.9 build.xml和.bat文件配置

nutch 0.9二次开发--搜索结果优化

nutch 0.9二次开发--搜索结果高亮

教你索引邮件

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>