`

Nutch学习心得

阅读更多

用Nutch成功搭建了站内搜索的环境。遇到很多问题是很多很多的,但是办法总比困难多

这里杂乱的说说。

比如Nutch给出的demo中,很多配置文件都是直接写在conf,也就是编译的根目录底下。当我用svn提交自己项目以后,别人check out下来,根本就用不了。

还有自己看了看Nutch0.9高亮处理,与0.8也许多不同。

0.8高亮显示比较简单,网上也有很多介绍代码。修改如下:

将org.apache.nutch.searcher.Summary 第 54行 代码 修改为:

 public String toString() { return "<span style='color:red'>" + super.toString() + "</span>"; }

0.9中,

 

public String toHtml(boolean encode) {
    Fragment fragment = null;
    StringBuffer buf = new StringBuffer();
    for (int i=0; i<fragments.size(); i++) {
      fragment = (Fragment) fragments.get(i);
      if (fragment.isHighlight()) {
        buf.append("<span class=\"highlight\">")
           .append(encode ? Entities.encode(fragment.getText())
                          : fragment.getText())
           .append("</span>");
      } else if (fragment.isEllipsis()) {
        buf.append("<span class=\"ellipsis\"> ... </span>");
      } else {
        buf.append(encode ? Entities.encode(fragment.getText())
                          : fragment.getText());
      }
    }
    return buf.toString();
  }
 

 

通过搜索获取到的summary的字符串是:<!----><!----> <!----><span class="highlight">***</span>

然后通过定义highlight的样式来处理高亮。

分享到:
评论

相关推荐

    nutch帮助文档;nutch学习 入门

    - 开源教程:网上有许多开源的Nutch学习教程和视频课程,可供参考。 通过以上学习,你可以逐步掌握Nutch的基础知识和操作,为进一步深入研究搜索引擎技术和大数据分析打下坚实基础。在实践中不断探索,你会发现...

    分享一个Nutch入门学习的资料

    在描述中提到的“博文链接:https://fuliang.iteye.com/blog/149242”,这是一篇关于Nutch学习的博客文章,可能包含了作者对于Nutch的安装、配置、运行以及一些实际操作的经验分享。通常这样的博客会详细解释如何从...

    Apache Nutch 1.7 学习总结

    **Apache Nutch 1.7 学习总结** Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并进行索引,为搜索引擎提供数据基础。Nutch 1.7 版本是其稳定的一个分支,适用于学习和实际项目应用。本文将详细...

    nutch学习笔记之第一天初学

    ### Nutch 学习笔记之第一天初学 在IT领域,特别是搜索引擎开发和技术研究方向,Apache Nutch无疑是一个值得关注的开源项目。Nutch是Apache软件基金会的一个子项目,旨在为开发者提供一个高度可扩展且可定制化的...

    Nutch 1.3 学习笔记

    ### Nutch 1.3 学习笔记:深入解析与应用 #### 一、Nutch 1.3:概述与核心功能 Nutch 1.3 是一款强大的、开源的网页抓取工具,专为大规模互联网数据抓取设计。它不仅能够收集网页数据,还能进一步分析、构建索引,...

    lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档

    《Lucene 2.4与Nutch学习笔记:在多文档中搜索关键词》 Lucene是一个高性能、全文检索库,而Nutch则是一个开源的网络爬虫项目,两者结合使用,能够实现对大量文本文档的高效搜索和索引。这篇学习笔记主要探讨如何...

    nutch

    **Nutch 概述** Nutch 是一个开源的网络爬虫项目,主要设计用于抓取、索引和搜索互联网...学习和使用 Nutch 可以帮助开发者深入了解 Web 数据抓取和搜索引擎的工作原理,对于大数据处理和信息提取有着重要的实践价值。

    nutch使用&Nutch;入门教程

    Nutch是Apache软件基金会开发的一款开源的网络爬虫项目,主要用于收集、索引和搜索互联网上的数据。这个“Nutch使用&Nutch;...通过学习和实践这个入门教程,你将能够熟练地运用Nutch进行数据采集和分析。

    eclipse配置nutch,eclipse配置nutch

    在IT领域,Apache Nutch是一款开源的Web爬虫...这不仅为学习和研究Nutch提供了便利,也为实际应用中的数据采集和分析打下了坚实的基础。记住,配置过程中遇到任何问题,都可以查阅官方文档或社区论坛,寻求解决方案。

    Nutch入门教程 高清 带书签

    通过阅读提供的“Nutch入门教程.pdf”,你可以学习如何安装Nutch、配置环境、创建并运行爬虫任务、查看抓取日志、分析抓取结果、调试插件等步骤,逐步掌握Nutch的使用。 总结来说,Nutch是一款强大的开源搜索引擎...

    nutch-1.5.1源码

    通过分析和学习Nutch-1.5.1源码,开发者不仅可以掌握搜索引擎的核心技术,还能进一步提升在大数据处理、分布式系统和Java编程方面的专业能力。这对于从事相关领域工作或是研究搜索引擎优化(SEO)、信息检索和推荐...

    nutch2.2.1安装步骤.docx

    Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 2.2.1 是一个稳定版本,它依赖于其他几个组件来完成其功能,包括 Apache Ant、Apache Tomcat、Java 开发工具包...

    Nutch 0.8笔记NUTCHNUTCH

    Nutch 的源码结构清晰,便于理解和学习。 2. **关键目录**: - **crawldb, linkdb**:这些目录存储 URL 及其相互链接关系,用于爬行和重新爬行的决策。默认情况下,页面信息30天后过期。 - **segments**:主要...

    nutch 初学文档教材

    Nutch入门学习 7.1 概述...41 7.2 MapReduce.......41 7.3 文件系统语法......42 7.4 文件系统设计......42 7.5 系统的可用性......43 7.6 Nutch文件系统工作架构...43 8. nutch应用.45 8.1 修改源码.....45 8.2 ...

    Nutch相关框架视频教程

    资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...

    Apache Nutch v1.15

    Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是...学习Nutch!Nutch的很多代码是用Map Reduce和HDFS写的,哪里还能找到比Nutch更好的Hadoop应用案例呢?

Global site tag (gtag.js) - Google Analytics