`

把另外的一个项目加入了nutch中来

 
阅读更多

周末在家闲的慌,把在公司搞的nutch拿回来在家里试着做了下,刚开始总以为把一个项目都以plugin的形式加入到nutch中来,是不是有点.......嗨,搞呗。周日竟然成功了,分享下新得先。

先贴出来先日志的东东吧,我们要求的是nutch边从网站上爬取,所加入的项目(plugin)得边去解析(抽取)数据。就这么简单,插件的介绍在上几次已经介绍过了,看下日志:

product_name = The Incident (CD) 
product_price =     $14.01  
product_image = http://i43.tower.com/images/mm113708247/incident-porcupine-tree-cd-cover-art.jpg 
product_category = Music Rock & Pop Progressive Rock 
product_description = ?             ?             ??                         ???                           ???Learn more about the  format using Tower WIKI.                            September 15, 2009  1    016861785727   113708247     #748 in Music  (See ) #347 in Rock & Pop (See ) #2 in Progressive Rock (See ) 
product_review =                   To sample an individual track, click the  button located beside your desired song.              
product_type = dvd

product_url = http://www.tower.com/incident-porcupine-tree-cd/wapi/113708247

 

至于乱码,先不用管,可能是上次程序的bug吧。这也是在澳门回归十周年的这一天搞出来的啊。不过也得先祝贺一下我们的祖国繁荣昌盛,越来越强大!今天先写到这吧!

 

分享到:
评论
2 楼 p_x1984 2010-11-09  
我们用的是nutch1.0的。
1 楼 oolala 2010-11-08  
请问你们现在用的是哪个版本,用1.2怎么总是有问题。

相关推荐

    Nutch中文教程nutcher.zip

    nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: https://github.com/CrawlScript/nutcher 目录: Nutch教程——导入Nutch工程,执行完整爬取 ...

    nutch中文分词

    nutch应用,nutch中文分词,nutch中文乱码

    java Nutch项目

    Java Nutch项目是一个基于Java实现的开源网络爬虫框架,主要设计用于收集、索引和分析互联网上的数据。Nutch最初由Doug Cutting创建,后来成为了Apache软件基金会的一部分,成为其顶级项目之一。该项目的核心目标是...

    Nutch中文分词插件的编写与配置

    Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。...询,就需要编写一个中文分词器。下面介绍Nutch中文分词插件的实现与配置。

    eclipse配置nutch,eclipse配置nutch

    因此,利用Eclipse作为开发工具,可以简化Nutch的配置流程,提供一个友好的图形界面来管理项目和代码,同时利用其强大的调试功能,帮助开发者快速定位和解决问题。 ### 二、Eclipse配置Nutch的步骤详解 #### 步骤1...

    nutch根据URL来查找快照

    Nutch 是一个开源的搜索引擎项目,它主要用于抓取和索引网页内容,为用户提供搜索功能。在Nutch的工作流程中,"快照"扮演着重要角色。快照是指在某个时间点对网页内容的捕获,它记录了网页当时的原始信息,这对于...

    分享一个Nutch入门学习的资料

    标题中的“Nutch入门学习”指的是Apache Nutch,这是一个开源的网络爬虫项目,用于抓取Web内容并建立搜索引擎。Nutch是大数据处理框架Hadoop的一个重要组成部分,它使用Hadoop进行分布式数据存储和处理。Nutch的学习...

    nutch的另外两个包

    Nutch 是一个开源的搜索引擎项目,它主要用于网络爬虫和网页索引。在这个主题中,我们关注的是两个特定的插件包:jid3lib-0.5.1.jar 和 rtf-parser.jar。这两个插件在 Nutch 的生态系统中扮演着重要的角色。 **JID3...

    Eclipse中编译Nutch-1.0

    随后,在Eclipse中创建一个新的Java项目,命名可自定义,如“Nutch”,并在创建过程中选择“从现有源代码创建项目”选项,指向已解压的`nutch-1.0`目录。在项目的Library配置中,需添加`conf`文件夹,并将其置于...

    nutch

    Nutch 是一个开源的网络爬虫项目,主要设计用于抓取、索引和搜索互联网上的网页。它由 Apache 软件基金会开发,并且是 Hadoop 的一部分,这意味着它能够利用分布式计算来处理大规模的数据抓取任务。Nutch 提供了一套...

    Apache Nutch v1.15

    Tika使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。 大数据这个术语最早的引用可追溯到Nutch...

    nutch使用&Nutch;入门教程

    总结,Nutch是一个强大且灵活的网络爬虫工具,对于需要进行大规模网页抓取和搜索的项目来说,是一个理想的解决方案。通过学习和实践这个入门教程,你将能够熟练地运用Nutch进行数据采集和分析。

    Nutch插件开发文档

    1. **Pluggable接口**:这是所有扩展点必须实现的一个通用接口,用于确定一个类是否能够作为插件集成到Nutch框架中。该接口定义了插件与Nutch框架交互的基本规则。 2. **扩展点(Extension Points)**:这些是在...

    Nutch入门教程.pdf

    学习Nutch可以提供对搜索引擎内部工作原理的深入了解,特别是对那些对搜索排序的透明度、搜索引擎的内部工作原理以及如何构建自己的搜索引擎感兴趣的用户来说,是一个很好的选择。Nutch的目标是让任何人都可以轻松地...

    nutch缺失的两个jar组件

    在Nutch这个开源的全文搜索引擎项目中,"nutch缺失的两个jar组件"是指系统运行或构建过程中缺少的两个关键库文件,它们分别是处理RTF(Rich Text Format)和MP3格式的库。Nutch是一个广泛使用的Web爬虫,它能够抓取...

    nutch 初学文档教材

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....

    Eclipse中编译Nutch-0.9

    在本篇文章中,我们将深入探讨如何在Eclipse环境中编译Nutch-0.9,一个开源的网络爬虫项目,用于抓取互联网上的网页信息。文章涵盖的关键知识点包括:环境准备(JDK/JRE版本需求)、源码获取与项目导入、解决编译...

Global site tag (gtag.js) - Google Analytics