- 浏览: 1183362 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (350)
- Ajax研究 (2)
- javascript (22)
- struts (15)
- hibernate (12)
- spring (8)
- 我的生活 (28)
- jsp (2)
- 我的随笔 (84)
- 脑筋急转弯 (1)
- struts2 (2)
- ibatis (1)
- groovy (1)
- json (4)
- flex (20)
- Html Css (5)
- lucene (11)
- solr研究 (2)
- nutch (25)
- ExtJs (3)
- linux (6)
- 正则表达式 (2)
- xml (1)
- jetty (0)
- 多线程 (1)
- hadoop (40)
- mapreduce (5)
- webservice (2)
- 云计算 (8)
- 创业计划 (1)
- android (8)
- jvm内存研究 (1)
- 新闻 (2)
- JPA (1)
- 搜索技术研究 (2)
- perl (1)
- awk (1)
- hive (7)
- jvm (1)
最新评论
-
pandaball:
支持一下,心如大海
做有气质的男人 -
recall992:
山东分公司的风格[color=brown]岁的法国电视[/co ...
solr是如何存储索引的 -
zhangsasa:
-services "services-config ...
flex中endpoint的作用是什么? -
来利强:
非常感谢
java使用json所需要的几个包 -
zhanglian520:
有参考价值。
hadoop部署错误之一:java.lang.IllegalArgumentException: Wrong FS
nutch-1.2结合hadoop分布式搜索。
1、网上关于nutch分布式搜索的配置有些BLOG写的很详细了。有那些地方有疑问的,我这里也给一个连接<<nutch分布式搜索配置>>
2、在这里主要想写下工作过程当中遇到的一些问题:
------0-------
------1-------
------2-------
------3-------
java.io.IOException: Filesystem closed
at org.apache.hadoop.hdfs.DFSClient.checkOpen(DFSClient.java:226)
at org.apache.hadoop.hdfs.DFSClient.access$600(DFSClient.java:67)
at org.apache.hadoop.hdfs.DFSClient$DFSInputStream.read(DFSClient.java:1756)
at java.io.DataInputStream.read(Unknown Source)
at org.apache.nutch.indexer.FsDirectory$DfsIndexInput.readInternal(FsDirectory.java:178)
at org.apache.lucene.store.BufferedIndexInput.refill(BufferedIndexInput.java:160)
at org.apache.lucene.store.BufferedIndexInput.readByte(BufferedIndexInput.java:39)
at org.apache.lucene.store.IndexInput.readVInt(IndexInput.java:81)
at org.apache.lucene.index.FieldsReader.doc(FieldsReader.java:222)
at org.apache.lucene.index.SegmentReader.document(SegmentReader.java:879)
at org.apache.lucene.index.DirectoryReader.document(DirectoryReader.java:574)
at org.apache.lucene.index.IndexReader.document(IndexReader.java:658)
at org.apache.lucene.search.IndexSearcher.doc(IndexSearcher.java:163)
at org.apache.nutch.searcher.IndexSearcher.getDetails(IndexSearcher.java:110)
at org.apache.nutch.searcher.LuceneSearchBean.getDetails(LuceneSearchBean.java:107)
at org.apache.nutch.searcher.NutchBean.getDetails(NutchBean.java:359)
at com.yichen.node.ThreadPoolTaskSearch.query(ThreadPoolTaskSearch.java:89)
at com.yichen.node.ThreadPoolTaskSearch.query(ThreadPoolTaskSearch.java:59)
at com.yichen.node.ThreadPoolTaskSearch.search(ThreadPoolTaskSearch.java:38)
at com.yichen.node.ThreadPoolTaskSearch.run(ThreadPoolTaskSearch.java:130)
at java.util.concurrent.ThreadPoolExecutor$Worker.runTask(Unknown Source)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(Unknown Source)
at java.lang.Thread.run(Unknown Source)
nutchBean closed。。。。
nutchBean closed。。。。
{indexNo=0, uniqueKey=35, su=null, post=IT工程师, company=卡斯柯信号有限公司北京分公司, salary=(0-0), type=job, updatetime=20110621}
no found result。。。。
{indexNo=0, uniqueKey=19, su=null, post=【知名合资IT企业】高级营销经理(安全)–CEN810, company=大连博科人才有限公司, salary=(0-0), type=job, updatetime=20110621}
{indexNo=0, uniqueKey=18, su=null, post=【知名合资IT企业】高级拓展经理(安全)–CEN811, company=大连博科人才有限公司, salary=(0-0), type=job, updatetime=20110621}
{indexNo=0, uniqueKey=20, su=null, post=【知名合资IT企业】高级规划经理(安全)–CEN809, company=大连博科人才有限公司, salary=(0-0), type=job, updatetime=20110621}
{indexNo=0, uniqueKey=21, su=null, post=理财产品销售专员(综合金融), company=平安金融服务公司, salary=(4000-50000), type=job, updatetime=20110621}
{indexNo=0, uniqueKey=25, su=null, post=理财金融营销专员, company=平安金融服务公司, salary=(4000-50000), type=job, updatetime=20110620}
{indexNo=0, uniqueKey=28, su=null, post=金融产品理财专员, company=平安金融服务公司, salary=(5000-20000), type=job, updatetime=20110620}
{indexNo=0, uniqueKey=22, su=null, post=理财客户金融经理, company=平安金融服务公司, salary=(6001-8000), type=job, updatetime=20110620}
{indexNo=0, uniqueKey=24, su=null, post=理财金融专员, company=平安金融服务公司, salary=(3000-20000), type=job, updatetime=20110621}
{indexNo=0, uniqueKey=31, su=null, post=金融理财经理(综合金融), company=平安金融服务公司, salary=(8001-10000), type=job, updatetime=20110620}
分析原因:单个线程在分布式中搜索没有出现问题,以上出现错误原因是多线程搜索时出现的。由于每次打开的连接次数太多,导致连接没有关闭。出现上面的错误。
解决办法:
1、在servlet初始化中,加入:
public void init(ServletConfig config) throws ServletException {
try {
this.conf = NutchConfiguration.get(config.getServletContext());
bean = NutchBean.get(config.getServletContext(), this.conf);
} catch (IOException e) {
throw new ServletException(e);
}
MAX_HITS_PER_PAGE = conf.getInt("searcher.max.hits.per.page", -1);
}
2、修改web.xml,加入:
<listener>
<listener-class>org.apache.nutch.searcher.NutchBean$NutchBeanConstructor</listener-class>
</listener>
<servlet>
<servlet-name>Cached</servlet-name>
<servlet-class>org.apache.nutch.servlet.Cached</servlet-class>
</servlet>
3、在自己的servlet中把NutchBean的实例和NutchConfiguration的实例传递过去。保证初始化时只打开一次index。
- linux下如何配置分布式检索.pdf (40 KB)
- 下载次数: 96
发表评论
-
nutch-1.x分布式索引指定
2011-07-04 17:15 12701、nutch-1.x中在crawl.java中。最后有这么一 ... -
在nuthc中加入中文分词
2011-05-15 11:41 599nutch实用的分词是默认的,对中文支持的不是很好。 网上有 ... -
nutch1.2中加入中文分词以及搜索错误解决
2011-03-02 12:15 1430在nutch当中加入中文分词。这里我使用的IK_Analyze ... -
使用ant编译时错误:Specify at least one source--a file or resource
2011-02-22 11:12 2458将命令环境切换到Nutch目录下,执行ant命令。出现如下错误 ... -
readdb导致fetch job中断的问题
2011-02-16 13:39 1652Nutch readdb命令可以用来统计目前crawldb库里 ... -
Nutch fetch job中时间的分配比例
2011-02-16 13:38 1329下面是nutch fetch job中map shuffle ... -
nutch UI 多台机子部署有关jetty配置servlet的问题
2010-01-18 17:35 2463我们jetty是一个小型的web服务器,可以嵌入到程序当中去, ... -
nutch中plugin.folders的配置
2009-12-21 18:07 2421今天在公司做nutch的调试时,犯了一个低级的错误,在这里记录 ... -
把另外的一个项目加入了nutch中来
2009-12-20 23:59 1086周末在家闲的慌,把在公司搞的nutch拿回来在家里试着做了下, ... -
今天来用一个例子来详细讲解下nutch当中到底是如何自定义插件的
2009-12-17 10:29 1657接上面一篇,今天来用一个例子来详细讲解下nutch当中到底是如 ... -
nutch plugin详细分析
2009-12-16 18:06 1388当某个插件需要被加载时, Nutch 会加载所有插件的相关接口 ... -
nutch plugin的流程以及如何自定义plugin
2009-12-16 18:04 1987PluginRepository 是plugin的入口,保存了 ... -
如何读取nutch抓取数据
2009-12-16 17:43 3599如何读取nutch抓取数据 1.首先nutch的配置已经在博 ... -
Nutch1.0 Ui启动在tomcat中的配置
2009-12-07 14:09 1348<!-- @pa ... -
nutch如何才能抓取到动态的url
2009-11-25 15:27 5346http://www.tianya.cn/new/Tianya ... -
配置完成nutch容易出现的错误
2009-11-25 11:50 24801.1.2 运行crawl报错Job failed Ex ... -
在eclipse中如何配置nutch1.0
2009-11-25 11:44 1427<1>: 首先从http://apache.eto ... -
nutch的基本工作流程理解
2009-11-21 00:17 1893(一):Nutch的工作流程: Crawdb、l ... -
cygwin配置说明
2009-11-21 00:15 2358开始,一步一步来:了解Cygwin的人都知道,就是到 : ht ... -
第一次使用nutch
2009-11-19 23:13 1250Nutch 是一个基于Lucene开发的诞生不久的开放源代码( ...
相关推荐
- **Hadoop 集成**:Nutch 1.4 与Hadoop的兼容性更强,可以在大规模分布式环境中运行。 **部署和使用 Nutch 1.4:** 1. **解压**:首先,你需要将"apache-nutch-1.4-bin.tar.gz"解压到本地目录,得到Nutch的运行...
在 Nutch 中,Hadoop 负责分布式爬虫的执行和数据处理。Nutch 使用 Hadoop MapReduce 模型来并行处理任务,如网页抓取、解析、索引等。通过 Nutch 脚本,我们可以将 Apache-nutch-1.6.job 提交给 Hadoop 的 ...
1. **导入项目**:在Eclipse中选择“File” > “Import” > “Existing Projects into Workspace”,然后浏览到下载的`nutch1.2+Project`目录,导入项目。 2. **添加库**:确保你的Eclipse环境中已经安装了Apache ...
Apache Nutch是开源的网络爬虫项目,专为大规模数据抓取设计,它与Hadoop分布式计算框架紧密集成,能够处理海量网页数据。Nutch 1.2是该项目的一个稳定版本,提供了许多改进和优化,使得它在搜索引擎构建、数据分析...
同时,你也需要配置 Hadoop 环境,因为 Nutch 可以与 Hadoop 集成,利用其分布式处理能力。 2. **项目结构**:Nutch 1.2 的项目结构包括源代码、配置文件、工作目录等。主要的代码集中在 `src` 目录下,包括 `java`...
- 与Hadoop平台紧密结合,充分利用MapReduce框架进行分布式计算。 3. **索引机制** - 支持多种索引后端,不仅限于Solr,还可以使用Elasticsearch等。 4. **API支持** - 提供了丰富的API接口,方便开发者进行...
4. **搜索引擎三巨头**:Lucene、Nutch和Hadoop在搜索技术领域非常有名,它们共同构成了现代搜索引擎的基础。 - **Lucene**:是一个高性能的全文搜索引擎库,可以嵌入到应用程序中,实现高效的数据索引和查询。 - ...
2. **软件准备**:准备好Nutch(例如版本为1.2)和Hadoop等必要的软件包。 3. **网络准备**:确认所有节点之间的网络连接畅通无阻。 #### 三、具体步骤 ##### 1. 安装与部署Tomcat - **安装Tomcat**:确保目标...
- **起源**:Hadoop起源于Nutch项目,最初目的是解决大规模网页抓取与索引的问题。 - **关键技术来源**:2003年和2004年谷歌发表的关于分布式文件系统(Google File System, GFS)和分布式计算框架(MapReduce)的论文...
3. **Hadoop**:Nutch可以与Hadoop集成,用于分布式处理和存储数据。安装Hadoop 1.x或2.x版本,并配置好`HADOOP_HOME`环境变量。 **获取Nutch源代码** 1. 使用Git克隆Nutch 1.2的源代码库: ``` git clone ...
3. 处理完成后,结果会被存储回Hadoop分布式文件系统(HDFS)。 #### 六、Nutch脚本分析 对于初学者而言,深入分析**Nutch脚本文件**是非常重要的。这些脚本文件定义了Nutch的主要工作流程,包括数据抓取、解析、...
3.2 HDFS(Hadoop分布式文件系统) HDFS是一个高容错性的文件系统,设计目标是能在廉价硬件上运行。它将大文件分割成块,并在多台节点上冗余存储,确保数据的可靠性和可用性。 3.2.1 HDFS体系结构 HDFS有两个主要...
- 2005年:Hadoop作为Nutch的一部分加入Apache基金会。 - 2006年:Map-Reduce和NDFS被纳入Hadoop项目。 ##### 2.3 Hadoop发行版本 - **Apache版本**:最基础的版本,适合初学者学习。 - **Cloudera版本**:在大型...
- **数据接收方式**:采用数据网关代理模式,数据直接写入到Hadoop分布式文件系统 (HDFS) 中。 - **硬件配置**:4台接收机,每台支持10个进程用于数据接收和写入,数据的复制因子设定为3。 - **性能指标**:经过测试...
- **起源**:Hadoop最初是为了提升Apache Nutch(一个开源的Web搜索引擎项目)的可扩展性而诞生的。其发展受到两篇谷歌论文的影响:《The Google File System》和《MapReduce: Simplified Data Processing on Large ...
- **SolrCloud**:SolrCloud是一种分布式搜索平台,它允许用户构建高度可扩展的搜索应用。SolrCloud集群通常由多台Solr服务器组成,这些服务器共同提供高性能的搜索服务。SolrCloud的设计使得它可以轻松地在多个节点...
Hadoop是由Apache Software Foundation在2005年秋季作为Lucene的子项目Nutch的一部分正式引入的。其核心思想来源于Google实验室开发的Map/Reduce和Google File System (GFS)。 - **Google的影响**: Google在大数据...
- **定义**: Hadoop是由Apache软件基金会维护的一个开源分布式计算平台,它以Hadoop分布式文件系统(HDFS)和MapReduce为核心,提供了一个简单易用的分布式计算框架。 - **特点**: 高容错性、高伸缩性、高效率以及...