- 浏览: 1185820 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (350)
- Ajax研究 (2)
- javascript (22)
- struts (15)
- hibernate (12)
- spring (8)
- 我的生活 (28)
- jsp (2)
- 我的随笔 (84)
- 脑筋急转弯 (1)
- struts2 (2)
- ibatis (1)
- groovy (1)
- json (4)
- flex (20)
- Html Css (5)
- lucene (11)
- solr研究 (2)
- nutch (25)
- ExtJs (3)
- linux (6)
- 正则表达式 (2)
- xml (1)
- jetty (0)
- 多线程 (1)
- hadoop (40)
- mapreduce (5)
- webservice (2)
- 云计算 (8)
- 创业计划 (1)
- android (8)
- jvm内存研究 (1)
- 新闻 (2)
- JPA (1)
- 搜索技术研究 (2)
- perl (1)
- awk (1)
- hive (7)
- jvm (1)
最新评论
-
pandaball:
支持一下,心如大海
做有气质的男人 -
recall992:
山东分公司的风格[color=brown]岁的法国电视[/co ...
solr是如何存储索引的 -
zhangsasa:
-services "services-config ...
flex中endpoint的作用是什么? -
来利强:
非常感谢
java使用json所需要的几个包 -
zhanglian520:
有参考价值。
hadoop部署错误之一:java.lang.IllegalArgumentException: Wrong FS
配置软件:
1、 Java jdk-1.6
1.1 下载安装
from: http://www.sun.com
安装目录:C:\Java\jdk1.6.0_03
1.2 修改环境变量
JAVA_HOME=C:\Java\jdk1.6.0_03\bin
CLASSPATH=C:\Java\jdk1.6.0_03\lib\dt.jar;C:\Java\jdk1.6.0_03\lib\tools.jar
1.3 测试
java -version
2、tomcat-6.0
2.1 下载
from: http://tomcat.apache.org/
2.2 解压到C盘目录并改名
安装目录:C:\tomcat6
2.3 修改配置
conf/server.xml
QUOTE:
<!-- Define a non-SSL HTTP/1.1 Connector on port 8080 -->
<Connector port="8080" maxHttpHeaderSize="8192"
maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
enableLookups="false" redirectPort="8443" acceptCount="100"
c disableUploadTimeout="true"
URIEncoding="UTF-8" useBodyEncodingForURI="true" />
默认服务端口为8080,若有冲突(如Apache),则可通过此配置文件更改端口(蓝色)如果配置后nutch出现中文乱码问题,则增加编码配置(红色)
2.4 启动服务
startup
测试:http://localhost:8080/
3、安装Cygwin
from:http://www.cygwin.cn/
由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境
4、 nutch-1.0
4.1 下载 http://www.apache.org/dyn/closer.cgi/lucene/nutch/
4.2 解压后到C盘根目录
C:\nutch-1.0
建 url.txt文件,指定爬取列表
在文件中写入如下内容:
例如:/http://www.163.com
4.3 指定爬虫规则
修改 conf/crawl-urlfilter.txt
QUOTE:
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
把这里改成你要的域名
如 +^http://www.163.com/
4.4 修改 conf/nutch-site.xml
QUOTE:
<configuration>
<property>
<name>http.agent.name</name>
<value>my nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
</configuration>
如果没有配置此agent,爬取时会出现 Agent name not configured! 的错误。
4.5 开始爬取
打开Cygwin,
在命令行窗口中输入:
cd /cygdrive/c/nutch-1.0
执行命令:
bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 -topN 50
在这里dir指定抓取内容所存放的目录,depth表示以要抓取网站顶级网址为起点的爬行深度,threads指定并发的线程数 topN指每层抓取的网页数。
4.6 部署web前端
将 nutch-1.0.war 拷贝到webapps目录下
通过浏览器访问 http://localhost:8080/nutch-1.0/ 后,war包自解压。
4.7 修改nutch的web配置
c:\tomcat6\webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml
将内容更改为索引生成的目录。
QUOTE:
<nutch-conf>
<property>
<name>searcher.dir</name>
<value>c:/nutch-1.0/crawled</value>
</property>
</nutch-conf>
注意上面相应的也应改成href="nutch-conf.xsl"
注:本文转载自以下地址:http://cqllang.iteye.com/blog/377957
其余参考资料:
run nutch in eclipse0.9
http://wiki.apache.org/nutch/RunNutchInEclipse0.9
nutch的配置
http://lucene.apache.org/nutch/tutorial8.html
以下叙述基于Nutch 1.0,Eclipse 3.4 Ganymede
http://yyri.blog.sohu.com/114754472.html
GettingNutchRunningWithWindows
http://wiki.apache.org/nutch/GettingNutchRunningWithWindows
本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/hfutxrg/archive/2009/05/08/4161728.aspx
发表评论
-
nutch-1.2结合hadoop分布式搜索
2011-07-13 10:50 2667nutch-1.2结合hadoop分布式搜索。 1、网上关于 ... -
nutch-1.x分布式索引指定
2011-07-04 17:15 12811、nutch-1.x中在crawl.java中。最后有这么一 ... -
在nuthc中加入中文分词
2011-05-15 11:41 607nutch实用的分词是默认的,对中文支持的不是很好。 网上有 ... -
nutch1.2中加入中文分词以及搜索错误解决
2011-03-02 12:15 1435在nutch当中加入中文分词。这里我使用的IK_Analyze ... -
使用ant编译时错误:Specify at least one source--a file or resource
2011-02-22 11:12 2462将命令环境切换到Nutch目录下,执行ant命令。出现如下错误 ... -
readdb导致fetch job中断的问题
2011-02-16 13:39 1661Nutch readdb命令可以用来统计目前crawldb库里 ... -
Nutch fetch job中时间的分配比例
2011-02-16 13:38 1336下面是nutch fetch job中map shuffle ... -
nutch UI 多台机子部署有关jetty配置servlet的问题
2010-01-18 17:35 2469我们jetty是一个小型的web服务器,可以嵌入到程序当中去, ... -
nutch中plugin.folders的配置
2009-12-21 18:07 2427今天在公司做nutch的调试时,犯了一个低级的错误,在这里记录 ... -
把另外的一个项目加入了nutch中来
2009-12-20 23:59 1093周末在家闲的慌,把在公司搞的nutch拿回来在家里试着做了下, ... -
今天来用一个例子来详细讲解下nutch当中到底是如何自定义插件的
2009-12-17 10:29 1664接上面一篇,今天来用一个例子来详细讲解下nutch当中到底是如 ... -
nutch plugin详细分析
2009-12-16 18:06 1394当某个插件需要被加载时, Nutch 会加载所有插件的相关接口 ... -
nutch plugin的流程以及如何自定义plugin
2009-12-16 18:04 1995PluginRepository 是plugin的入口,保存了 ... -
如何读取nutch抓取数据
2009-12-16 17:43 3608如何读取nutch抓取数据 1.首先nutch的配置已经在博 ... -
Nutch1.0 Ui启动在tomcat中的配置
2009-12-07 14:09 1355<!-- @pa ... -
nutch如何才能抓取到动态的url
2009-11-25 15:27 5352http://www.tianya.cn/new/Tianya ... -
配置完成nutch容易出现的错误
2009-11-25 11:50 24841.1.2 运行crawl报错Job failed Ex ... -
在eclipse中如何配置nutch1.0
2009-11-25 11:44 1434<1>: 首先从http://apache.eto ... -
nutch的基本工作流程理解
2009-11-21 00:17 1900(一):Nutch的工作流程: Crawdb、l ... -
cygwin配置说明
2009-11-21 00:15 2363开始,一步一步来:了解Cygwin的人都知道,就是到 : ht ...
相关推荐
在使用这个“Nutch1.0-master”压缩包时,用户需要解压文件,按照提供的文档或说明进行配置,包括设置爬虫的启动参数、分词器的选择和配置等。然后,他们可以运行Nutch的命令行工具进行网页抓取、索引创建以及查询...
### Eclipse中编译Nutch-1.0:深入解析与实践指南 #### 一、环境准备与基础构建 在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高...
Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...
在Nutch 1.0版本中,配置文件的加载过程如下: - 当执行`Crawl`类的`main`方法时,首先通过`NutchConfiguration.create()`创建一个配置对象。 - `NutchConfiguration.create()`方法内部,首先创建一个`...
在配置Nutch运行环境时,需要注意兼容性和版本匹配,确保所有依赖库和软件都是与Nutch版本相匹配的。此外,保持良好的编程习惯,定期更新依赖,以及熟悉Hadoop和Java的相关知识,都将有助于更高效地进行Nutch的开发...
这是因为在 Nutch 1.0 版本中,可能需要特定版本的 Java 运行时环境来确保兼容性和正确运行。 接下来,你需要从 Apache 官方站点或指定的 mirror 下载 Nutch 1.0 的源代码包。你可以访问 ...
- **Java版本**:推荐使用Java 1.6,该版本与Nutch 1.0兼容性良好。 - **操作系统**:本指南适用于Ubuntu等大多数平台,也包括了针对Windows XP和Vista的操作指南。 #### 步骤详解 ##### Windows用户的特殊准备 ...
1. **配置运行参数**: - 在MyEclipse中,右键点击项目,选择`Run As -> Run Configurations`。 - 在`Program arguments`中输入爬行命令,例如: ``` urls -dir myDir -depth 2 -topN 50 ``` - 在`VM ...
- **配置运行参数**:使用Run Configurations功能,设置具体的爬虫运行参数,包括爬取深度、存储路径等,确保Nutch能够按照预期执行爬取任务。 #### 总结 本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,...
2. **配置工作目录** - 使用Cygwin进入Nutch的安装目录,例如 `cd /cygdrive/d/nutch-1.0`。 3. **测试Nutch命令** - 运行 `bin/nutch` 命令,检查是否可以正常使用。 **配置网络蜘蛛标识:** 在 `conf/nutch-...
Nutch的配置文件`nutch-site.xml`位于`conf/`目录下,用于指定各种运行时参数。例如,下面的示例代码展示了如何配置HTTP代理名称和版本: ```xml <name>http.agent.name</name> <value>MyNutchAgent ...
总的来说,Hadoop 1.0和2.0为大数据时代的技术创新与实践奠定了坚实的基础。它不仅推动了大数据领域的发展,也为后来的各种大数据技术提供了灵感和平台支持。随着技术的不断演进,Hadoop的未来仍充满无限的可能性。
- **配置master文件**:在这个文件中列出运行Hadoop集群的主节点(Master)的IP或主机名。 - **配置slave文件**:同样地,在这个文件中列出所有从节点(Slaves)的IP或主机名。 ##### 5. 启动Tomcat - 在完成了...
如不指定,使用默认配置文件,位于 word-1.0.jar 中的word.conf文件 ElasticSearch插件: 1、创建目录elasticsearch-1.1.0/plugins/word 2、将中文分词库文件word-1.0.jar和依赖的日志库文件 slf4j-api-1.6.4....
在安装和使用Hadoop方面,用户需要配置好Java环境,并且设置好Hadoop的核心配置文件,如hdfs-site.xml、core-site.xml、mapred-site.xml和yarn-site.xml等。这些文件决定了Hadoop运行时的行为和资源的分配。 对于...
13. 当 HDFS 中的 gzip 文件大小为 75MB,Block 大小为 64MB,运行 MapReduce 任务时,input split 大小为整个文件大小,即 75MB。MapReduce 会根据文件大小自动调整输入分片。 14. 对于 LZO(带索引)压缩的文件,...