- 浏览: 958391 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (385)
- 搜索引擎学习 (62)
- 算法 (1)
- 数据库 (15)
- web开发 (38)
- solr开发 (17)
- nutch 1.2 系统学习 (8)
- cms (1)
- 系统架构 (11)
- linux 与 unix 编程 (16)
- android (15)
- maven (1)
- 关注物流 (1)
- 网址收集 (1)
- 分布式,集群 (1)
- mysql (5)
- apache (1)
- 资料文档备份 (7)
- 上班有感 (0)
- 工作流 (15)
- javascript (1)
- weblogic (1)
- eclipse 集成 (1)
- JMS (7)
- Hibernate (1)
- 性能测试 (1)
- spring (6)
- 缓存cache (1)
- mongodb (2)
- webservice (1)
- HTML5 COCOS2D-HTML5 (1)
- BrowserQuest (2)
最新评论
-
avi9111:
内陷到android, ios, winphone里面也是随便 ...
【HTML5游戏开发】二次开发 BrowserQuest 第一集 -
avi9111:
呵呵,做不下去了吧,没有第二集了吧,游戏是个深坑,谨慎进入,其 ...
【HTML5游戏开发】二次开发 BrowserQuest 第一集 -
excaliburace:
方案3亲测完全可用,顺便解决了我其他方面的一些疑问,非常感谢
spring security 2添加用户验证码 -
yuanliangding:
Spring太强大了。
Spring Data JPA 简单介绍 -
小高你好:
什么是hibernate懒加载?什么时候用懒加载?为什么要用懒加载?
将以下文本内容存放入NUTCH_HOME\bin 目录下 , 命名随便,设置以下JAVA_HOME 和 NUTCH_HOME,然后在命令行运行 %NUTCH_HOME%\bin\nutch
@echo off
set JAVA_HEAP_MAX="-Xmx512M"
if not "%1"=="" goto INIT else goto echoMSG
:echoMSG
echo Title:欢迎使用北京线点科技 Nutch 运行脚本
echo Author:jaddy0302 mail:jaddy0302@126.com QQ:5622928
echo Site:http://www.xd-tech.com.cn 线点科技 专业垂直搜索引擎产品
echo Nutch Version: 0.7.2
echo Usage: nutch COMMAND
echo where COMMAND is one of:
echo crawl one-step crawler for intranets
echo admin database administration, including creation
echo inject inject new urls into the database
echo generate generate new segments to fetch
echo fetchlist print the fetchlist of a segment
echo fetch fetch a segment's pages
echo parse parse a segment's pages
echo index run the indexer on a segment's fetcher output
echo merge merge several segment indexes
echo dedup remove duplicates from a set of segment indexes
echo updatedb update db from segments after fetching
echo updatesegs update segments with link data from the db
echo mergesegs merge multiple segments into a single segment
echo readdb examine arbitrary fields of the database
echo analyze adjust database link-analysis scoring
echo prune prune segment index(es) of unwanted content
echo segread read, fix and dump segment data
echo segslice append, join and slice segment data
echo server run a search server
echo namenode run the NDFS namenode
echo datanode run an NDFS datanode
echo ndfs run an NDFS admin client
echo jobtracker run the MapReduce job Tracker node
echo tasktracker run a MapReduce task Tracker node
echo or
echo CLASSNAME run the class named CLASSNAME
echo Most commands print help when invoked w/o parameters.
goto end;
:INIT
set NUTCH_HOME=C:\work\nutch-0.7.2
if "%NUTCH_HOME%"=="" set NUTCH_HOME=..
set CLASSPATH=%NUTCH_HOME%;%NUTCH_HOME%\conf;%NUTCH_HOME%\plugin
@echo @echo off>setclasspath.bat
for %%i in (%NUTCH_HOME%\nutch-*.jar) do @echo set CLASSPATH=%%CLASSPATH%%;%%i>>setclasspath.bat;& for %%i in (%NUTCH_HOME%\lib\*.jar) do @echo set CLASSPATH=%%CLASSPATH%%;%%i>>setclasspath.bat;
goto EXEC
:EXEC
call setclasspath
if "%1" == "crawl" set CLASS=org.apache.nutch.tools.CrawlTool
if "%1" == "admin" set CLASS=org.apache.nutch.tools.WebDBAdminTool
if "%1" == "inject" set CLASS=org.apache.nutch.db.WebDBInjector
if "%1" == "generate" set CLASS=org.apache.nutch.tools.FetchListTool
if "%1" == "fetchlist" set CLASS=org.apache.nutch.pagedb.FetchListEntry
if "%1" == "fetch" set CLASS=org.apache.nutch.fetcher.Fetcher
if "%1" == "parse" set CLASS=org.apache.nutch.tools.ParseSegment
if "%1" == "index" set CLASS=org.apache.nutch.indexer.IndexSegment
if "%1" == "merge" set CLASS=org.apache.nutch.indexer.IndexMerger
if "%1" == "dedup" set CLASS=org.apache.nutch.indexer.DeleteDuplicates
if "%1" == "updatedb" set CLASS=org.apache.nutch.tools.UpdateDatabaseTool
if "%1" == "updatesegs" set CLASS=org.apache.nutch.tools.UpdateSegmentsFromDb
if "%1" == "mergesegs" set CLASS=org.apache.nutch.tools.SegmentMergeTool
if "%1" == "readdb" set CLASS=org.apache.nutch.db.WebDBReader
if "%1" == "prune" set CLASS=org.apache.nutch.tools.PruneIndexTool
if "%1" == "segread" set CLASS=org.apache.nutch.segment.SegmentReader
if "%1" == "segslice" set CLASS=org.apache.nutch.segment.SegmentSlicer
if "%1" == "analyze" set CLASS=org.apache.nutch.tools.LinkAnalysisTool
if "%1" == "server" set CLASS=org.apache.nutch.searcher.DistributedSearch$Server
if "%1" == "namenode" set CLASS=org.apache.nutch.ndfs.NDFS$NameNode
if "%1" == "datanode" set CLASS=org.apache.nutch.ndfs.NDFS$DataNode
if "%1" == "ndfs" set CLASS=org.apache.nutch.fs.TestClient
if "%1" == "jobtracker" set CLASS=org.apache.nutch.mapReduce.JobTracker
if "%1" == "tasktracker" set CLASS=org.apache.nutch.mapReduce.TaskTracker
call "%JAVA_HOME%\bin\java" %JAVA_HEAP_MAX% -classpath "%CLASSPATH%" %CLASS% %2 %3 %4 %5 %6 %7 %8 %9
:end
发表评论
-
nutch1.4 环境变量设置
2012-04-06 12:52 1722Exception in thread "main& ... -
正则使用
2010-06-18 00:19 1132java正则表达式(java.Regex)HtmlParser ... -
nutch 1.0 读源码,过滤掉不正确的URL实现方法
2010-06-18 00:17 3397nutch 1.0 读源码,过滤掉不正确的URL实现方法: ... -
Exception in thread "main" org.apache.hadoop.mapred.InvalidInputExnutch新发现,为以后备忘
2010-06-16 23:16 2294urls -dir mycrawl -depth 3 -top ... -
HTMLParser 解析html字符串,提取纯文本
2010-05-14 09:59 8323今天在群里问别人怎么提取文本,也没有具体告诉我用什么,只是说用 ... -
HTMLParser的两种使用方法[转]
2010-05-13 23:37 1938HTMLParser的两种使用方法 文章分类:Java编程 ... -
搜索引擎术语
2010-05-05 11:40 1431附录. 术语 B: 半结构化 ... -
影响Lucene索引速度原因以及提高索引速度技巧[转]
2010-04-25 00:11 2744影响Lucene索引速度原因以及提高索引速度技巧 关键字: ... -
如何配置compass的索引位置为相对路径
2009-09-01 19:28 1506Compass是对lucene进行封装 ... -
heritrix 基本介绍
2009-08-01 10:35 3908Heritrix使用小结 1. H ... -
我对HtmlParser 提取网页各属性的总结及示例说明
2009-07-08 13:50 1934/** * 属性过滤器 * @param parser ... -
数学之美 系列十三 信息指纹及其应用
2009-06-25 22:34 10382006年8月3日 上午 11:17:00 ... -
数学之美系列二十一 - 布隆过滤器(Bloom Filter)
2009-06-25 22:27 15122007年7月3日 上午 09:35:00 ... -
用HTMLParser提取URL页面超链接的一段代码(小试牛刀)
2009-06-06 16:54 7092用HTMLParser提取URL页面超 ... -
深入学习Heritrix---解析处理器(Processor)
2009-06-06 13:17 1627键字: heritrix processor 本节解析与 ... -
深入学习Heritrix---解析Frontier(链接工厂)
2009-06-06 10:02 1216Frontier是Heritrix最核心的组成部分之一,也是最 ... -
深入学习Heritrix---解析CrawlController
2009-06-06 10:00 1385当我们以Web UI方式使用Heritrix时,点击任务开始( ... -
深入学习Heritrix---解析Frontier(链接工厂)
2009-06-03 21:50 1518原创作者: pengranxiang 阅读:231次 ... -
lucene2.0+heritrix示例补充
2009-06-03 21:31 1543由于lucene2.0+heritrix一书示例用的网站( ... -
htmlparser 使用手册
2009-05-30 16:47 29212009-05-08 14:20 需要做一 ...
相关推荐
Nutch 脱离Cygwin直接在Windows下运行。 修正批处理最大只能直接传9个参数的问题。
该批处理文件是bin\nutch的Windows版本 ...即可解决nutch不借助cgywin直接在Windows平台下运行。 该批处理基于 nutch 1.7 改写。 使用方法: 直接把此批处理放于bin目录下,用bin\nutch.bat 即可执行
因为 Nutch 原生设计在 Linux 环境下运行,所以在 Windows 上配置 Nutch 需要一些额外的步骤。主要有两种方法: - **在 Eclipse 中使用 Nutch**: - 创建一个新的 Java 项目。 - 导入 Nutch 源码,将 `src\java`...
4. **运行脚本**:使用Cygwin或Git Bash,运行提供的Windows批处理脚本(如`run-crawl.bat`),该脚本会依次执行Nutch的各个阶段。 ``` run-crawl.bat [crawl-id] [num-fetches] ``` 其中,`crawl-id`是抓取...
在介绍Windows下Nutch的安装过程之前,首先需要了解Nutch和Cygwin这两个工具的基本概念和作用。Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现...
总的来说,配置Windows下的Nutch涉及多个环节,包括环境搭建、项目构建、配置调整、数据库连接以及爬虫的运行与监控。通过细心配置和实践,你可以成功构建一个强大的网络爬虫系统。提供的文档资料将作为配置过程中...
在Windows环境下搭建和运行Nutch搜索引擎需要对Cygwin和Unix命令有一定了解。虽然过程相对复杂,但通过这种方式,你可以在Windows上体验和测试Nutch的功能,建立和优化自定义的搜索引擎。对于不熟悉Unix系统的用户,...
2. **运行Nutch**:使用Cygwin命令行进入到Nutch的bin目录下,执行相应的Nutch脚本。 #### 九、总结 本文详细介绍了在Windows系统下搭建Nutch检索工具的步骤。通过这些步骤,可以成功地安装并配置好Nutch检索工具,...
- **用途**: 由于 Nutch 的脚本采用 Linux Shell 编写,因此在 Windows 平台上需要 Cygwin 来模拟 Linux 系统环境。 3. **Nutch 1.4** - **下载地址**: [http://nutch.apache.org/](http://nutch.apache.org/) - ...
Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装
在Windows 7环境下配置Apache Nutch是一个相对复杂的过程,因为它主要设计用于Linux操作系统。Nutch是一个开源的网络爬虫框架,常用于构建搜索引擎。以下是在Windows 7中配置Nutch的详细步骤: 首先,我们需要安装...
Apache Nutch 1.7 在 Windows 和 Linux 下的安装 Apache Nutch 1.7 是一个开源的网络爬虫和搜索引擎项目,它可以对互联网上的网页进行爬取、索引和搜索。本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的...
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等
Apache Nutch 是一个开源的网络爬虫框架,用于...通过以上步骤,你将在Windows环境下成功配置并运行Nutch 1.4。这个过程可能需要一些时间和耐心,但完成后,你将能够自定义Nutch的爬虫行为,抓取并处理你需要的数据。
Cygwin是一个在Windows上模拟Linux环境的开源软件,它提供了许多在Linux环境下才能运行的命令行工具,使得我们能够在Windows系统上执行类似Linux的操作,这对于需要在Windows系统中运行Nutch这样的基于Unix/Linux的...
Nutch在windows下的安装.pdf
Windows 下安装使用nutch.doc
在Windows环境下配置Nutch的运行环境,需要考虑以下几个关键知识点: 1. **开发环境配置**: - **JDK安装**:首先确保你的机器上已经安装了Java Development Kit(JDK),因为Nutch是用Java编写的,所以需要这个...