`

Windows 下运行Nutch批处理脚本

阅读更多

  • Windows 下运行Nutch批处理脚本
  • 日期:2007-08-03   点击: <script src="/plus/count.php?view=yes&amp;aid=39"></script> 403   作者:不会游泳的鱼   来源:   字体:[ ]
<script type="text/javascript"></script><script src="http://pagead2.googlesyndication.com/pagead/show_ads.js" type="text/javascript"></script><script src="http://pagead2.googlesyndication.com/pagead/show_ads_sra.js"></script>

将以下文本内容存放入NUTCH_HOME\bin 目录下 , 命名随便,设置以下JAVA_HOME 和 NUTCH_HOME,然后在命令行运行 %NUTCH_HOME%\bin\nutch

 @echo off
set JAVA_HEAP_MAX="-Xmx512M"
if not "%1"=="" goto INIT else goto echoMSG
:echoMSG
  echo Title:欢迎使用北京线点科技 Nutch 运行脚本
  echo Author:jaddy0302 mail:jaddy0302@126.com QQ:5622928
  echo Site:http://www.xd-tech.com.cn 线点科技 专业垂直搜索引擎产品
  echo Nutch Version: 0.7.2
  echo Usage: nutch COMMAND
  echo where COMMAND is one of:
  echo   crawl             one-step crawler for intranets
  echo   admin             database administration, including creation
  echo   inject            inject new urls into the database
  echo   generate          generate new segments to fetch
  echo   fetchlist         print the fetchlist of a segment
  echo   fetch             fetch a segment's pages
  echo   parse             parse a segment's pages
  echo   index             run the indexer on a segment's fetcher output
  echo   merge             merge several segment indexes
  echo   dedup             remove duplicates from a set of segment indexes
  echo   updatedb          update db from segments after fetching
  echo   updatesegs        update segments with link data from the db
  echo   mergesegs         merge multiple segments into a single segment
  echo   readdb            examine arbitrary fields of the database
  echo   analyze           adjust database link-analysis scoring
  echo   prune             prune segment index(es) of unwanted content
  echo   segread           read, fix and dump segment data
  echo   segslice          append, join and slice segment data
  echo   server            run a search server
  echo   namenode          run the NDFS namenode
  echo   datanode          run an NDFS datanode
  echo   ndfs              run an NDFS admin client
  echo   jobtracker        run the MapReduce job Tracker node
  echo   tasktracker       run a MapReduce task Tracker node
  echo  or
  echo   CLASSNAME         run the class named CLASSNAME
  echo Most commands print help when invoked w/o parameters.
  goto end;
:INIT 
  set NUTCH_HOME=C:\work\nutch-0.7.2
  if "%NUTCH_HOME%"=="" set NUTCH_HOME=.. 
  set CLASSPATH=%NUTCH_HOME%;%NUTCH_HOME%\conf;%NUTCH_HOME%\plugin
  @echo @echo off>setclasspath.bat
  for %%i in (%NUTCH_HOME%\nutch-*.jar) do @echo set CLASSPATH=%%CLASSPATH%%;%%i>>setclasspath.bat;& for %%i in (%NUTCH_HOME%\lib\*.jar) do @echo set CLASSPATH=%%CLASSPATH%%;%%i>>setclasspath.bat;
  goto EXEC
:EXEC
  call setclasspath
  if  "%1" == "crawl" set CLASS=org.apache.nutch.tools.CrawlTool
  if  "%1" == "admin" set CLASS=org.apache.nutch.tools.WebDBAdminTool
  if  "%1" == "inject" set CLASS=org.apache.nutch.db.WebDBInjector
  if  "%1" == "generate" set CLASS=org.apache.nutch.tools.FetchListTool
  if  "%1" == "fetchlist" set CLASS=org.apache.nutch.pagedb.FetchListEntry
  if  "%1" == "fetch" set CLASS=org.apache.nutch.fetcher.Fetcher
  if  "%1" == "parse" set CLASS=org.apache.nutch.tools.ParseSegment
  if  "%1" == "index" set CLASS=org.apache.nutch.indexer.IndexSegment
  if  "%1" == "merge" set CLASS=org.apache.nutch.indexer.IndexMerger
  if  "%1" == "dedup" set CLASS=org.apache.nutch.indexer.DeleteDuplicates
  if  "%1" == "updatedb" set CLASS=org.apache.nutch.tools.UpdateDatabaseTool
  if  "%1" == "updatesegs" set CLASS=org.apache.nutch.tools.UpdateSegmentsFromDb
  if  "%1" == "mergesegs" set CLASS=org.apache.nutch.tools.SegmentMergeTool
  if  "%1" == "readdb" set CLASS=org.apache.nutch.db.WebDBReader
  if  "%1" == "prune" set CLASS=org.apache.nutch.tools.PruneIndexTool
  if  "%1" == "segread" set CLASS=org.apache.nutch.segment.SegmentReader
  if  "%1" == "segslice" set CLASS=org.apache.nutch.segment.SegmentSlicer
  if  "%1" == "analyze" set CLASS=org.apache.nutch.tools.LinkAnalysisTool
  if  "%1" == "server" set CLASS=org.apache.nutch.searcher.DistributedSearch$Server
  if  "%1" == "namenode" set CLASS=org.apache.nutch.ndfs.NDFS$NameNode
  if  "%1" == "datanode" set CLASS=org.apache.nutch.ndfs.NDFS$DataNode
  if  "%1" == "ndfs" set CLASS=org.apache.nutch.fs.TestClient
  if  "%1" == "jobtracker" set CLASS=org.apache.nutch.mapReduce.JobTracker
  if  "%1" == "tasktracker" set CLASS=org.apache.nutch.mapReduce.TaskTracker
  call "%JAVA_HOME%\bin\java" %JAVA_HEAP_MAX% -classpath "%CLASSPATH%" %CLASS% %2 %3 %4 %5 %6 %7 %8 %9
:end

分享到:
评论

相关推荐

    Nutch 1.7 Windows 批处理脚本

    Nutch 脱离Cygwin直接在Windows下运行。 修正批处理最大只能直接传9个参数的问题。

    nutch Windows版脚本

    该批处理文件是bin\nutch的Windows版本 ...即可解决nutch不借助cgywin直接在Windows平台下运行。 该批处理基于 nutch 1.7 改写。 使用方法: 直接把此批处理放于bin目录下,用bin\nutch.bat 即可执行

    Windows下配置nutch

    因为 Nutch 原生设计在 Linux 环境下运行,所以在 Windows 上配置 Nutch 需要一些额外的步骤。主要有两种方法: - **在 Eclipse 中使用 Nutch**: - 创建一个新的 Java 项目。 - 导入 Nutch 源码,将 `src\java`...

    nutch-windows-script:在 Windows 上运行 Nutch 的简单脚本

    4. **运行脚本**:使用Cygwin或Git Bash,运行提供的Windows批处理脚本(如`run-crawl.bat`),该脚本会依次执行Nutch的各个阶段。 ``` run-crawl.bat [crawl-id] [num-fetches] ``` 其中,`crawl-id`是抓取...

    windows下nutch的安装.pdf

    在介绍Windows下Nutch的安装过程之前,首先需要了解Nutch和Cygwin这两个工具的基本概念和作用。Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现...

    windows下的nutch配置总结

    总的来说,配置Windows下的Nutch涉及多个环节,包括环境搭建、项目构建、配置调整、数据库连接以及爬虫的运行与监控。通过细心配置和实践,你可以成功构建一个强大的网络爬虫系统。提供的文档资料将作为配置过程中...

    Nutch在Windows中安装之细解

    在Windows环境下搭建和运行Nutch搜索引擎需要对Cygwin和Unix命令有一定了解。虽然过程相对复杂,但通过这种方式,你可以在Windows上体验和测试Nutch的功能,建立和优化自定义的搜索引擎。对于不熟悉Unix系统的用户,...

    Windows系统下Nutch检索工具的搭建步骤

    2. **运行Nutch**:使用Cygwin命令行进入到Nutch的bin目录下,执行相应的Nutch脚本。 #### 九、总结 本文详细介绍了在Windows系统下搭建Nutch检索工具的步骤。通过这些步骤,可以成功地安装并配置好Nutch检索工具,...

    nutch_1.4在windows下安装配置.pdf

    - **用途**: 由于 Nutch 的脚本采用 Linux Shell 编写,因此在 Windows 平台上需要 Cygwin 来模拟 Linux 系统环境。 3. **Nutch 1.4** - **下载地址**: [http://nutch.apache.org/](http://nutch.apache.org/) - ...

    Nutch在windows下的安装

    Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装

    windows7环境下配置nutch

    在Windows 7环境下配置Apache Nutch是一个相对复杂的过程,因为它主要设计用于Linux操作系统。Nutch是一个开源的网络爬虫框架,常用于构建搜索引擎。以下是在Windows 7中配置Nutch的详细步骤: 首先,我们需要安装...

    Apache Nutch 1.7 在windows和Linux下的安装

    Apache Nutch 1.7 在 Windows 和 Linux 下的安装 Apache Nutch 1.7 是一个开源的网络爬虫和搜索引擎项目,它可以对互联网上的网页进行爬取、索引和搜索。本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的...

    nutch在windows下myeclipse中安装配置并且运行教程

    详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    Apache Nutch 是一个开源的网络爬虫框架,用于...通过以上步骤,你将在Windows环境下成功配置并运行Nutch 1.4。这个过程可能需要一些时间和耐心,但完成后,你将能够自定义Nutch的爬虫行为,抓取并处理你需要的数据。

    nutch-0.9 环境搭建所需最小cygwin

    Cygwin是一个在Windows上模拟Linux环境的开源软件,它提供了许多在Linux环境下才能运行的命令行工具,使得我们能够在Windows系统上执行类似Linux的操作,这对于需要在Windows系统中运行Nutch这样的基于Unix/Linux的...

    Nutch在windows下的安装.pdf

    Nutch在windows下的安装.pdf

    Windows 下安装使用nutch.doc

    Windows 下安装使用nutch.doc

    Nutch程序运行环境配置

    在Windows环境下配置Nutch的运行环境,需要考虑以下几个关键知识点: 1. **开发环境配置**: - **JDK安装**:首先确保你的机器上已经安装了Java Development Kit(JDK),因为Nutch是用Java编写的,所以需要这个...

Global site tag (gtag.js) - Google Analytics