`
fuyangchang
  • 浏览: 147304 次
  • 性别: Icon_minigender_1
  • 来自: 大连
社区版块
存档分类
最新评论

nutch0.9 NT批处理文件

阅读更多
nutch0.9 NT批处理文件

@echo off
rem *********************************************************************
rem * A script to launch nutch on Windows 2000/XP System.
rem *
rem * Written by babatu
rem * babatu@gmail.com blog: blog.babatu.com
rem *
rem * Because delayed environment is used, cmd /V:on should be used to
rem * run this script.
rem *****************************************************************
if "%OS%"=="Windows_NT" @setlocal
if "%OS%"=="WINNT" @setlocal

if "%1" == "" goto :msg
goto :begin
:msg
echo "Usage: nutch COMMAND"
 echo "where COMMAND is one of:"
 echo "  crawl             one-step crawler for intranets"
 echo "  readdb            read / dump crawl db"
 echo "  readlinkdb        read / dump link db"
 echo "  inject            inject new urls into the database"
 echo "  generate          generate new segments to fetch"
 echo "  fetch             fetch a segment's pages"
 echo "  parse             parse a segment's pages"
 echo "  segread           read / dump segment data"
 echo "  updatedb          update crawl db from segments after fetching"
 echo "  invertlinks       create a linkdb from parsed segments"
 echo "  index             run the indexer on parsed segments and linkdb"
 echo "  merge             merge several segment indexes"
 echo "  dedup             remove duplicates from a set of segment indexes"
 echo "  plugin            load a plugin and run one of its classes main()"
 echo "  server            run a search server"
 echo " or"
 echo "  CLASSNAME         run the class named CLASSNAME"
 echo "Most commands print help when invoked w/o parameters."
pause
goto :end

:begin
rem %~dp0 这个脚本的扩展path   ( expanded pathname of the current script under NT)
set DEFAULT_NUTCH_HOME=%~dp0
rem set DEFAULT_NUTCH_HOME=..

if "%NUTCH_HOME%"=="" set NUTCH_HOME=%DEFAULT_NUTCH_HOME%
set DEFAULT_NUTCH_HOME=""
rem 设置默认DEFAULT_NUTCH_HOME

echo %NUTCH_HOME%

rem set _USE_CLASSPATH=yes

if "%CLASSPATH%"=="" ( set CLASSPATH=%JAVA_HOME%\lib\tools.jar) ELSE set CLASSPATH=%CLASSPATH%;%JAVA_HOME%\lib\tools.jar

set CLASSPATH=%CLASSPATH%;%NUTCH_HOME%conf;
echo %CLASSPATH%
echo before other

rem for developers, add plugins, job & test code to CLASSPATH
if exist %NUTCH_HOME%\build\plugins set CLASSPATH=%CLASSPATH%%NUTCH_HOME%build;


for /R %NUTCH_HOME%\build %%i in (nutch*.job) do set CLASSPATH=!CLASSPATH!;%%i

if exist %NUTCH_HOME%\build\test\classes set CLASSPATH=%CLASSPATH%;%NUTCH_HOME%\build\test\classes


rem for releases, add Nutch job to CLASSPATH
for /R %NUTCH_HOME% %%i in (nutch*.job) do set CLASSPATH=!CLASSPATH!;%%i
rem add plugins to classpath
if exist %NUTCH_HOME%\plugins set CLASSPATH=%CLASSPATH%;%NUTCH_HOME%
rem add libs to CLASSPATH
for /R %NUTCH_HOME%\lib %%f in (*.jar) do set CLASSPATH=!CLASSPATH!;%%f


echo %CLASSPATH%

rem translate command
if "%1"=="crawl" set CLASS=org.apache.nutch.crawl.Crawl
if "%1"=="inject" set   CLASS=org.apache.nutch.crawl.Injector
if "%1"=="generate" set   CLASS=org.apache.nutch.crawl.Generator
if "%1"=="fetch" set   CLASS=org.apache.nutch.fetcher.Fetcher
if "%1"=="parse" set   CLASS=org.apache.nutch.parse.ParseSegment
if "%1"=="readdb" set   CLASS=org.apache.nutch.crawl.CrawlDbReader
if "%1"=="readlinkdb" set   CLASS=org.apache.nutch.crawl.LinkDbReader
if "%1"=="segread" set   CLASS=org.apache.nutch.segment.SegmentReader
if "%1"=="updatedb" set   CLASS=org.apache.nutch.crawl.CrawlDb
if "%1"=="invertlinks" set   CLASS=org.apache.nutch.crawl.LinkDb
if "%1"=="index" set   CLASS=org.apache.nutch.indexer.Indexer
if "%1"=="dedup" set   CLASS=org.apache.nutch.indexer .DeleteDuplicates
if "%1"=="merge" set   CLASS=org.apache.nutch.indexer.IndexMerger
if "%1"=="plugin" set   CLASS=org.apache.nutch.plugin.PluginRepository
if "%1"=="server" set CLASS='org.apache.nutch.searcher.DistributedSearch$Server'
if "%CLASS%"=="" set CLASS=%1
echo "aa"
%JAVA_HOME%\bin\java -cp %CLASSPATH% %CLASS% %*
echo "bnb"


if "%OS%"=="Windows_NT" @endlocal
if "%OS%"=="WINNT" @endlocal

:end
  • nutch-0.9.rar (1.4 KB)
  • 描述: nutch0.9批处理文件
  • 下载次数: 126
分享到:
评论

相关推荐

    nutch 0.9 版(包含war,bin,src可直接部署使用)

    在Nutch 0.9 中,这个WAR文件包含了运行Nutch Web界面所需的全部组件,包括Web UI和相关服务,用户可以通过浏览器访问这些服务来监控和管理爬虫任务。 3. **BIN 文件**: BIN目录通常包含Nutch的可执行脚本和...

    nutch09版本亲测好用

    Nutch 0.9 允许开发者通过修改配置文件来调整其行为,如设置抓取间隔、选择爬行策略、定义解析规则等。这使得 Nutch 可以适应各种不同的需求和场景。 7. **Hadoop 集成**: 在 Nutch 0.9 中,Hadoop 被用来处理...

    Eclipse中编译Nutch-0.9

    本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,从环境搭建、项目导入,到解决编译错误、外部库集成,再到配置文件调整和最终的运行测试,每一个步骤都旨在帮助用户顺利地启动和操作这个强大的网络爬虫工具...

    nutch 0.9分页代码(粘贴可用)

    ### Nutch 0.9 分页代码解析与应用 #### 一、背景介绍 Nutch 是一个开源的网络爬虫项目,它提供了高度可扩展且可靠的网页抓取框架。随着互联网的发展,数据量日益增大,如何高效地处理这些数据成为了一个重要的...

    eclipse配置nutch,eclipse配置nutch

    为了使Nutch在Eclipse中正常运行,你需要修改Nutch的默认配置文件`nutch-default.xml`。具体而言,将`plugin.folders`参数改为`"./src/plugin"`,以确保Nutch能够识别到项目的插件目录。 #### 步骤5:设置URL文件 ...

    Nutch 1.7 Windows 批处理脚本

    Nutch 脱离Cygwin直接在Windows下运行。 修正批处理最大只能直接传9个参数的问题。

    nutch-0.9 环境搭建所需最小cygwin

    《nutch-0.9 环境搭建所需最小cygwin详解》 在构建一个功能完备的搜索引擎系统时,Apache Nutch是一个重要的开源选择。Nutch-0.9是Nutch的一个较早版本,虽然相比最新的版本可能功能稍显简陋,但对于初学者或者对...

    rtf-parse.jar、jid3lib-0.5.4.jar

    在编译`Nutch`项目时,可能需要依赖各种`jar`库,包括`rtf-parse.jar`和`jid3lib-0.5.4.jar`,因为`Nutch`可能需要处理包含RTF格式的网页或者抓取的MP3等音频文件。 `rtf-parse.jar`和`jid3lib-0.5.4.jar`在`Nutch`...

    实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎)

    尝试使用Nutch 0.9和IKAnalyzer 3.1.6GA组合,但由于版本兼容性问题导致失败,因此改用Nutch 1.2和IKAnalyzer 3.2.8,并将Tomcat升级到6.0.35版本。 在Nutch 1.2中集成IKAnalyzer,需要修改NutchAnalysis.jj文件,...

    Nutch_的配置文件

    在Nutch的运行过程中,配置文件起着至关重要的作用,它们定义了Nutch的行为方式和各种参数设置。Nutch的配置文件主要分为三类: 1. **Hadoop的配置文件**:包括`Hadoop-default.xml`和`Hadoop-site.xml`。`Hadoop-...

    nutch无法下载中文文件的问题

    在处理中文内容时,可能会遇到一些特定的问题,比如“nutch无法下载中文文件”。这个问题通常与字符编码、URL 处理和配置设置有关。下面我们将深入探讨这个问题,并提供可能的解决方案。 首先,Nutch 在抓取网页时...

    windows下nutch的安装.pdf

    4. Nutch 0.9版本:Nutch的版本需要明确指定为0.9; 5. Nutch配置文件:如nutch-site.xml、nutch-default.xml等。 安装过程中,首先需要在Windows系统上安装Cygwin,安装完成后,需指定JDK的安装路径,这通常是在...

    nutch0。9版本

    Nutch 0.9 版本是开源搜索引擎项目的一个里程碑,它为构建大规模网络爬虫和索引系统提供了强大的框架。Nutch 是由 Apache 软件基金会开发的,其目标是提供一个可扩展、高性能的搜索解决方案,适用于企业和个人。 在...

    Nutch在Tomcat下的部署.doc

    3. **配置Nutch**:在`webapps\nutch\WEB-INF\classes`目录下的`nutch-site.xml`文件中,你需要进行适当的修改。尤其是针对你的抓取目录,将`<nutch-conf>`标签内的内容替换为: ``` <nutch-conf> <name>...

    nutch Windows版脚本

    该批处理文件是bin\nutch的Windows版本 与http://download.csdn.net/detail/leave00608/7060765 之前发的 hadoop-core-1.2.1.jar 一起使用, 即可解决nutch不借助cgywin直接在Windows平台下运行。 该批处理基于 ...

    Nutch在MyEclipse下的配置[参照].pdf

    - 推荐使用Nutch 0.9版本,确保下载的是源代码开放包。 - 安装Java环境,并配置好JDK。 - 准备好MyEclipse开发环境。 2. **新建Java项目**: - 打开MyEclipse,通过`File -> New -> Java Project`创建一个新的...

    apache-nutch-1.6-bin.tar.gz最新版

    在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境变量设置为NUTCH_JAVA_HOME=C:\Program Files\Java\jdk1.5.0(也就是说跟JAVA_HOME是相同的).测试nutch是否安装成功,只需要执行以下命令: $cd D:/Downloads/...

    Nutch爬虫工作流程及文件格式详细分析.doc

    本文主要分析Nutch爬虫的工作流程及其涉及的文件格式。 Nutch的爬虫部分主要负责从互联网上抓取网页并构建索引。这一过程可以分为几个关键步骤: 1. **生成Fetchlist**: - Nutch首先基于现有的Web数据库(WebDB...

Global site tag (gtag.js) - Google Analytics