`
wangxuliangboy
  • 浏览: 210621 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

nutch window执行程序

阅读更多

@echo off
set JAVA_HEAP_MAX="-Xmx512M"
if not "%1"=="" goto INIT else goto echoMSG
:echoMSG
  echo Title: Nutch 运行脚本
  echo Author:wolf mail:wangxuliangboy@163.com QQ:39278621
  echo Nutch Version: 0.9
  echo Usage: nutch COMMAND
  echo where COMMAND is one of:
  echo   crawl             one-step crawler for intranets
  echo   inject            inject new urls into the database
  echo   generate          generate new segments to fetch
  echo   fetchlist         print the fetchlist of a segment
  echo   fetch             fetch a segment's pages
  echo   parse             parse a segment's pages
  echo   index             run the indexer on a segment's fetcher output
  echo   merge             merge several segment indexes
  echo   dedup             remove duplicates from a set of segment indexes
  echo   updatedb          update db from segments after fetching
  echo   updatesegs        update segments with link data from the db
  echo   mergesegs         merge multiple segments into a single segment
  echo   analyze           adjust database link-analysis scoring
  echo   segread           read, fix and dump segment data
  echo   segslice          append, join and slice segment data
  echo   server            run a search server
  echo   namenode          run the NDFS namenode
  echo   datanode          run an NDFS datanode
  echo   ndfs              run an NDFS admin client
  echo   jobtracker        run the MapReduce job Tracker node
  echo   tasktracker       run a MapReduce task Tracker node
  echo  or
  echo   CLASSNAME         run the class named CLASSNAME
  echo Most commands print help when invoked w/o parameters.
  goto end;
:INIT 
  set NUTCH_HOME=%NUTCH_HOME%
  if "%NUTCH_HOME%"=="" echo NUTCH_HOME IN PATH ONT FOUND
  set CLASSPATH=%NUTCH_HOME%;%NUTCH_HOME%\conf;%NUTCH_HOME%\plugin;%NUTCH_HOME%\lib
  @echo @echo off>setclasspath.bat
  for %%i in (%NUTCH_HOME%\nutch-*.jar) do @echo set CLASSPATH=%%CLASSPATH%%;%%i>>setclasspath.bat;& for %%i in (%NUTCH_HOME%\lib\*.jar) do @echo set CLASSPATH=%%CLASSPATH%%;%%i>>setclasspath.bat;
  goto EXEC
:EXEC
  call setclasspath
  if  "%1" == "crawl" set CLASS=org.apache.nutch.crawl.Crawl
  if  "%1" == "inject" set CLASS=org.apache.nutch.crawl.Injector
  if  "%1" == "generate" set CLASS=org.apache.nutch.crawl.Generator
  if  "%1" == "fetchlist" set CLASS=org.apache.nutch.pagedb.FetchListEntry
  if  "%1" == "fetch" set CLASS=org.apache.nutch.fetcher.Fetcher

  if  "%1" == "fetch2" set CLASS=org.apache.nutch.fetcher.Fetcher2
  if  "%1" == "convdb" set CLASS=org.apache.nutch.tools.compat.CrawlDbConverter
  if  "%1" == "parse" set CLASS=org.apache.nutch.parse.ParseSegment
  if  "%1" == "index" set CLASS=org.apache.nutch.indexer.Indexer
  if  "%1" == "merge" set CLASS=org.apache.nutch.indexer.IndexMerger
  if  "%1" == "dedup" set CLASS=org.apache.nutch.indexer.DeleteDuplicates
  if  "%1" == "updatedb" set CLASS=org.apache.nutch.crawl.CrawlDb
  if  "%1" == "mergesegs" set CLASS=org.apache.nutch.segment.SegmentMerger
  if  "%1" == "readdb" set CLASS=org.apache.nutch.crawl.CrawlDbReader
  if  "%1" == "segread" echo "[DEPRECATED] Command 'segread' is deprecated, use 'readseg' instead." set CLASS=org.apache.nutch.segment.SegmentReader
  if  "%1" == "server" set CLASS=org.apache.nutch.searcher.DistributedSearch$Server
  echo %CLASSPATH%
  call "%JAVA_HOME%\bin\java" %JAVA_HEAP_MAX% -classpath "%CLASSPATH%" %CLASS% %2 %3 %4 %5 %6 %7 %8 %9
:end

 

如是有报错的话,你检查NUTCH配置文件的路径对不对..NUTCH是通过Configuration.class.getResource("")(当前类路径)来读取..

 

分享到:
评论

相关推荐

    Nutch执行单步执行、中间结果文件分析和插件开发基础

    资源中urls.txt是我nutch单步执行过程的种子文件,里面的ppt主要讲解nutch单步执行流程,并获取每次单步执行的结果文件,对文件进行分析,同时ppt还讲解了nutch的插件的基础知识,不是很详细,但是可以作为参考。...

    解决nutch在window系统安装问题

    解决nutch在window系统安装报错问题Exception in thread "main" java.io.IOException: Failed to set permissions of path: \tmp\hadoop-tom\mapred\staging\tom1698089073\.staging to 0700,替换jar包OK!

    nutch2.2.1安装步骤.docx

    3. apache-tomcat-8.5.39.tar.gz:Tomcat 是一个流行的 Java Servlet 和 JavaServer Pages(JSP)容器,用于运行 Nutch 的 Web 应用程序。 4. jdk-8u201-linux-x64.tar.gz:Java 开发工具包,Nutch 运行和构建的必需...

    nutch使用&Nutch;入门教程

    入门教程”将带你深入理解Nutch的基本概念、工作流程以及如何实际操作它来执行网络爬取任务。 一、Nutch简介 Nutch是一个基于Java的开源搜索引擎,其主要功能包括网页抓取、链接分析、网页排名和索引。Nutch的设计...

    nutch

    Nutch 利用 Hadoop MapReduce 进行分布式任务执行,同时,HBase 通常用于存储 Nutch 的索引数据,提供实时查询功能。 **Nutch 的使用** 学习 Nutch 需要掌握 Hadoop 相关知识,包括配置 Hadoop 环境、理解 ...

    eclipse配置nutch,eclipse配置nutch

    选择“Run As > Java Application”,并在“Arguments”选项卡中设置程序参数,如`Program arguments: urls-dir crawl-depth 3 topN 50`,以及虚拟机参数`VM arguments: -Dhadoop.log.dir=logs -Dhadoop.log.file=...

    Apache Nutch 1.7 学习总结

    - 打开Cygwin终端,进入Nutch源码目录,配置环境,执行编译和构建命令。 4. **Nutch1.7 测试** - 初始化Nutch的配置文件,根据需求修改`conf/nutch-site.xml`。 - 运行Nutch的基本命令,如抓取种子URL (`bin/...

    Nutch搜索引擎·Nutch简单应用(第3期)

    首先,Nutch的命令是其运行和管理的核心,通过不同的命令,Nutch可以执行相应的爬取和索引操作。例如, crawl命令代表了Nutch爬虫抓取和索引的整个过程。在使用该命令时,可以通过参数来控制爬取行为,如指定URL列表...

    Nutch中文教程nutcher.zip

    Nutch教程——导入Nutch工程,执行完整爬取 Nutch流程控制源码详解(bin/crawl中文注释版) Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit ...

    nutch帮助文档;nutch学习 入门

    - **运行Nutch流程**:执行`bin/nutch crawl`命令,依次进行抓取、解析、索引等步骤。 - **使用Solr或Elasticsearch**:Nutch可以将索引数据导出到Solr或Elasticsearch,以实现更强大的搜索功能。 - **学习源码**...

    Nutch相关框架视频教程

    资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...

    nutch 初学文档教材

    3.1.3 执行抓取命令......9 3.1.4 测试结果...11 3.1.5 Intranet Recrawl..13 3.2 爬行全网.....18 3.2.1 nutch数据集的基本组成:.....18 3.2.2 爬行"官方"网址.....18 3.2.3 爬行中文网址....22 4. nutch基本原理...

    搭建nutch开发环境步骤

    在Nutch目录下执行: ```bash hadoop version ``` 如果返回Hadoop版本信息,说明Hadoop已安装并配置成功。如果没有,需要安装Hadoop并配置`HADOOP_HOME`环境变量。 **步骤六:编译与安装Nutch** 在Nutch根目录下...

    Nutch 0.8笔记NUTCHNUTCH

    【Nutch 0.8 知识点详解】 Nutch 是一个开源的、基于 Lucene 的网络搜索引擎项目,它提供了一套完整的搜索引擎解决方案,包括网页抓取、索引和搜索功能。Nutch 0.8 版本尤其值得关注,因为它完全使用 Hadoop 进行了...

    Nutch2.3.1 环境搭建

    Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页内容。在本文中,我们将深入探讨如何搭建Nutch2.3.1的运行环境,以便进行网页抓取和分析。 **一、...

    Nutch程序运行环境配置

    Nutch程序运行环境配置是Java开发中的一个重要环节,特别是在Windows操作系统上进行Nutch相关的开发工作。Nutch是一个开源的Web爬虫项目,用于抓取互联网上的网页并建立索引,通常与Hadoop等大数据处理框架结合使用...

Global site tag (gtag.js) - Google Analytics