`
edwin492
  • 浏览: 114613 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

nutch初体验

阅读更多

注意:用nutch还得添加一个环境变量指向java目录:NUTCH_JAVA_HOME=$JAVA_HOME否则报:JAVA_HOME is not set

 

1.nutch目录下新建url.txt写入网址如:http://www.163.com

 

2.nutch/conf下的crawl-urlfilter.txt

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*163.com/

 

3.conf下的nutch-site.xml

<configuration>

        <property>

                <name>http.agent.name</name>

                <value>my nutch agent</value>(自己命名)

        </property>

        <property>

                <name>searcher.dir</name>

<value>/root/nutch/crawl</value>(保存路中间不要用点如:crawl.demo,这样会致错)

</property>

</configuration>

 

4.抓取

bin/nutch crawl url.txt -dir /root/nutch/crawl -depth 2 -threads 4 -topN 50 >& crawl.log

其中crawl.log为抓取日志文件

 

5.将nutch-1.2.war放入tomcat的webapps下

修改项目WEB-INF/classes/nutch-site.xml文件中的目录为抓取内容存放的位置

<property>

        <name>searcher.dir</name>

<value>/root/nutch/crawl</value>

</property>

 

6.运行tomcat中的nutch项目,输入163可见搜索的结果

分享到:
评论

相关推荐

    Nutch 初体验 - DBA Notes

    Nutch 初体验 - DBA Notes

    nutch 初学文档教材

    3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 执行抓取命令......9 3.1.4 测试结果...11 3.1.5 Intranet Recrawl..13 3.2 爬行全网.....18 3.2.1 nutch数据集的基本...

    nutch入门.pdf

    Nutch初体验部分涉及爬行企业内部网和爬行全网。这一部分详细介绍了如何配置Nutch以及Tomcat,执行抓取命令,并对结果进行测试。其中,爬行企业内部网涉及到IntranetRecrawl,而爬行全网则详细讨论了爬行官方网址和...

    Nutch入门.rar

    3. nutch初体验7 3.1 爬行企业内部网....7 3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 执行抓取命令......9 3.1.4 测试结果...11 3.1.5 Intranet Recrawl..13 3.2 爬行全网.....18 3.2.1 nutch数据集...

    nutch入门实例教程.pdf

    Nutch 初体验 - **爬行企业内部网**: - **配置 Nutch**: 设置抓取规则、URL 范围等。 - **配置 Tomcat**: 适配 Nutch 的 Web 界面设置。 - **执行抓取命令**: 使用 `bin/nutch crawl` 命令开始抓取。 - **测试...

    nutch入门学习

    nutch初体验 在初步接触Nutch时,用户可以通过以下几种方式实践: - **爬行企业内部网**:通过配置Nutch,可以抓取公司内网的网页,了解Nutch的基本操作流程。 - **爬行全网**:了解Nutch的数据集构成,尝试抓取...

Global site tag (gtag.js) - Google Analytics