`
zha_zi
  • 浏览: 592565 次
  • 性别: Icon_minigender_1
  • 来自: 西安
社区版块
存档分类
最新评论

nutch 更新url.txt无法执行新的抓取

 
阅读更多

nutch在使用中经常会修改url.txt中要抓取的目标网站,但是我们在二次开发的时候经常发现url但是仍然在抓取丢的配置网站,后来发现是索引文件夹得问题,在每次从新抓取的时候切忌要删掉索引文件夹,如果不删除目前我们发现会出现两个方面的问题

1:修改url从新抓取的时候不会根据新的url抓取,依然是抓取上次配置的url

2: 有时候会在抓取的执行到最后时候创建linked包错误,具体类型记得不是太清楚,大概就是linked xxxxx已经存在

分享到:
评论

相关推荐

    windows下nutch的安装.pdf

    执行抓取操作: ``` bin/nutch crawl urls -dir crawl -depth 3 -topN 50 > crawl.log ``` 以上命令会执行三个深度级别的抓取,并将结果输出到日志文件中。 Nutch会生成一系列的文件夹和文件来存储索引和相关数据,...

    Nutch_的配置文件

    通过这种方式,Nutch可以灵活地根据环境和需求调整行为,比如设置爬虫的抓取频率、存储路径、索引策略、解析规则等。了解并正确配置这些文件对于优化Nutch的性能和实现特定功能至关重要。 在实际使用中,开发者和...

    基于ApacheNutch和Htmlunit的扩展实现AJAX页面爬虫抓取解析插件nutch-htmlunit.zip

    当前项目基于Nutch 1.X系列已停止更新维护,转向Nutch 2.x系列版本的新项目:http://www.oschina.net/p/nutch-ajax 项目简介 基于Apache Nutch 1.8和Htmlunit组件,实现对于AJAX加载类型页面的完整页面内容...

    apache-nutch-2.3.1-src.tar.gz

    3. **README.txt**: 提供了关于 Nutch 的基本介绍和安装指南,包括如何编译、配置以及运行 Nutch。 4. **LICENSE**: Nutch 的许可协议,它是 Apache License 2.0,允许自由使用、修改和分发。 5. **NOTICE**: 提供...

    nutch-analysis.rar_nutch

    6. **更新与重复检测**: Nutch会检查新抓取的页面与已存在的页面的相似性,以防止重复抓取。同时,它会定期更新已抓取的页面,以获取最新的内容。 7. **搜索服务**: 最后,Nutch提供了搜索接口,用户可以通过查询...

    nutch2.2.1安装步骤.docx

    4. 执行抓取周期:`bin/nutch crawl -i crawl` 注意,你需要根据实际的数据库连接信息更新 `gora.properties` 文件,例如设置 `db.url`、`db.driver`、`db.username` 和 `db.password`。 在 Nutch 进行抓取时,...

    apache-nutch-1.16.rar 已编译好的版本,可以直接导入eclipse、idea

    Apache Nutch是一个强大的开源搜索引擎项目,它主要用于网络数据抓取和全文检索。Nutch 1.16是该项目的一个稳定版本,已经预先编译完成,方便开发者直接在Eclipse或IntelliJ IDEA这样的集成开发环境中导入使用,无需...

    Nutch入门教程.pdf

    包括如何配置Nutch、Tomcat,如何执行抓取命令,测试结果以及如何进行内部网络的重新爬取。 基本原理分析部分详细介绍了Nutch的工作流程,包括爬虫的工作策略和流程、索引的主要过程以及搜索和分析的过程。索引部分...

    nutch根据URL来查找快照

    2. **执行抓取**: 使用Nutch的`bin/nutch crawl`命令启动抓取过程。这将按照设定的策略抓取互联网上的网页,并保存为一系列的段(segment)文件,每个段包含多个网页的抓取信息和快照。 3. **生成索引**: 抓取完成...

    Nutch配置[汇编].pdf

    bin/nutch crawl url.txt -dir crawled -depth 3 -threads 10 -topN 50 >& crawl.log ``` - **参数解析**: - `url.txt`:指定包含待抓取URL的文件。 - `-dir crawled`:抓取后的网页数据存储目录。 - `-depth ...

    Nutch2.3.1 环境搭建

    3. `regex-urlfilter.txt`:定义URL过滤规则,决定哪些网址应被忽略或包含。 4. `fetcher.server.max.fetch.delay`:设置最大抓取延迟,避免对目标网站造成过大压力。 **四、构建和运行Nutch** 1. 在Nutch源码目录...

    nutch配置与安装

    5. **执行抓取任务**:在Cygwin命令行中输入`bin/nutch crawl url.txt –dir localweb –depth 3 –topN 100 –threads 1`命令。这里: - `url.txt`:URL列表文件。 - `-dir localweb`:指定抓取结果的存储目录。 ...

    apach-nutch-1.9-bin.tar.gz

    5. **运行Nutch**:启动Nutch涉及到多个步骤,包括生成URL列表、执行抓取、索引和搜索等。命令行工具如`bin/nutch`用于调度这些任务。 6. **Nutch 与其他组件集成**:尽管Nutch 1.9不直接支持HBase,但它可以与Solr...

    apache-nutch-1.4-bin.tar.gz

    它通过种子URL开始,然后遍历网页,遵循robots.txt协议,尊重网站的抓取规则。 2. **抓取模块(Fetcher)**:负责下载网页内容。它会根据爬虫生成的待抓取URL队列,以合理的速率下载页面,避免对服务器造成过大的...

    Nutch 1.2源码阅读

    Nutch的工作流程主要包括以下几个阶段:注入(Injector)、生成抓取URL(Generator)、网页抓取(Fetcher)、网页解析(ParseSegment)、数据库更新(CrawlDb)、链接数据库处理(LinkDb)以及索引构建(Indexer)。...

    Nutch 安装与配置文档

    - 在Cygwin中,进入Nutch根目录,执行抓取命令,如`bin/nutch crawl urls.txt -dir localweb -depth 3 -topN 100 -threads 1`。 - 参数说明: - `urls.txt`:包含起始URL的文件。 - `-dir`:指定抓取结果存储的...

    apache-nutch-1.6-src.tar.gz

    Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效的信息检索。Nutch 1.6 是该项目的一个稳定版本,提供了丰富的功能和良好的性能。这个`apache-nutch-1.6-src.tar...

Global site tag (gtag.js) - Google Analytics