`
wangwei3
  • 浏览: 121018 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

heritrix无法抓取中文URL的问题解决方案

阅读更多
Heritrix对中文支持不够,比如URL中有中文的URL肯定抽取不到,但这个改动部分代码页就是它的正则表达式即可

解决方法

修改org.archive.crawler.extractor.ExtractorJS类


static final String STRING_URI_DETECTOR = "(?: \\w|[\\.]{0,2}/)[\\S&&[^<>]]*(?:\\.|/)[\\S&&[^<>]]*(?:\\w|/)";

改为
static final String STRING_URI_DETECTOR = "(?: \\w|[\\.]{0,2}/)[\\S&&[^<>]]*(?:\\.|/)[\\S&&[^<>]]*(?:\\S|/)";



分享到:
评论
2 楼 wangwei3 2010-11-17  
没有看过1.14.4不好意思啊
1 楼 lsshappy007 2010-09-02  
我的版本是1.14.4,在ExtractorJS类里只找到了JAVASCRIPT_STRING_EXTRACTOR,请问该如何修改正则表达式才能提取中文URL呢?

相关推荐

    配置Heritrix及常见问题解决

    可以配置存储策略,如定期清理旧数据,或者使用其他持久化解决方案如数据库。 9. **启动与运行**: 启动Heritrix通常通过命令行进行,使用`java -jar heritrix.jar`。运行过程中,可以使用`--interactive`选项进入...

    很好的heritrix学习资料

    它可能涵盖了Heritrix的基本概念、安装步骤、启动和运行爬虫的基本流程,以及一些常见的问题和解决方法。对于新接触Heritrix的人来说,这份资料将是宝贵的起点。 "Heritrix1_14_1在Eclipse下的配置总结 - Java - ...

    heritrix系统使用.ppt

    为了解决这个问题,可以使用如ELF哈希算法来平均分配URL到不同的队列,从而实现更有效的多线程同步。 在Heritrix系统中,爬取过程可以分为四个关键部分: 1. **Page Fetching**:这是从Frontier获取URI并处理的...

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    "Myeclipse下安装说明及常见问题.txt" 文件提供了在MyEclipse集成开发环境中安装和运行Heritrix的步骤和可能遇到的问题的解决方案。MyEclipse是一种强大的Java EE集成开发环境,对Java项目的支持非常全面,因此它是...

    heritrix源码

    通过学习和实践Heritrix源码,开发者可以构建自己的定制化爬虫解决方案。 总的来说,Heritrix是一个强大的工具,它结合了灵活性和稳定性,为网络爬虫开发者提供了丰富的功能和可能性。通过深入研究其源码,你可以...

    heritrix-1.12.1

    4. **存储机制**:Heritrix支持多种存储选项,如文件系统、数据库或自定义存储解决方案,用于保存抓取的数据。 5. **调度器**:调度器管理爬虫的工作流程,包括决定何时访问哪个URL,以及如何处理重试和错误。 6. **...

    Heritrix的使用入门

    用户可以根据需求扩展或替换这些组件,以实现定制化的网络抓取解决方案。 在垂直搜索领域,Heritrix可以用于收集特定领域的网页数据,如新闻、学术论文或特定行业的信息。通过定制的处理器和过滤器,可以确保只抓取...

    heritrix-3.4.0-SNAPSHOT-dist.zip

    5. **存储与索引**:抓取到的数据可以存储在本地文件系统、数据库或其他存储解决方案中。同时,Heritrix可以与其他工具(如Solr或Elasticsearch)集成,为数据建立索引,便于后续分析和检索。 6. **扩展性**:...

    heritrix3.2

    8. **社区支持与文档**:Heritrix 作为开源项目,拥有活跃的社区和详尽的文档,用户可以在这里找到解决问题的方法和最佳实践。 在实际应用中,Heritrix 3.2 可用于多种场景,如构建互联网档案库、学术研究、市场...

    Heritrix的安装与配置

    Heritrix允许你定义爬取规则,如URL过滤器、深度限制、爬行速度等,以适应不同的抓取需求。 总之,Heritrix是一个功能强大的网络爬虫工具,其安装和配置涉及对Java项目的理解和Eclipse的熟练操作。通过以上步骤,你...

    Heritrix—开发自己的搜索引擎

    Heritrix本身并不直接提供索引功能,但可以与其他索引工具(如Apache Nutch或Solr)集成,构建完整的搜索引擎解决方案。 7. **日志与监控**:Heritrix提供了丰富的日志记录和性能监控功能,帮助开发者了解爬虫运行...

    Heritrix用户参考手册

    前端模块负责管理待抓取URL队列,决定哪些URL优先被抓取;处理器模块则用于处理抓取到的数据,如去重、过滤、解析等。此外,配置文件还支持子模块嵌套和设置覆盖,允许用户灵活调整抓取行为。 ### 七、运行作业 在...

    heritrix3.2源码

    Heritrix 3.2 源码的分析和理解有助于开发者深入掌握爬虫技术,定制自己的爬虫解决方案。 首先,让我们了解一下Heritrix 3.2 的核心特性: 1. **模块化设计**:Heritrix 3.2 采用组件化的架构,使得不同的爬取功能...

    Lucene+Heritrix(搜索引擎开发)

    值得注意的是,在使用Lucene和Heritrix开发搜索引擎时,我们还需要考虑系统架构、数据处理能力、存储解决方案以及系统的可扩展性与维护性。在设计之初,就要规划如何高效地处理和存储索引数据,以及如何应对搜索引擎...

    Lucene+Heritrix 源码

    通过学习和理解这两个项目的源码,不仅可以提升对搜索引擎原理的理解,还能掌握如何利用开源工具构建自己的搜索解决方案。这将对你在IT领域的职业生涯大有裨益,无论是进行搜索相关的开发工作,还是在数据分析、信息...

    Heritrix

    Lucene是一个高性能、全功能的全文检索引擎库,它提供了索引和搜索功能,使得Heritrix抓取的数据能够快速高效地被查询。 在压缩包`heritrix-0.2.0`中,用户可以找到Heritrix的源代码、文档、示例配置文件以及相关的...

    Heritrix 源码和Jar

    当遇到爬取失败、重复抓取、内存溢出等问题时,了解Heritrix的日志系统和调试方法,可以帮助快速定位和解决问题。 总之,Heritrix、Lucene和Dwr的组合为构建一个功能强大的网络搜索引擎提供了坚实的基础。通过深入...

Global site tag (gtag.js) - Google Analytics