`
lzj0470
  • 浏览: 1272598 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Heritrix 修改文件名

    博客分类:
  • java
阅读更多

有时候用Heritrix爬取信息的时候,在遇到有?号的情况下,因为在windows平台下,文件名不支持?符号,所以Heritrix在保存时,把?号去掉不要,并且后缀名往放在最后,如果想用程序来识别原始文件名,那就没辙啦,下面代码可以帮你解决这个问题。

private String joinParts() {
            StringBuffer sb = new StringBuffer(length());
            sb.append(mainPart.asStringBuffer());
            System.out.println("综合:"+uniquePart+"->"+query+"->"+suffix);
            if (null != uniquePart) {
                sb.append(uniquePart);
            }
            if (suffixAtEnd) {
                if (null != query&&null != suffix) {
                    return sb.append("."+suffix+"LOIY"+query).toString();
                   
                }
                if (null != query) {
                    sb.append(query);
                }
                if (null != suffix) {
                    sb.append('.');
                    sb.append(suffix);
                }
            } else {
                if (null != query&&null != suffix) {
                    return sb.append("."+suffix+"LOIY"+query).toString();
                }
                if (null != suffix) {
                    sb.append('.');
                    sb.append(suffix);
                }
                if (null != query) {
                    sb.append(query);
                }
            }
            return sb.toString();
        }

分享到:
评论

相关推荐

    网络爬虫Heritrix1.14.4可直接用

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术...

    heritrix1.14.0jar包

    4. **src**:源代码目录,虽然用户可能不会直接修改,但有助于理解Heritrix的内部工作机制。 5. **webapps**:包含了Web管理界面的相关文件,用户可以通过浏览器访问来监控和控制爬虫的运行状态。 在搭建Heritrix...

    heritrix爬虫安装部署

    - 修改`heritrix.properties`中的相关配置,如`heritrix.cmdline.admin`。 - 运行Heritrix应用并验证功能。 #### 三、Heritrix工作原理 Heritrix的工作原理基于深度优先搜索算法,其核心流程包括: 1. **爬取任务...

    heritrix-1.14.2.zip

    1. **源代码**:包含了Heritrix的Java源代码,用户可以查看和修改这些代码以适应自己的需求。 2. **构建脚本**:如Ant或Maven脚本,用于编译和打包项目。 3. **文档**:可能包括用户指南、API文档和开发手册,帮助...

    Heritrix(windows版)

    通过源代码,你可以深入理解Heritrix的工作原理,并根据需要修改或扩展它的功能。如果你打算对Heritrix进行二次开发,或者需要解决特定问题,那么这个源代码包是必不可少的。 此外,还有一个名为“官方下载地址.txt...

    heritrix-3.1.0 最新jar包

    - **模块化架构**:Heritrix的组件可以通过配置文件进行添加、删除或修改,如爬行策略、解析器、存儲策略等,提供了极大的灵活性。 - **爬行策略**:Heritrix支持多种爬行策略,如深度优先、广度优先,甚至可以...

    Heritrix搭建好的工程

    在Eclipse中,可以方便地查看和修改这些配置文件,以适应不同的爬取需求。 “readMe.txt”文件通常包含了工程的说明和使用指南,包括如何启动、配置和使用Heritrix。这个文件对于初学者来说是非常有价值的资源,...

    Heritrix使用详解与高级开发应用

    Heritrix是一个强大的Java开发的开源网络爬虫,主要用于从互联网上抓取各种资源。它由www.archive.org提供,以其高度的可扩展性而著称,允许开发者自定义抓取逻辑,通过扩展其内置组件来适应不同的抓取需求。本文将...

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    源代码可以使用Java编译器进行编译和修改。 "Myeclipse下安装说明及常见问题.txt" 文件提供了在MyEclipse集成开发环境中安装和运行Heritrix的步骤和可能遇到的问题的解决方案。MyEclipse是一种强大的Java EE集成...

    Heritrix3手册翻译

    然而,Heritrix 3.0当前存在一些限制,例如,所有预启动的配置编辑都需要通过文件或网络UI的文本区域进行,而且在运行中的爬虫进行配置更改会影响当前爬行的状态,不会自动反映在后续启动中。日志处理也有一定的局限...

    很好的heritrix学习资料

    Heritrix是一款强大的开源网络爬虫工具,专为大规模、深度网页抓取设计。这款工具由互联网档案馆(Internet Archive)开发,旨在提供灵活、可扩展的网页抓取框架,适用于学术研究、数据挖掘和历史记录保存等多种用途...

    heritrix抓取的操作和扩展

    Heritrix的强大之处还在于其模块化的设计,用户可以根据需求添加或修改处理器、过滤器和策略,以实现特定的爬网功能。此外,Heritrix支持多种数据格式,如WARC和ARC,方便数据的长期保存和分析。 在实际应用中,...

    开发自己的搜索引擎 lucene + heritrix

    在这个过程中,Lucene 和 Heritrix 是两个非常关键的工具,它们分别在搜索引擎的构建中扮演着不同的角色。 首先,Lucene 是一个基于 Java 的开源信息检索库,它为开发者提供了一系列用于构建搜索引擎的工具和接口。...

    Heritrix的安装与配置

    而`src`文件夹则包含了Heritrix的源代码,你可以在这里查看和修改Heritrix的内部逻辑。 接下来,我们需要在集成开发环境(IDE)如Eclipse中创建一个新的Java项目,并命名为"Heritrix"。将`lib`文件夹拖入项目工程中...

    Heritrix1.14.4(含源码包)

    你需要根据实际需求修改这些配置来定制爬虫行为。 4. **源码编译与运行**:下载Heritrix 1.14.4的源码包后,首先需要一个Java开发环境(JDK),因为Heritrix是用Java编写的。然后,使用Maven或Ant等构建工具进行...

    lucene_heritrix 搜索引擎

    Lucene和Heritrix是两个在信息技术领域中用于搜索引擎构建的重要工具。Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发,它提供了一个简单的API来索引和搜索大量文本数据。Heritrix,另一方面,是一个...

Global site tag (gtag.js) - Google Analytics