`
cdwzwd
  • 浏览: 124063 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类

Heritrix-1.14.4爬取数乱编码问题解决方法

阅读更多
最近在使用HeriTrix爬去数据,发现爬取的结果有的是乱码。自己知道是编码问题。就读源码以解决问题。

解决方法
找到heritrix-1.14.4-src\src\java\org\archive\io\ReplayInputStream.java文件

    public void readFullyTo(OutputStream os) throws IOException {
        byte[] buf = new byte[4096];
        int c = read(buf);
        while (c != -1) {
            os.write(buf,0,c);
            c = read(buf);
        }
    }

改为
   
public void readFullyTo(OutputStream os) throws IOException {
        byte[] buf = new byte[4096];
        int c = read(buf); 
        while (c != -1) {
            //在这里可以将"UTF-8"替换成自己需要的编码方式
            String str_changed_by_cdw = new String(buf,0,c,"UTF-8");
	        os.write(str_changed_by_cdw.getBytes());
            c = read(buf);
        }
    }

这样更改之后,爬取的数据就不会出现乱码了!
0
0
分享到:
评论

相关推荐

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    Heritrix 1.14.4是该工具的一个版本,提供了两个压缩包:`heritrix-1.14.4.zip`和`heritrix-1.14.4-src.zip`。这两个文件分别包含了不同的内容,便于用户根据需求进行使用和开发。 `heritrix-1.14.4.zip` 包含了...

    heritrix-1.14.4-src

    总的来说,Heritrix-1.14.4-src提供了深入了解网络爬虫工作原理的机会,同时也让用户有机会自定义和优化爬虫行为,以满足特定的业务需求。虽然这个版本可能没有最新版的特性,但对于学习和理解爬虫技术来说,仍然是...

    heritrix-1.14.4

    这个"heritrix-1.14.4"版本是Heritrix的特定发行版,提供了对互联网资源进行系统性抓取的功能,帮助用户构建自己的网络存档。 标题"heritrix-1.14.4"表明这是Heritrix的1.14.4版本,这是一个重要的标识,因为每个...

    Heritrix-1.14.4源代码

    Heritrix-1.14.4源代码的提供,对于那些希望深入理解网络爬虫工作原理、想要定制爬虫功能或者进行相关研究的开发者来说,是一个宝贵的学习资源。 Heritrix的设计遵循模块化和可扩展的原则,它将爬虫的功能分解为多...

    heritrix-1.14.4 for linux

    标题"heritrix-1.14.4 for linux"表明这是Heritrix的Linux兼容版本,版本号为1.14.4。在Linux操作系统上运行Heritrix,用户可以利用Linux系统的稳定性和高效性来处理大量的网络抓取任务。 描述中的"heritrix-1.14.4...

    heritrix-1.14.4-docs.rar

    "heritrix-1.14.4-docs.rar"这个压缩包包含了该版本的文档,帮助用户理解和使用Heritrix。 文档通常包括用户手册、开发者指南、API参考等,这些内容对于熟悉Heritrix的架构、配置和编程接口至关重要。由于文件较大...

    网络爬虫Heritrix1.14.4可直接用

    此外,合理的设置爬取速率和并发数,避免对目标服务器造成过大的压力。 9. **扩展与定制**:Heritrix是用Java开发的,因此可以利用Java的强大生态系统进行扩展。开发者可以通过编写自定义模块,实现特定的爬取逻辑...

    heritrix-1.14.4控制台可执行版本

    近期需要使用heritrix-1.14.4,配了半天才配好,这个是控制台执行版本. 注意:解压到相关目录,之后配置系统环境变量"HERITRIX_HOME"到该解压目录(Java环境已经配置好)。 使用控制台命令启动 : heritrix --admin=...

    heritrix-1.14.4爬虫框架及源码

    这个版本的源码和编译后的二进制文件分别以"heritrix-1.14.4.zip"和"heritrix-1.14.4-src.zip"的名义提供,允许用户进行深入研究、学习或二次开发。 在Heritrix中,爬虫的主要工作流程包括种子管理、URL过滤、内容...

    heritrix1.14.4源码包

    heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...

    heritrix1.14.4(内含src)

    在使用Heritrix 1.14.4时,需要注意的是,由于这是一个较旧的版本,可能会有一些已知的问题或者不支持现代网站的新特性。因此,在实际应用中,可能需要升级到最新版本以获取更好的性能和兼容性。同时,源代码的可用...

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    在提供的压缩包中,有两个主要文件:"heritrix-1.14.4.zip" 和 "heritrix-1.14.4-src.zip"。前者是Heritrix的编译后的二进制版本,可以直接运行,而后者包含了源代码,对于希望定制或深入理解Heritrix工作原理的...

    heritrix1.14.4源码+项目

    9. **社区支持**:作为开源项目,Heritrix有一个活跃的社区,用户可以在网上找到许多文档、教程和问题解答,有助于快速上手和解决问题。 这个“Heritrix1.14.4源码+项目”压缩包提供了一个深入研究和学习Heritrix的...

    heritrix-3.4.0-SNAPSHOT-src.zip

    Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本,配合heritrix-3.4.0-SNAPSHOT-dist.zip使用

Global site tag (gtag.js) - Google Analytics