WARC是一种格式。Heritrix(
http://crawler.archive.org/)用它原封不动地储存HTTP请求和HTTP响应的全文。包括请求/状态行、头、内容。
读WARC格式很简单。利用Heritrix中提供的工具即可。
package warc;
import java.io.*;
import org.apache.commons.io.IOUtils;
import org.archive.io.*;
import org.archive.io.warc.*;
public class MyWarcReading {
public static void main(String[] args) throws Exception {
ArchiveReader ar = WARCReaderFactory.get("/path/to/your/file.warc.gz");
// ArchiveReader对象本身实现了Iterator<ArchiveRecord>接口,可以用for循环。
for (ArchiveRecord rec : ar) {
// 获取WARC记录头。
ArchiveRecordHeader header = rec.getHeader();
// 可以对header做一些操作。
// 读出这条记录的内容。ArchiveRecord继承了InputStream类。
// 我使用了Commons-IO。不过这样读太暴力了……
byte[] content = IOUtils.toByteArray(rec);
// 对内容做什么都行。
}
ar.close();
}
}
如果里面储存了爬虫爬的结果,那么整个HTTP响应会成为一条记录的内容。这种记录是原封不动的响应,包括status line, headers, entity,都有。mimetype是application/http,如HTTP/1.1的RFC中所述。
ArchiveRecord rec; // 一条记录
if(rec.getHeader().getMimetype().equals(
"application/http; msgtype=response")) {
// 这是HTTP响应
}
如何解析这个响应呢?
想过用Apache Httpcomponents(
http://hc.apache.org/)的HTTP Core,但是它的解析器与Socket耦合太强,还使用了很多自己的数据结构以提高效率。Jetty的解析器没有文档(undocumented)。
最后,发现如果只是想读HTTP头,还是用BufferedReader自己读比较好。
private static void parseHtml(ArchiveRecord rec) throws IOException {
BufferedReader br = new BufferedReader(new InputStreamReader(rec,"ISO-8859-1"));
String statusLine = br.readLine();
System.out.println("Status:"+statusLine);
System.out.println("===HTTP headers===");
while(true) {
String line = br.readLine();
if(line==null || line.isEmpty()) {
break;
}
System.out.println(line);
}
byte[] bytes = IOUtils.toByteArray(rec); // WRONG!
System.out.println("===HTTP entity===");
System.out.println(new String(bytes, "UTF-8"));
}
但是,由于BufferedReader的缓冲,此时读出的entity是不正确的。
分享到:
相关推荐
此外,Scrapy-WARC库还支持设置WARC记录的其他参数,如WARC版本、WARC类型、HTTP响应码等。通过自定义Scrapy中间件,可以进一步定制WARC记录的行为,比如在特定条件下才写入WARC文件,或者添加自定义元数据。 在...
它们包括发送到服务器的 HTTP 请求和收到的 HTTP 响应(包括标头)。 WARC 是一个,被和使用(除其他外)。 这个 warc-hadoop 库是为了探索数据而编写的,这是一个公开可用的数十亿网页转储。 这些数据作为 AWS 上...
Python库har2warc-1.0.2-py2.py3-none-any.whl是一个用于处理HTTP Archive (HAR) 文件并将其转换为WARC(Web ARChive)格式的工具。这个库对于网络数据抓取、分析和存档特别有用,因为它允许用户将浏览器记录的HTTP...
2. **HTTP响应**:如果记录源自HTTP请求,它会包含完整的HTTP响应,包括状态码、头信息和响应体。 3. **资源**:可以是网页的HTML内容、图片、JavaScript文件等。 4. **WARC信息头**:每个WARC文件开头有一个WARC...
[WARC文件]使用原始HTTP响应HTML标记频率计数器 [WAT文件]使用响应元数据的服务器响应分析 [WET文件]使用提取的文本的经典单词计数示例 所有这三个文件最初都假设文件存储在本地,但可以对其进行简单地修改以将它们...
WARC文件是包含网络抓取数据的容器,每条记录都包含了HTTP请求与响应的完整信息,包括URL、时间戳、内容类型等。这种格式确保了历史网页的可追溯性和一致性,广泛应用于学术研究、数字图书馆和网络监测等领域。 2....
ipwb / indexer.py-归档索引脚本,用于获取WARC输入的路径,从指定的WARC提取HTTP标头,HTTP有效负载(响应主体)和WARC响应记录标头的相关部分,并创建字节字符串表示形式。 然后,索引器使用本地运行的IPFS守护...
WARC文件包含了完整的HTTP交易记录,包括请求、响应、元数据等,方便后续分析和长期保存。 **与URL无关的重复数据删除** `wget-lua` 提供了一个与URL无关的重复数据删除功能,这意味着它能够在抓取过程中识别并...
2. **网络流量捕获**:ipwb可以集成到用户的浏览器或HTTP代理服务器中,实时捕获并记录网络请求和响应。这对于开发者调试、研究人员分析历史数据,或是普通用户备份个人浏览历史都非常有用。 3. **本地回放**:除了...
WARC文件包含了网页的HTTP响应,包括状态码、头部信息和正文内容。 4. **Text and Metadata**: Nutch会从HTML中提取文本内容并保存在`_content`文件中。同时,它还提取元数据(如标题、描述等),存储在`_parse_...
WARC文件包含原始的HTTP响应,包括头部信息和内容,可以使用专门的工具进行解析和检索。 8. **法律与伦理**:使用Heritrix时,必须遵守网络抓取的法律和伦理规定,尊重网站的robots.txt文件,避免对目标服务器造成...
- **WARC格式介绍**:WARC (Web ARChive) 是一种用于存档网络资源的标准格式,包含元数据、HTTP响应头等信息。 - **数据分析**:通过分析WARC文件中的数据,可以深入了解网站的结构特征,如页面之间的链接关系、内容...
commoncrawl_downloader 用法示例: docker build -t ccdl . docker run -e NUM_CORES=8 -v $PWD/... 文件中的每个json对象都有一个text字段(包含网页)和一个meta字段,其中包含有关语言,WARC标头和HTTP响应标头
1. **启动与配置**:在开始抓取前,用户需要配置Heritrix的工作模式,包括设定种子URL(即抓取的起始点),定义爬行策略,以及选择处理不同类型的HTTP响应的处理器。 2. **爬行策略**:Heritrix支持多种爬行策略,...
而WARC文件则是一种更为标准化和广泛接受的格式,它不仅包含了ARC的所有功能,还增加了对多种类型数据的支持,如HTTP响应、DNS查询等,旨在更好地保留网络遗产。 Web Archive Access Utilities 提供了以下关键功能...
Heritrix的核心功能包括URL调度、HTTP请求与响应处理、网页解析、内容存储等。 在Heritrix 1.14.0的源码中,我们可以找到以下几个关键组件和概念: 1. **URL调度器(Scheduler)**:负责管理待抓取的URL队列,根据...
通过研究Heritrix 3.2.0 源代码,开发者可以学习到如何实现高效且灵活的网络爬虫,如何处理HTTP请求和响应,以及如何解析和存储HTML内容。此外,还可以了解到如何使用事件驱动架构设计大型系统,以及如何管理复杂的...
2. **可定制的处理器链**:Heritrix的处理器链可以处理HTTP响应,进行HTML解析、内容提取、元数据提取等,可以按照需求添加自定义处理器。 3. **抓取范围控制**:通过种子列表、URL模式和robots.txt协议,Heritrix...
抓取的数据可以被保存为WARC格式,这是一种标准的互联网档案格式,方便后续分析和处理。 将Heritrix与Lucene结合使用,可以构建一个完整的网络搜索引擎。首先,Heritrix爬取互联网上的网页,并将其存储为本地文件。...
同时,它还能处理HTTP状态码,如重试失败的请求,或根据响应头决定是否保存页面。 5. **内容处理**:Heritrix允许开发者添加自定义处理器,对抓取到的内容进行处理,如提取元数据、过滤广告、转换格式等。这些...