org.archive.modules.extractor.Hop - shareHua - ITeye博客

`

shareHua

浏览: 14850 次
性别:
来自: 群：57917725

最近访客更多访客>>

woodding2008

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

org.archive.modules.extractor.Hop

博客分类：

heritrix3

阅读更多

/**
* The kind of "hop" from one URI to another. Each hop type can be
* represented by a single character; strings of these characters can
* appear in logs. Eg, "LLLX" means that a URI was three normal links from
* a seed, and then one speculative link.
*
* @author pjack
*/

   /** Navigation links, like A/@HREF. */
    NAVLINK('L'),

    /** Implied prerequisite links, like dns or robots. */
    PREREQ('P'),

    /** Embedded links necessary to render the page, like IMG/@SRC. */
    EMBED('E'),

    /**
     * Speculative/aggressively extracted links, perhaps embed or nav,
     * as in javascript.
     */
    SPECULATIVE('X'),

    /**
     * Referral/redirect links, like header 'Location:' on a 301/302 response.
     */
    REFER('R'),

    /**
     * Inferred/implied links -- not necessarily literally in the source
     * material, but deduced by convention.
     */
    INFERRED('I');

分享到：

Method for extracting company names from ... | org.archive.crawler.framework.ToeThread

2012-12-20 21:41
浏览 688
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

org.apache.poi.xwpf.converter-0.9.8.jar: 这个特定的资源，"org.apache.poi.xwpf.converter-0.9.8.jar"，是Apache POI项目的一个组件，专注于XWPF（XML Word Processing Format）转换器，版本为0.9.8。这个库的主要功能是将XWPF文档转换成其他格式，例如HTML...

Heritrix源码分析: 8. `org.archive.crawler.extractor`：提取器模块，负责从已抓取的页面中发现新的URL，形成新的抓取队列。 9. `org.archive.crawler.fetcher`：负责实际的HTTP、DNS和FTP数据的获取，包括错误处理和重试机制。 10....

heritrix抓取指南: - 选择Extractors，依次选择`org.archive.crawler.extractor.ExtractorHTTP`和`org.archive.crawler.extractor.ExtractorHTML`。 - 选择Writers，选择`org.archive.crawler.writer.MirrorWriterProcessor`。 - ...

heritrix的学习-源码分析 1-10: - **`org.archive.crawler.extractor`**：负责从网页中提取新的URL，以便进一步爬取。 - **`org.archive.crawler.fetcher`**：负责从网络上获取数据，包括HTTP、DNS、FTP等多种协议的支持。 - **`org.archive....

Easy.CD.DA.Extractor.v12.0.0.1破解版: Easy.CD.DA.Extractor.v12.0.0.1 破解版 EAC CD抓轨刻录

metadata-extractor.jar: 《元数据提取库：metadata-extractor.jar在Java与Android中的应用》在数字时代，图像文件不仅包含了我们看到的像素信息，还包含了丰富的元数据（Metadata），这些数据提供了关于图片拍摄时间、地点、设备参数等...

poi-ooxml-5.2.2.jar中文文档.zip: org.apache.poi.ooxml.extractor ...... ``` # 含有的 Java class（类）（此处仅列举3个）： ``` org.apache.poi.ooxml.POIXMLDocument org.apache.poi.ooxml.POIXMLDocumentPart org.apache.poi.ooxml....

poi-ooxml-4.1.0.jar中文文档.zip: org.apache.poi.ooxml.extractor ...... ``` # 含有的 Java class（类）（此处仅列举3个）： ``` org.apache.poi.ooxml.POIXMLDocument org.apache.poi.ooxml.POIXMLDocumentPart org.apache.poi.ooxml....

EFI-Setup-FPT-Universal-IFR-Extractor 0.7.rar: EFI-Setup-FPT-Universal-IFR-Extractor 0.7是一款针对EFI系统的实用工具，主要功能是提取和处理EFI中的设置和配置信息。该工具的全名"EFI-Setup-FPT-Universal-IFR-Extractor 0.7"暗示其是一个用于EFI系统固件...

[音轨抓取工具].DVD.Audio.Extractor.v6.1.0-LAXiTY.rar: [音轨抓取工具].DVD.Audio.Extractor.v6.1.0-LAXiTY.rar

rtp_h264_extractor.lua: wireshark解析H264包时需要安装的插件，安装过程直接百度即可

DesktopGoose v0.3 Extractor.exe: DesktopGoose v0.3 Extractor.exe

heritrix3.1: - `org.archive.modules.extractor`: 负责从HTML文档中提取链接和其他元数据。 - `org.archive.modules.fetcher`: 网页下载模块，处理请求和响应，管理重试和失败策略。 - `org.archive.modules.parser`: 解析...

完整可运行的poi读取dco或.docx 文件源码和jar包: 完整可运行的poi读取dco或.docx 文件源码和jar包...import org.apache.poi.hwpf.extractor.WordExtractor; import org.apache.poi.openxml4j.opc.OPCPackage; import org.apache.poi.xwpf.extractor.XWPFWordExtractor;

Extractor.exe: Extractor.exe

rtp_h265_extractor.lua: 2. 文件末尾加上 dofile(DATA_DIR.."rtp_h265_extractor.lua") 3. 打开Wireshark，可以看到工具=》Extract H265 stream from rtp选项; 4. 抓取h265流的rtp包； 5. 编辑=》首选项=》protocols=》h265, 设置对应...

poi-ooxml-4.0.0.jar中文文档.zip: org.apache.poi.ooxml.extractor ...... ``` # 含有的 Java class（类）（此处仅列举3个）： ``` org.apache.poi.ooxml.POIXMLDocument org.apache.poi.ooxml.POIXMLDocumentPart org.apache.poi.ooxml....

poi-ooxml-3.11.jar中文文档.zip: org.apache.poi.ooxml.extractor ...... ``` # 含有的 Java class（类）（此处仅列举3个）： ``` org.apache.poi.ooxml.POIXMLDocument org.apache.poi.ooxml.POIXMLDocumentPart org.apache.poi.ooxml....

poi-ooxml-5.2.0.jar中文文档.zip: org.apache.poi.ooxml.extractor ...... ``` # 含有的 Java class（类）（此处仅列举3个）： ``` org.apache.poi.ooxml.POIXMLDocument org.apache.poi.ooxml.POIXMLDocumentPart org.apache.poi.ooxml....

poi-ooxml-5.2.3.jar中文文档.zip: org.apache.poi.ooxml.extractor ...... ``` # 含有的 Java class（类）（此处仅列举3个）： ``` org.apache.poi.ooxml.POIXMLDocument org.apache.poi.ooxml.POIXMLDocumentPart org.apache.poi.ooxml....

Global site tag (gtag.js) - Google Analytics