`
shareHua
  • 浏览: 14610 次
  • 性别: Icon_minigender_1
  • 来自: 群:57917725
社区版块
存档分类
最新评论

org.archive.modules.extractor.Hop

 
阅读更多
/**
* The kind of "hop" from one URI to another.  Each hop type can be
* represented by a single character; strings of these characters can
* appear in logs.  Eg, "LLLX" means that a URI was three normal links from
* a seed, and then one speculative link.
*
* @author pjack
*/

   /** Navigation links, like A/@HREF. */
    NAVLINK('L'),
   
    /** Implied prerequisite links, like dns or robots. */
    PREREQ('P'),
   
    /** Embedded links necessary to render the page, like IMG/@SRC. */
    EMBED('E'),
   
    /**
     * Speculative/aggressively extracted links, perhaps embed or nav,
     * as in javascript. 
     */
    SPECULATIVE('X'),
   
    /**
     * Referral/redirect links, like header 'Location:' on a 301/302 response.
     */
    REFER('R'),

    /**
     * Inferred/implied links -- not necessarily literally in the source
     * material, but deduced by convention.
     */
    INFERRED('I');
分享到:
评论

相关推荐

    org.apache.poi.xwpf.converter-0.9.8.jar

    这个特定的资源,"org.apache.poi.xwpf.converter-0.9.8.jar",是Apache POI项目的一个组件,专注于XWPF(XML Word Processing Format)转换器,版本为0.9.8。这个库的主要功能是将XWPF文档转换成其他格式,例如HTML...

    org.apache.poi依赖包

    这个"org.apache.poi"依赖包是Java开发者在处理这些文件时不可或缺的工具。它提供了丰富的API,使得在Java环境中读取、写入和操作Office文档变得轻而易举。 Apache POI 3.17 版本是该项目的一个稳定版本,包含了...

    Heritrix源码分析

    8. `org.archive.crawler.extractor`:提取器模块,负责从已抓取的页面中发现新的URL,形成新的抓取队列。 9. `org.archive.crawler.fetcher`:负责实际的HTTP、DNS和FTP数据的获取,包括错误处理和重试机制。 10....

    heritrix抓取指南

    - 选择Extractors,依次选择`org.archive.crawler.extractor.ExtractorHTTP`和`org.archive.crawler.extractor.ExtractorHTML`。 - 选择Writers,选择`org.archive.crawler.writer.MirrorWriterProcessor`。 - ...

    heritrix的学习-源码分析 1-10

    - **`org.archive.crawler.extractor`**:负责从网页中提取新的URL,以便进一步爬取。 - **`org.archive.crawler.fetcher`**:负责从网络上获取数据,包括HTTP、DNS、FTP等多种协议的支持。 - **`org.archive....

    Easy.CD.DA.Extractor.v12.0.0.1破解版

    Easy.CD.DA.Extractor.v12.0.0.1 破解版 EAC CD抓轨 刻录

    metadata-extractor.jar

    《元数据提取库:metadata-extractor.jar在Java与Android中的应用》 在数字时代,图像文件不仅包含了我们看到的像素信息,还包含了丰富的元数据(Metadata),这些数据提供了关于图片拍摄时间、地点、设备参数等...

    poi-ooxml-5.2.2.jar中文文档.zip

    org.apache.poi.ooxml.extractor ...... ``` # 含有的 Java class(类)(此处仅列举3个): ``` org.apache.poi.ooxml.POIXMLDocument org.apache.poi.ooxml.POIXMLDocumentPart org.apache.poi.ooxml....

    [音轨抓取工具].DVD.Audio.Extractor.v6.1.0-LAXiTY.rar

    [音轨抓取工具].DVD.Audio.Extractor.v6.1.0-LAXiTY.rar

    rtp_h264_extractor.lua

    wireshark解析H264包时需要安装的插件,安装过程直接百度即可

    DesktopGoose v0.3 Extractor.exe

    DesktopGoose v0.3 Extractor.exe

    heritrix3.1

    - `org.archive.modules.extractor`: 负责从HTML文档中提取链接和其他元数据。 - `org.archive.modules.fetcher`: 网页下载模块,处理请求和响应,管理重试和失败策略。 - `org.archive.modules.parser`: 解析...

    Extractor.exe

    Extractor.exe

    rtp_h265_extractor.lua

    2. 文件末尾加上 dofile(DATA_DIR.."rtp_h265_extractor.lua") 3. 打开Wireshark, 可以看到 工具=》Extract H265 stream from rtp选项; 4. 抓取h265流的rtp包; 5. 编辑=》首选项=》protocols=》h265, 设置对应...

    poi-ooxml-4.1.0.jar中文文档.zip

    org.apache.poi.ooxml.extractor ...... ``` # 含有的 Java class(类)(此处仅列举3个): ``` org.apache.poi.ooxml.POIXMLDocument org.apache.poi.ooxml.POIXMLDocumentPart org.apache.poi.ooxml....

    poi-ooxml-5.2.0.jar中文文档.zip

    org.apache.poi.ooxml.extractor ...... ``` # 含有的 Java class(类)(此处仅列举3个): ``` org.apache.poi.ooxml.POIXMLDocument org.apache.poi.ooxml.POIXMLDocumentPart org.apache.poi.ooxml....

    poi-ooxml-5.2.3.jar中文文档.zip

    org.apache.poi.ooxml.extractor ...... ``` # 含有的 Java class(类)(此处仅列举3个): ``` org.apache.poi.ooxml.POIXMLDocument org.apache.poi.ooxml.POIXMLDocumentPart org.apache.poi.ooxml....

    poi-ooxml-4.0.0.jar中文文档.zip

    org.apache.poi.ooxml.extractor ...... ``` # 含有的 Java class(类)(此处仅列举3个): ``` org.apache.poi.ooxml.POIXMLDocument org.apache.poi.ooxml.POIXMLDocumentPart org.apache.poi.ooxml....

    poi-ooxml-3.11.jar中文文档.zip

    org.apache.poi.ooxml.extractor ...... ``` # 含有的 Java class(类)(此处仅列举3个): ``` org.apache.poi.ooxml.POIXMLDocument org.apache.poi.ooxml.POIXMLDocumentPart org.apache.poi.ooxml....

    CVE-2020-2555:Weblogic com.tangosol.util.extractor.ReflectionExtractor RCE

    Weblogic com.tangosol.util.extractor.ReflectionExtractor RCE com.supeream.CVE_2020_2555 /* * author:Y4er.com * * gadget: * BadAttributeValueExpException.readObject() * ...

Global site tag (gtag.js) - Google Analytics