`

前嗅ForeSpider脚本教程-链接抽取:链接在POST请求里写脚本

阅读更多

今天,小编给大家带来的教程为:前嗅ForeSpider脚本教程-链接抽取中,链接在POST请求里写脚本的实战教程。具体内容如下:

 

当链接地址在源码中不存在,存在于post请求中时,需要使用浏览器的开发者工具来查找链接数据。

1.链接需要循环

场景:一组链接存在于JSON的某个数组中。

示例:采集豆瓣电影,列表页的电影链接。

 

 

查看源文件可知,源文件中只有一部分数据,而下拉列表出现的其他电影信息不存在源码中,此时我们需要在请求的响应正文中查找数据。在该页面右键点击“审查元素”,下拉,点击“加载更多”,出现一个请求包,查看Response,发现链接地址存在于,返回正文中。

 

 

将Response中的信息粘贴到json查看器中,以notepad++插件“JSON Viewer”为例,定位数据存在路径。

 

 

脚本实例:

 

var urs = “https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=60”;
var groc = EXTRACT.OpenDoc(CHANN,urs,0);
if(groc){ 
    var jsonStr = groc.GetDom().GetSource().ToStr();
    jScript js; 
    var json = js.RunJson(jsonStr); 
    var arr = json.subjects; 
    for(int i=0;i<arr.size;i++){ 
        url u; 
        u.title=””;
        u.urlname=arr[i].url; 
        u.entryid=CHANN.id; 
        u.tmplid=2; 
        RESULT.AddLink(u);     
        } 
    }

    

2.不循环

场景:少数链接是JSON的某个键值。

示例:暂无。

分享到:
评论

相关推荐

    数据抽取-Kettl动态参数调用HTTP、POST接口

    数据抽取是ETL(提取、转换、加载)过程中的关键步骤,主要用于从各种源系统中获取数据并准备进一步处理或存储。Kettle,也称为Pentaho Data Integration(PDI),是一个强大的开源ETL工具,提供了丰富的数据处理...

    hadoop中文文档

    - 功能:确保爬虫在进行下一步操作前满足特定条件,如查询DNS或分析`robots.txt`文件。 - 作用:为后续处理奠定基础,防止不必要的请求发生。 2. **预选择器(Pre Selector)**: - 功能:检查待爬取的URL是否已...

    项目说明文档201805091

    - `topic_trend`:POST请求,返回特定话题在不同时间周期内的文章数量,用于分析话题热度趋势。 这些接口设计允许用户通过API进行新闻的搜索、分析和趋势观察,适用于新闻监控、情感分析等应用场景。整个项目从...

    kettle抽取http请求,发送json参数.docx

    在这个步骤中,我们将前一步骤中的开始时间和结束时间拼接成json格式的参数。这个参数将被用于后续的http请求中。 第四步:获取参数中想要的数据,通过 jsonpath 语法获取上个步骤的数据 在这个步骤中,我们使用...

    强大的PHP考试系统

    - POST和GET请求:了解这两种HTTP方法,以及如何在PHP中接收和验证表单数据。 - CSRF(跨站请求伪造)防护:为保护系统安全,需要实施CSRF令牌来防止恶意请求。 6. **模板引擎** - 使用模板引擎如Twig或Blade...

    ketlle传动态参数调用http post接口入库.zip

    在完成Transformation的配置后,可以通过Kettle的"调试"功能进行测试,确保POST请求成功发送且返回正确的响应。如果需要入库,检查数据是否正确写入数据库。 7. **运行与调度** 一旦验证无误,你可以将这个...

    pub-5知识抽取-数据获取1

    在IT领域,知识抽取(Knowledge Extraction)是获取并解析网络上大量数据的关键技术,尤其在构建知识图谱时至关重要。数据获取通常涉及Web抓取(Web Scraping)、Web收割(Web Harvesting)或Web数据提取。这些术语...

    Jsoup+httpclient 模拟登陆和抓取

    - 可以在发送请求前设置这些参数来满足特定网站的要求。 10. HTML文档解析和重构: - 解析HTML文档时,Jsoup会自动处理相对路径的外部资源引用,转换为完整路径。 - 对于解析后的HTML文档,可以进行重构,比如...

    myscripts:功利脚本

    "myscripts:功利脚本"是一组实用的Shell脚本集合,专为日常或特定任务提供便利。这些脚本通常是由程序员或系统管理员编写,以自动化常见的IT操作,提高工作效率。在描述中提到了一些必要的软件包,它们在Ubuntu ...

    采集类(使用)

    - **请求处理**:使用cURL或Guzzle发送GET/POST请求,获取响应内容。 - **内容解析**:使用DOM或正则表达式解析HTML,提取目标数据。 - **数据清洗**:对抓取到的数据进行预处理,如去除空格、转义特殊字符等。 - **...

    web-scrapper:开源的基于终端的Web爬网程序

    在解压后,我们可以看到项目的目录结构,包括Python脚本、测试文件、可能的文档等,这些都是理解并使用此网络爬虫程序的关键。 总的来说,"web-scrapper" 是一个利用Python的强大库实现的实用工具,它简化了从网页...

    Scrapper:这是一个基于python的脚本,可在基于python的Flask和Fast Api框架上运行。 我们正在使用Ngrok将本地主机部署到Web

    在Scrapper中,它用于向目标网站发送GET或POST请求,获取网页内容,这是网络爬虫的基础操作。 5. **HTML解析**: 网络爬虫通常需要解析HTML文档以提取所需信息。虽然描述中没有明确指出具体使用的解析库(如...

    ltp-4.1.3.post1.tar.gz

    在ltp-4.1.3.post1这个版本中,除了上述核心组件外,还可能包含模型训练脚本、评估工具、示例数据集以及详细的文档。开发者可以通过解压文件,阅读源代码,理解算法实现细节,甚至可以根据自己的需求进行定制和扩展...

    crawler-2015-11-25.zip

    在这个名为"crawler-2015-11-25.zip"的压缩包中,包含了一个实现网页爬虫的项目,该项目使用了HTTPUnit库来执行网页中的JavaScript脚本,并利用Jsoup库进行页面解析。 首先,HTTPUNIT是一个Java库,它模拟了浏览器...

    WEB安全-兵器剖析.pptx

    在网络安全领域,Web安全是至关重要的一个方面。为了有效地检测和防止Web应用中的安全漏洞,安全专家使用了一系列工具。本讲座主要介绍了两款经典的Web安全工具:SQLmap和Burp Suite。 首先,让我们深入了解一下...

    简单详细介绍了python爬虫基础.docx

    它支持 GET、POST 请求,同时也能够处理 cookies、会话等复杂场景,并且提供了丰富的错误处理机制。 ##### 1.2 模拟浏览器行为 很多时候,我们需要让爬虫看起来像是真正的浏览器用户,以避免被目标网站检测到并...

    大漠综合工具.rar

    在IT领域,尤其是在网络爬虫开发和网站自动化测试中,这类工具起着至关重要的作用。下面将详细介绍“大漠”及其核心功能。 一、大漠工具概述 “大漠”是由国内开发者开发的一款高效、灵活的编程辅助工具,主要支持...

    网站爬取工具,可爬网站静态的HTML

    这包括GET和POST等不同的请求方法,以及设置Cookie、User-Agent等头部信息,以确保正常访问。 3. **HTML解析**:下载下来的HTML页面需要被解析成结构化的数据。爬虫通常使用HTML解析库(如Python的BeautifulSoup或...

    雨楠万能ASP采集程序 简易版 v0.1-ASP源码.zip

    ASP(Active Server Pages)是微软公司推出的一种服务器端脚本环境,用于创建动态交互式网页。这款程序的源码公开,为用户提供了学习和定制的可能。 ASP的核心功能在于它能够结合HTML、VBScript或JScript等脚本语言...

Global site tag (gtag.js) - Google Analytics