`
ldl_xz
  • 浏览: 68970 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

node.js用get方式获取网页中的链接

 
阅读更多

get方式获取网页中的链接

<!--more-->
var http = require('http');

//定义函数
var getAHref = function(htmlstr){
    var reg = /<a.+?href=('|")?([^'"]+)('|")?(?:\s+|>)/gim;
    var arr = [];
    while(tem=reg.exec(htmlstr)){
        arr.push(tem[2]);
    }
    return arr;
}


var qHref = "http://xxx";//设置被查询的目标网址
    var req = http.get(qHref, function(res) {
    var pageData = "";
    res.setEncoding('utf8');
    res.on('error', function (errget) {
           //出错处理
    });
    res.on('data', function (chunk) {
           pageData += chunk;
    });

    res.on('end', function(){
          //console.dir(pageData);
          var content = pageData;//获取到网页内容
          var hrefs=getAHref(content);//获取链接

    });

});

转载自:http://www.9958.pw/post/nodejs_get_html_a

分享到:
评论

相关推荐

    Node.js-用node爬取网站图片

    标题 "Node.js-用node爬取网站图片" 描述了如何使用Node.js这一流行的JavaScript运行环境来抓取网络上的图片资源。在这个过程中,我们将探讨Node.js的基础知识,HTTP请求库的使用,以及如何处理和保存下载的图片。...

    Node.js-baidudl从pan.baidu.com提取高速下载链接地址

    在这个项目中,baidudl利用Node.js强大的网络请求处理能力和异步编程模型来实现对百度网盘API的调用,从而获取高速下载链接。 在标签“Node.js开发-HTTP工具”中,我们可以理解到baidudl是一个开发工具,专注于HTTP...

    Node.js-spiderurlnodejs爬取网站的a标签链接

    本教程将专注于使用Node.js来编写一个简单的爬虫,其主要任务是抓取网页中的`&lt;a&gt;`标签链接。`&lt;a&gt;`标签在HTML中用于定义超链接,通常表示网页间的跳转链接。 首先,我们需要安装必要的库。Node.js的`axios`库用于...

    Node.js-nodejsspider抓取知乎头像信息

    在本文中,我们将深入探讨如何使用Node.js进行网络数据抓取,特别是针对知乎头像信息的抓取。Node.js是一个基于Chrome V8引擎的JavaScript运行环境,它以其非阻塞I/O模型和事件驱动特性而受到开发者青睐,非常适合...

    node.js 源码 *nix版

    Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境,它让开发者能够在服务器端使用 JavaScript 进行编程。Node.js 使用了一个事件驱动、非阻塞 I/O 模型,使其轻量且高效,非常适合构建数据密集型的实时应用...

    Node.js-使用RSS分类订阅稀土掘金

    标题 "Node.js-使用RSS分类订阅稀土掘金" 指出我们将探讨如何利用Node.js技术来构建一个RSS订阅系统,特别关注于稀土掘金(Juejin)这个平台的特定分类内容。RSS(Really Simple Syndication)是一种内容发布协议,...

    Node.js-Node.js图片爬虫

    Node.js是一个基于Chrome V8引擎的JavaScript运行环境,它允许开发者使用JavaScript进行服务器端编程。其异步、事件驱动的特性使它在处理I/O密集型任务如网络请求时具有高效性。 ### 2. HTTP模块 在Node.js中,`...

    如何确保已经安装了 Node.js?

    Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境,它允许开发者在服务器端使用 JavaScript 进行编程。这个技术自2009年发布以来,因其高效的I/O处理、非阻塞I/O模型以及丰富的生态系统,被广泛应用于构建...

    Node.js-简单的nodejs爬虫

    Node.js 是一种基于 Chrome V8 引擎的 JavaScript 运行环境,它让开发者可以用 JavaScript 来进行服务器端编程。在本教程中,我们将探讨如何利用 Node.js 创建一个简单的爬虫,用于抓取 Cnode 社区的精华帖子的标题...

    Node.js-AmoliCloud搭建一个云HTTP文件服务器配合OSS实现文件列表上传下载管理

    Node.js是一个基于Chrome V8引擎的JavaScript运行环境,它允许开发者使用JavaScript进行服务器端编程。Node.js具有非阻塞I/O模型和事件驱动的特点,使其在处理高并发场景下表现优秀。 **2. Express框架** 为了简化...

    Node.js-40行node.js代码实现简易的图片爬虫

    在本文中,我们将深入探讨如何使用Node.js编写一个简单的图片爬虫。Node.js是一个基于Chrome V8引擎的JavaScript运行环境,它允许开发者使用JavaScript进行服务器端编程。在40行代码以内,我们可以创建一个基本的...

    Node.js-小爬虫爬取美女图片

    在本案例中,我们将探讨如何使用Node.js这个强大的JavaScript运行环境来开发一个小型的网络爬虫,目标是爬取美女图片。Node.js因其非阻塞I/O模型和高效的性能而广受欢迎,尤其适合于构建网络应用和爬虫。 首先,...

    node.js爬虫例子

    在这个"node.js爬虫例子"中,我们看到作者使用了Node.js这一流行的JavaScript运行环境来编写爬虫程序。Node.js因其非阻塞I/O模型和事件驱动的特点,非常适合处理大量并发的网络请求,因此在爬虫开发中被广泛应用。 ...

    Node.js-Downloadmusicfromsaavn.comgaana.cometc.

    Node.js是一个基于Chrome V8引擎的JavaScript运行环境,它允许开发者在服务器端使用JavaScript进行编程,具有非阻塞I/O和事件驱动的特性,特别适合构建高效、可扩展的网络应用。 描述 "Download music from saavn....

    node.js学习代码,一个是爬取图片到本地,一个是爬取网页内容存入数据库,通过这两个实例代码可以了解到Node.j.zip

    Node.js是一种基于Chrome V8引擎的JavaScript运行环境,它允许开发者在服务器端使用JavaScript进行编程。这个"node.js学习代码"的压缩包包含了两个实例,分别涉及到图片爬取和网页内容抓取并存储到数据库的操作,是...

    node.js+cheerio简单爬虫

    在命令行中,使用`npm init`创建一个新的Node.js项目,并通过`npm install cheerio axios`来安装Cheerio和axios库。axios用于发送HTTP请求,而Cheerio则用于解析HTML并提取所需信息。 接下来,创建一个名为`douban-...

    Node.js-IPFS-用JavaScript实现IPFS

    **Node.js与IPFS:用JavaScript构建分布式文件系统** IPFS(InterPlanetary File System,星际文件系统)是一种去中心化的、分布式的文件系统,它旨在通过连接全球范围内的计算设备来共享和存储数据,从而提供高效...

    Node.js-图灵社区样书爬虫

    Node.js 是一种基于 Chrome V8 引擎的 JavaScript 运行环境,它让开发者能够使用 JavaScript 来进行服务器端编程。在"Node.js-图灵社区样书爬虫"项目中,我们主要会探讨如何利用 Node.js 的能力来构建一个网络爬虫,...

    Node.js-SpliderApi基于nodejs的爬虫API接口项目

    该项目是一个使用Node.js构建的爬虫API接口,主要用于获取各类在线信息,如前端开发日报、知乎日报、热门前端框架排名、福利图片以及搞笑视频和热点新闻资讯。通过这个接口,开发者可以方便地将这些数据集成到自己的...

    Node.js-下载Instagram照片工具

    Node.js是一个基于Chrome V8引擎的JavaScript运行环境,它允许开发者使用JavaScript进行服务器端编程。这个工具可能是通过Instagram的公共API或者通过网页抓取技术来实现图片的下载。 描述 "下载Instagram照片工具...

Global site tag (gtag.js) - Google Analytics