Previous on 系列教程:
互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)
互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)
互联网金融爬虫怎么写-第三课 雪球网股票爬虫(ajax分析)
哈哈,我又来了,话说出教程就是这么任性,咱们乘热打铁,把上节课分析完成但是没写的代码给完成了!
工具要求与基础知识:
工具要求:
教程中主要使用到了 1、神箭手云爬虫 框架 这个是爬虫的基础,2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测试Xpath写的是否正确 3、Advanced REST Client用来模拟提交请求
基础知识:
本教程中主要用到了一些基础的js和xpath语法,如果对这两种语言不熟悉,可以提前先学习下,都很简单。
三步走
还记得我们在遥远的电商系列爬虫教程的第一课里提到具体写爬虫的几个步骤吗?我们沿着路径再来走一遍:
第一步:确定入口URL
暂且使用这个第一页的ajax的url链接:
http://xueqiu.com/stock/cata/stocklist.json?page=1&size=30&order=desc&orderby=percent&type=11%2C12
第二步:区分内容页和中间页
这次大家有点犯难了,虽然说每一个股票都有一个单独的页面,但是列表页的信息已经蛮多的了,光爬取列表页信息就已经够了,那怎么区分内容页和中间页呢?其实我们只需要将内容页和中间页的正则设置成一样的既可。如下:
http://xueqiu.com/stock/cata/stocklist\\.json\\?page=\\d+&size=30&order=desc&orderby=percent&type=11%2C12
在提醒大家一下,这里之所以转义符用了两个是因为在神箭手中,设置正则时,是字符串设置,需要对转义符再做一次转义。
第三步:内容页抽取规则
由于ajax返回的是json,而神箭手是支持jsonpath的提取方式的,因此提取规则就很简单了。不过这里要特殊注意的是,由于我们是在列表页抽取数据,因此数据最顶层相当于是一个列表,我们需要在顶层的field上设置一个列表数据的值。具体抽取规则如下:
fields: [
{
name:"stocks",
selector:"$.stocks",
selectorType:SelectorType.JsonPath,
repeated:true,
children:[
{
name:"code",
alias:"代码",
selector:"$.code",
selectorType:SelectorType.JsonPath,
},
{
name:"name",
alias:"名称",
selector:"$.name",
selectorType:SelectorType.JsonPath,
},
{
name:"current",
alias:"当前价格",
selector:"$.current",
selectorType:SelectorType.JsonPath,
},
{
name:"high",
alias:"最高价格",
selector:"$.high",
selectorType:SelectorType.JsonPath,
},
{
name:"low",
alias:"最低价格",
selector:"$.low",
selectorType:SelectorType.JsonPath,
}
]
}
]
我简单抽取了一些信息,其他信息都类似。
好了,主要的代码基本已经写好了,剩下的还需要解决两个问题
1.爬取前需要先访问一下首页获取cookie
2.虽然可以直接加入下一页,但是一共有多少页并不知道。
首先对于第一点,我们只需要在beforeCrawl回调中访问一下首页即可,神箭手会自动对cookie进行处理和保存,具体代码如下:
configs.beforeCrawl =function(site){
site.requestUrl("http://xueqiu.com");
};
好了,除了下一页基本已经没什么问题了,我们先测试一下看看效果:
数据已经出来了,没问题,第一页的数据都有了,那下一页怎么处理呢?我们有两个方案:
第一个方案:
我们可以看到json的返回值中有一个count字段,这个字段目测应该是总数据量的值,那没我们根据这个值,再加上单页数据条数,我们就可以判断总共有多少页了。
第二个方案:
我们先访问一下,假设页数很大,看看会雪球会返回什么,我们尝试访问第500页,可以看到返回值中的stocks是0个,那么我们可以根据是否有数据来判断需不需要加下一页。
两个方案各有利弊,我们这里选择用第一个方案来处理,具体代码如下:
configs.onProcessHelperPage =function(page, content, site){
if(page.url.indexOf("page=1&size=30") !== -1){
//如果是第一页
varresult = JSON.parse(page.raw);
varcount = result.count.count;
varpage_num = Math.ceil(count/30);
if(page_num > 1){
for(vari = 2;i<=page_num;i++){
site.addUrl("http://xueqiu.com/stock/cata/stocklist.json?page="+i+"&size=30&order=desc&orderby=percent&type=11%2C12");
}
}
}
};
好了,通过三课的艰苦奋战,终于完成了雪球沪深一览的征服。先看下跑出来的效果。
完整代码如下:
varconfigs = {
domains: ["xueqiu.com"],
scanUrls: ["http://xueqiu.com/stock/cata/stocklist.json?page=1&size=30&order=desc&orderby=percent&type=11%2C12"],
contentUrlRegexes: ["http://xueqiu.com/stock/cata/stocklist\\.json\\?page=\\d+&size=30&order=desc&orderby=percent&type=11%2C12"],
helperUrlRegexes: ["http://xueqiu.com/stock/cata/stocklist\\.json\\?page=\\d+&size=30&order=desc&orderby=percent&type=11%2C12"],
fields: [
{
name:"stocks",
selector:"$.stocks",
selectorType:SelectorType.JsonPath,
repeated:true,
children:[
{
name:"code",
alias:"代码",
selector:"$.code",
selectorType:SelectorType.JsonPath,
},
{
name:"name",
alias:"名称",
selector:"$.name",
selectorType:SelectorType.JsonPath,
},
{
name:"current",
alias:"当前价格",
selector:"$.current",
selectorType:SelectorType.JsonPath,
},
{
name:"high",
alias:"最高价格",
selector:"$.high",
selectorType:SelectorType.JsonPath,
},
{
name:"low",
alias:"最低价格",
selector:"$.low",
selectorType:SelectorType.JsonPath,
}
]
}
]
};
configs.onProcessHelperPage =function(page, content, site){
if(page.url.indexOf("page=1&size=30") !== -1){
//如果是第一页
varresult = JSON.parse(page.raw);
varcount = result.count.count;
varpage_num = Math.ceil(count/30);
if(page_num > 1){
for(vari = 2;i<=page_num;i++){
site.addUrl("http://xueqiu.com/stock/cata/stocklist.json?page="+i+"&size=30&order=desc&orderby=percent&type=11%2C12");
}
}
}
};
configs.beforeCrawl =function(site){
site.requestUrl("http://xueqiu.com");
};
varcrawler =newCrawler(configs);
crawler.start();
这样我们的雪球网股票爬虫就算大功告成,当然我们还可以把type的设置模板化。不过这个是一些高级的方法,我们会在后面的课程中再去详细描述
最后,对爬虫感兴趣的童鞋欢迎加企鹅群跟我讨论:566855261。
相关推荐
爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统爬虫游戏-数据抓取分析系统...
python-爬虫-web-数据分析.zippython-爬虫-web-数据分析.zippython-爬虫-web-数据分析.zippython-爬虫-web-数据分析.zippython-爬虫-web-数据分析.zippython-爬虫-web-数据分析.zippython-爬虫-web-数据分析....
爬虫:Python网络爬虫技术-第1章-Python爬虫环境与爬虫简介-教案Python网络爬虫技术-第1章-Python爬虫环境与爬虫简介-教案Python网络爬虫技术-第1章-Python爬虫环境与爬虫简介-教案Python网络爬虫技术-第1章-Python...
互联网金融爬虫开发是一项在金融领域中逐渐受到重视的技术,它能够从互联网中自动抓取数据,为数据分析和决策提供支持。本系列教程的目的是帮助开发者掌握如何使用爬虫技术,特别是XPath语言,来爬取互联网金融相关...
网络大爬虫第1期-交换专题 网络大爬虫第2期-OSPF专题 网络大爬虫第3期-BGP专题 网络大爬虫第4期-QoS专题 网络大爬虫第5期-NAT专题 网络大爬虫第6期-MPLS 网络大爬虫第7期-安全专题 网络大爬虫第8期-HA专题 ...
python爬虫作业-维普期刊文章数据爬取爬虫python实现源码.zippython爬虫作业-维普期刊文章数据爬取爬虫python实现源码.zippython爬虫作业-维普期刊文章数据爬取爬虫python实现源码.zippython爬虫作业-维普期刊文章...
在爬虫开发中,MongoDB数据库和Scrapy框架是两个重要的工具,它们分别负责数据的存储和抓取。本文将详细讲解这两个知识点以及如何结合使用它们。 首先,让我们了解一下MongoDB。MongoDB是一款非关系型数据库(NoSQL...
【VB网络爬虫源码 - 智联爬虫(爬智联招聘的数据)】是一个基于Visual Basic(VB)编程语言实现的网络爬虫项目,主要用于抓取和解析智联招聘网站上的招聘信息。这个项目可以帮助我们理解如何利用VB进行网络数据抓取...
在这个“java-crawler-master”项目中,开发者构建了一个专门针对雪球网的爬虫,雪球网是一个知名的投资者社区,提供股票信息、投资组合以及用户讨论等丰富的数据。 该项目的核心知识点主要包括以下几个方面: 1. ...
Python系列--自动化-机器学习-人脸识别-高级爬虫工程师-数据采集-黑马-爬虫实例-大小1-2t按需转存
【课程简介】 本课程适合所有需要弥补python网络爬虫的同学,课件内容制作精细,由浅入深,适合入门或进行知识回顾。 本章为该课程的其中一个章节 ...12-实例4-股票数据定向Scrapy爬虫(共23页).pptx
【网络爬虫-- 个人版】是一个用于网络信息抓取的工具,允许用户免费使用,以便从互联网上搜集和整理所需的数据。网络爬虫在信息技术领域扮演着重要角色,尤其对于数据分析、市场研究、搜索引擎优化(SEO)以及自动化...
爬虫+数据分析实战项目 本代码为《爬虫+数据分析》的源代码,以及Python有趣系列代码,涵盖的内容有。 - 微信 - 豆瓣 - POI - 手机微博 - 简书 - 知乎 - 网络爬虫 - 数据分析 - 机器学习 - 深度学习 供大家学习和...
《智联招聘数据爬虫源码解析》 网络爬虫技术是互联网信息挖掘的重要手段,它能够自动地从网站上获取大量数据,并将其整理成可供分析的格式。在这个专题中,我们将聚焦于一个特殊的实例——智联招聘数据爬虫源码,...
Python网络爬虫技术是开发和收集互联网数据的重要工具,它允许程序员通过自动化的方式获取网页信息。这个"Python网络爬虫技术-源代码和实验数据.rar"压缩包包含了一系列的源代码示例和实验数据,旨在帮助学习者深入...
本项目专注于使用Python语言编写爬虫来抓取薄荷健康网站上的数据,这为我们提供了研究和分析健康信息的可能性。以下是对这个项目的详细解读: 1. **Python编程语言**:Python是爬虫开发的首选语言,因为其语法简洁...
《Python网络爬虫技术》教学大纲详细解析 Python网络爬虫技术是一门针对大数据技术类专业的必修课程,旨在培养学生利用Python语言进行网络数据抓取的能力。课程总学时为32学时,包括14学时的理论教学和18学时的实验...
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...