今天把数据抽取的代码整理了下,做了个控制台程序,这个程序主要抓取了新浪网的行业数据、股票信息,股价日、周、月线的数据,并把数据存储到数据库。文章末尾提供代码下载网址,代码可运行,设置好数据库连接字符串后,即可抽取数据了。
数据抽取主要是找到合适的数据源,分析和提取数据。
一、数据源
免费的接口主要是各大门户网站和财经类网站,比如新浪网易的财经频道,或者东方财富和和讯网站等。
专门做接口的聚合数据股票接口等。
另外如果想了解各种指数的成分股,比如上证50,深户300等指数的成分股,可以参考 上海证券交易所 深圳证券交易所,这两个网站提供两市的所有股票数据,提供了Excel下载,下载以后导入到数据即可。
二、分析和提取数据
通过浏览器的F12或者Fiddler查看网络请求数据,数据最好返回的是json格式,json格式的数据非常容易提取,利用Newtonsoft.Json把json对象转换成dynamic对象,访问json数据真是方便极了,没有用dynamic对象之前,一直是建立和json对象一致的类,然后在反序列化,现在不需要了,代码示例如下:
public IList<DataAccess.Stock> GetStocks(DataAccess.StockCategory category) { var url = "http://vip.stock.finance.sina.com.cn/quotes_service/api/json_v2.php/Market_Center.getHQNodeData?page=1&num=900&sort=symbol&asc=1&node={0}&symbol=&_s_r_a=init"; url = string.Format(url, category.code.Trim('"')); string content = getRequestContent(url); dynamic stocks = Newtonsoft.Json.JsonConvert.DeserializeObject(content); IList<DataAccess.Stock> list = new List<DataAccess.Stock>(); foreach (var stock in stocks) { list.Add(new DataAccess.Stock { code = stock.code, symbol = stock.symbol, name = stock.name }); } return list; }
如果返回数据不是json格式,那就需要用正则表示来提取了,这方面就要看情况了,我的代码里部分用到了正则表达式。
另外,为了防止网站接口变化,你需要建立一个接口类,为应用多做几个接口的实现,应对后续网站接口的变化。
源码可以看原文地址,关注微信公众号获取
相关推荐
首先,我们来了解一下"抓取股票数据"这一概念。网络爬虫,或者叫做Web scraping,是通过编程方式自动化获取网页信息的技术。在股票数据分析中,爬虫会解析网页上的HTML、XML或其他结构化数据,提取出股票代码、价格...
本项目"从腾讯证券自动抓取股票数据.zip_VBA__VBA_"正是利用了VBA的这一特性,实现了从腾讯证券接口获取股票数据的功能,特别是对上证和深证市场的数据进行了区分。 首先,我们需要了解VBA的基础知识。VBA是基于...
要定时抓取股票数据,可以使用Python的`schedule`库或者`APScheduler`库。这些库允许我们设置定时任务,定期执行爬虫程序。首先,你需要确定数据源,例如雅虎财经、Google财经或国内的Wind资讯等。然后,使用`...
在Windows 10或11环境下经过测试并能正常运行,意味着该项目兼容这两种操作系统,并且能够稳定地从目标网站抓取股票数据。"项目说明"可能是一个文档,详细介绍了项目的结构、如何运行、数据来源以及如何解析和存储...
1. **网络爬虫**:为了每天从网上抓取股票数据,开发者可能使用了Python的网络爬虫技术。Python有许多流行的库,如BeautifulSoup、Scrapy或Requests+ BeautifulSoup组合,可以用于抓取网页上的结构化信息,如股票...
标题中的"C#抓取网页股票年报数据程序源代码"指的是一个使用C#编程语言开发的软件应用程序,其主要功能是从互联网上的网页中抓取股票年报的相关数据。在信息技术领域,这种程序通常被称为网络爬虫或者网页抓取工具,...
StockAnalytics每天抓取股票数据,保存到mongodb。使用Spark进行分析后保存到Mysql中。WEB界面展示技术架构:SpringMVC + Spring + Mybatis + Spring data MongoDB一阶段:(完成)每天抓取股票数据,保存到mongodb...
通过爬虫,我们可以从各种网站抓取股票数据,包括公司公告、财务报告等非结构化信息,进一步丰富我们的分析维度。 在进行基本面的单因子量化分析时,我们需要对数据进行预处理,包括缺失值处理、异常值检测和标准化...
抓取新浪财经上股票数据的matlab代码
在本项目中,"基于Python爬虫的股票信息爬取保存到文件" 是一个课程设计,目的是通过编程从网络上抓取股票数据并将其存储到本地文件中。这个设计使用了Python语言,特别是Python的爬虫技术,展示了如何从股票信息...
此外,`dataListAcq.py`可能是一个用于批量获取股票数据的脚本。在实际应用中,我们可能会需要获取一系列股票的数据,这时可以利用循环结构配合tushare的API来实现: ```python # 假设stock_list是一个包含多个股票...
接下来,我们来看如何创建一个Scrapy爬虫来抓取股票数据。首先,你需要安装Scrapy,使用命令`pip install scrapy`。然后,通过`scrapy startproject stock_crawler`创建一个新的Scrapy项目。接着,在`stock_crawler/...
描述中提到的"RCH_Stock_Market_Functions.xla"是一个Excel加载项,它包含了一系列自定义函数,用于从特定的金融网站(如Yahoo财经)抓取股票数据。将这个加载项放在指定的"C:\Program Files\smf add-in"目录下,...
Python是一种广泛应用于数据分析和处理的编程语言,而Pandas库是Python中不可或缺的数据分析工具。Pandas提供了高效、灵活的数据结构,如DataFrame和Series,使得数据清洗、转换、聚合等操作变得简单易行。本教程将...
在本主题中,我们将深入探讨两个Python爬取程序,它们分别用于从雅虎财经和天天基金网抓取股票数据。这两个爬虫程序展示了如何利用Python的强大功能来获取实时或历史的金融信息。 首先,让我们了解Python爬虫的基本...
本文将基于“新浪网股票数据抓取以及存储”的主题,深入探讨如何利用编程技术从新浪网获取股票数据,并将其有效地存储以供后续分析。 首先,我们需要了解数据抓取的基本概念。数据抓取,又称网页爬虫,是一种自动...
最后,我们可以使用抓取的数据来进行股票价格分析和预测。 结论 本文介绍了如何使用Excel抓取HTML数据,并将其应用于股票价格数据的自动更新。通过使用VBA和HttpRequest,我们可以实现自动抓取HTML数据,并将其...
这可能涉及到从在线金融平台或者本地数据库中抓取股票数据,然后进行必要的数据清洗和转换,以便于后续的建模和训练。 整个项目流程大致如下: 1. 数据获取:使用`get_data.py`从源获取股票历史数据。 2. 数据...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储,很有参考借鉴意义