海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普遍推广,大家都在构建自己的大数据处理,大数据分析平台。
相应之下,目前对于海量数据处理人才的需求也在不断增多,此类人才可谓炙手可热!越来越多的开发者把目光转移到海量数据的处理上。但是不是所有人都能真正接触到,或者有机会去处理海量数据的,所以就需要一些公开的海量数据集来研究。
在Quora上有人就问到,如何获取海量数据集。此问题得到了很多人的关注。具体可以看看回答,数据集的种类多种多样,有化学分析,基因遗传等等,从中你肯定能得到自己想要个数据集。
Where can I get large datasets open to the public?
首先说说几个收集数据集的网站:
1、Public Data Sets on Amazon Web Services (AWS)
http://aws.amazon.com/datasets
Amazon从2008年开始就为开发者提供几十TB的开发数据。
2、Yahoo! Webscope
http://webscope.sandbox.yahoo.com/index.php
3、Konect is a collection of network datasets
http://konect.uni-koblenz.de/
4、Stanford Large Network Dataset Collection
http://snap.stanford.edu/data/index.html
再就是说说几个跟互联网有关的数据集:
1、Dataset for "Statistics and Social Network of YouTube Videos"
http://netsg.cs.sfu.ca/youtubedata/
2、1998 World Cup Web Site Access Logs
http://ita.ee.lbl.gov/html/contrib/WorldCup.html
这个是1998年世界杯期间的数据集。从1998/04/26 到 1998/07/26 的92天中,发生了 1,352,804,107次请求。
3、Page view statistics for Wikimedia projects
http://dammit.lt/wikistats/
4、AOL Search Query Logs - RP
http://www.researchpipeline.com/mediawiki/index.php?title=AOL_Search_Query_Logs
5、livedoor gourmet
http://blog.livedoor.jp/techblog/archives/65836960.html
海量图像数据集:
1、ImageNet
http://www.image-net.org/
包含1400万的图像。
2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
包含8000万的32x32图像。
3、 MirFlickr1M
http://press.liacs.nl/mirflickr/
Flickr中的100万的图像集。
4、 CoPhIR
http://cophir.isti.cnr.it/whatis.html
Flickr中的1亿600万的图像
5、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/
Flickr中的100万的图像集。
6、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/
包含2亿图像
7、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm
Flickr中的27万的图像集。
8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/
包含13万的图像
9、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/
包含100万的图像,23000视频
10、TRECVID
http://trecvid.nist.gov/
Stack Overflow Dump Files
7.3G
stackoverflow.com-Posts.7z
573.1K
stackoverflow.com-Tags.7z
153.0M
stackoverflow.com-Users.7z
2.2G
stackoverflow.com-Comments.7z
截止目前好像还没有国内的企业或者组织开放自己的数据集。希望也能有企业开发自己的数据集给研究人员使用,从而推动海量数据处理在国内的发展!
2014/07/07 雅虎发布超大Flickr数据集 1亿的图片+视频
http://yahoolabs.tumblr.com/post/89783581601/one-hundred-million-creative-commons-flickr-images-for
100多个有趣的数据集
http://www.csdn.net/article/2014-06-06/2820111-100-Interesting-Data-Sets-for-Statistics
城市
Public Data EU http://publicdata.eu
Open Data Europe http://data.europa.eu/euodp/en/home
UK Government Data https://data.gov.uk
Africa Open Data https://africaopendata.org
Code for South Africa http://code4sa.org
Code for Africa https://codeforafrica.org
Open Cities Project http://www.opencitiesproject.org
Open Nepal http://data.opennepal.net
National Bureau of Statistics of China http://www.stats.gov.cn
Open Data Hong Kong https://opendatahk.com
Indonesian Government Open Data http://data.go.id
Japan http://www.data.go.jp
Russian Government Data Website http://data.gov.ru
PakReport - Pakistan Open Data and Maps http://pakreport.org
Open Data India https://data.gov.in
Turkey Open Statistics http://www.turkstat.gov.tr
Canada statistics https://crdcn.org/data
Open Canada http://open.canada.ca/en
Open Data Brazil http://dados.gov.br
Open Data Mexico https://datos.gob.mx
Open Data Latin America http://opendatalatinoamerica.org
机构
United Nations Open Data http://data.un.org
United Nations Development Program Data http://open.undp.org
Open Knowledge Foundation https://okfn.org
World Bank https://data.worldbank.org
WikiLeaks https://wikileaks.org
International Aid and Transparency Datasets https://www.iatiregistry.org
DataHub http://datahub.io
Population Reference Bureau http://www.prb.org/DataFinder.aspx
教育
Lexis Nexis http://lexisnexis.com
Google Scholar search http://scholar.google.com
Cornell University arXiv https://arxiv.org
UCI Machine Learning Datasets https://archive.ics.uci.edu/ml/index.php
Common Data Set Initiative http://www.commondataset.org
医疗
Open Science Data Cloud https://www.opensciencedatacloud.org/publicdata/
Open Science Directory http://www.opensciencedirectory.net
WHO http://www.who.int/gho/database/en/
Broad Institute Open Data https://www.broadinstitute.org/data-software-and-tools
Human Connectome Project http://www.humanconnectomeproject.org
UNC's Psychiatric Genomics http://www.med.unc.edu/pgc
Social Science Datasets http://3stages.org/idata/
CDC Medical Data https://www.cdc.gov/nchs/fastats/
分享到:
相关推荐
LiDAR & Remote Sensing Specialist, Sky Research Inc., 2003 - 2008 GRANTS, AWARDS AND HONORS: Gamma Theta Upsilon Geographic Society Member, 2006 Gradutate Teaching Fellowship, Social Science ...
2023-04-06-项目笔记-第四百四十六阶段-课前小分享_小分享1.坚持提交gitee 小分享2.作业中提交代码 小分享3.写代码注意代码风格 4.3.1变量的使用 4.4变量的作用域与生命周期 4.4.1局部变量的作用域 4.4.2全局变量的作用域 4.4.2.1全局变量的作用域_1 4.4.2.444局变量的作用域_444- 2025-03-23
第三章 Matlab基本语法练习题.docx
医学图像分割数据集:4种显微镜下的细胞目标图像语义分割数据集(约1000张数据和标签) 【5类别的分割】:背景:0 上皮细胞:1 淋巴细胞:2 中性粒细胞:3 巨噬细胞:4(具体参考classes文件 ) 数据集介绍:【已经划分好】 训练集:images图片目录+masks模板目录,737张左右图片和对应的mask图片 验证集:images图片目录+masks模板目录,315张左右图片和对应的mask图片 除此之外,包含一个图像分割的可视化脚本,随机提取一张图片,将其原始图片、GT图像、GT在原图蒙板的图像展示,并保存在当前目录下 医学图像分割网络介绍:https://blog.csdn.net/qq_44886601/category_12102735.html 更多图像分割网络unet、swinUnet、trasnUnet改进,参考改进专栏:https://blog.csdn.net/qq_44886601/category_12803200.html
LA1C-PHP+CSV_1个通用条件工资成绩等通用查询系统网页自适应版(Utf-8)_2024最终版
酒店管理系统,系统包含两种角色:管理员、用户,系统分为前台和后台两大模块,主要功能如下。 前台: - 首页:展示酒店的一些基本信息和轮播图。 - 酒店简介:展示酒店的基本介绍、位置等信息。 - 酒店客房:用户可以查看酒店的客房类型、价格、设施等信息,并进行客房预定。 - 酒店公告:展示酒店的公告信息,包括优惠活动、服务通知等。 - 个人中心:管理个人信息,包括修改个人信息、查看订单记录等。 后台: - 管理员: - 个人中心:管理个人信息,包括修改个人信息、查看订单记录等。 - 员工管理:管理酒店的员工信息,包括添加、编辑、删除员工等操作。 - 用户管理:管理酒店的用户信息,包括添加、编辑、删除用户等操作。 - 客房类型管理:管理酒店的客房类型信息,包括添加、编辑、删除客房类型等操作。 - 酒店简介管理:管理酒店的简介信息,包括编辑、更新酒店简介等操作。 - 酒店客房管理:管理酒店的客房信息,包括添加、编辑、删除客房等操作。 - 客房预定管理:管理客房的预定信息,包括查看、确认、取消预定等操作。 - 入住安排管理:管理
全国各省-国有化程度(2007-2020年)
企业资产管理系统,系统包含两种角色:管理员、用户,系统分为前台和后台两大模块,主要功能如下。 管理员: - 个人中心:管理员可以管理个人信息。 - 用户管理:管理员可以管理用户信息, - 资产分类管理:管理员可以管理资产分类信息, - 资产信息管理:管理员可以管理资产信息 - 资产借出管理:管理员可以管理资产借出记录, - 资产归还管理:管理员可以管理资产归还记录, - 资产维修管理:管理员可以管理资产维修记录, 用户: - 个人中心:用户可以管理个人信息。 - 资产信息管理:用户可以查看、搜索和浏览资产信息。 - 资产借出管理:用户可以申请借出资产,查看借出记录和管理已借出的资产。 - 资产归还管理:用户可以申请归还资产,查看归还记录和管理已归还的资产。 二、项目技术 编程语言:Java 数据库:MySQL 项目管理工具:Maven 前端技术:Vue 后端技术:SpringBoot 三、运行环境 操作系统:Windows、macOS都可以 JDK版本:JDK1.8以上都可以 开发工具:IDEA、Ecplise、Myecplise都可以 数据库: MySQL5.7以上都可以
基于java开发的仿ofo、摩拜,共享单车APP,基于高德地图实现+源码+项目文档+界面展示,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用~ 基于java开发的仿ofo、摩拜,共享单车APP,基于高德地图实现+源码+项目文档+界面展示,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用 基于java开发的仿ofo、摩拜,共享单车APP,基于高德地图实现+源码+项目文档+界面展示,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用~ 基于java开发的仿ofo、摩拜,共享单车APP,基于高德地图实现+源码+项目文档+界面展示,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用~ 基于java开发的仿ofo、摩拜,共享单车APP,基于高德地图实现+源码+项目文档+界面展示,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用~
汽车票网上预订系统,系统包含两种角色:管理员、用户,系统分为前台和后台两大模块,主要功能如下。 【前台】: 1. 首页:展示网站信息、活动公告等。 2. 汽车票:提供汽车票查询、购买、修改订单、退票、换票等功能。 3. 公告:展示网站的新闻资讯、活动公告等。 4. 留言反馈:用户可以留言反馈意见和建议。 5. 个人中心:用户登录后可以查看个人信息、订单记录等。 【后台】: 【管理员】 1. 用户管理:管理员可以管理网站上的用户信息,包括添加、编辑、删除等操作。 2. 汽车票管理:管理员可以管理网站上的汽车票信息,包括添加、编辑、删除等操作。 3. 订单管理:管理员可以管理网站上的订单信息,包括查看、修改、取消等操作。 4. 退票管理:管理员可以管理网站上的退票申请,包括审核、处理等操作。 5. 换票管理:管理员可以管理网站上的换票申请,包括审核、处理等操作。 6. 反馈管理:管理员可以查看网站上的用户反馈信息,并进行回复等操作。 7. 留言板管理:管理员可以管理网站上的留言板信息,包括查看、删除等操作。 8. 系统管理:管理员可以管理系统的基本配置和权限设置等。 【用户】 1. 汽
基于 JavaEE 框架的设计项目代码实现指南
PM2C-PHP+CSV_2个通用条件工资成绩等通用查询系统手机网页版版(Gb2312)_2024最终版
系统基于THINKPHP框架,非DEDEcms内核,后台简洁,为企业网站而生。 模板编码:UTF-8 + PHP + MYSQL 使用限制:不限制域名/开放源码/自由修改/长久使用 模板分类:学校、教育、培训、科研 适合行业:学校类企业 模板介绍: 本模板自带eyoucms内核,无需再下载eyou系统,原创设计、手工书写DIV+CSS,完美兼容IE7+、Firefox、Chrome、360浏览器等;主流浏览器;结构容易优化;多终端均可正常预览。 安装环境要求 服务器:Linux / Apache / IIS PHP版本:5.4及5.4以上,完美支持php7.4 MYSQL版本:5.0以上 PS:php版本推荐5.6,mysql推荐使用5.7+
## 介绍 文章利用我国沪深A股上市企业的数据分析了企业数字化转型对ESG表现的影响效应,并检验了投资者关注度在其中的调节作用。结果显示,企业进行数字化转型能够显著提升企业的ESG表现 参照戚琳琳(2024)的做法,对来自统计与决策《企业数字化转型对ESG表现的影响研究》一文中的基准回归部分进行复刻 ## 一、数据介绍 数据名称:企业数字化转型对ESG表现的影响研究 数据范围:A股上市公司 数据年份:2009-2023年 有效样本:4.2万条 数据说明:ESG表现用华证ESG年均值衡量,数字化转型采用MD&A词频的3种方式衡量 ## 二、数据指标
通过python计算ec
本文档是3GPP组织制定的一项技术规范,针对5G系统中统一数据存储库(UDR)服务的应用,特别关注了政策数据、应用数据和结构性数据用于曝光的情况。规范详细说明了如何通过Nudr_DataRepository服务API来访问这些数据,包括资源的定义、使用方法以及错误处理机制。它还包含了数据模型的定义和一些特定资源的操作细节,例如访问和移动策略数据、UE策略集、会话管理策略数据、使用监控信息等。此外,规范还讨论了通知机制、特征协商、以及对错误情况的处理。该规范旨在为5G网络功能(NF)提供一致的数据访问接口,以便于管理政策数据、应用数据和结构性数据用于曝光的情况 限时福利!送硅基流动100w deepseek token,支持api调用:https://cloud.siliconflow.cn/i/VkH0G5VX
WinSCP是一款专为Windows操作系统设计的SFTP客户端,旨在为用户提供高效、安全的文件传输与管理解决方案。本仓库提供的WinSCP客户端中文版,版本号为v5.13.3,经过严格测试,确保功能正常,用户可以放心使用。无论是日常文件传输,还是复杂的系统管理任务,WinSCP都能轻松应对。
虑到实际生活中在学术成果管理方面的需要以及对该系统认真的分析,将系统权限按管理员和用户这两类涉及用户划分。 (1)管理员功能需求 管理员登陆后,主要模块包括主页、个人中心、用户管理、学术论文管理、科研项目管理、学术专著管理、专利管理、系统管理等功能。 (2)用户功能需求 用户登陆后,主要模块包括主页、个人中心、学术论文管理、科研项目管理、学术专著管理、专利管理等功能。
PVDF基准固态电解质的开发及产业化应用-2024固态电池技术.pdf