`
小网客
  • 浏览: 1241055 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

数据挖掘的数据集资源

 
阅读更多

 

来自互联网:


1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b

2、几个实用的测试数据集下载的网站

http://www.cs.toronto.edu/~roweis/data.html

http://www.cs.toronto.edu/~roweis/data.html

http://kdd.ics.uci.edu/summary.task.type.html

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/

http://www.phys.uni.torun.pl/~duch/software.html

在下面的网址可以找到reuters数据集http://www.research.att.com/~lewis/reuters21578.html


以下网址上有各种数据集:

http://kdd.ics.uci.edu/summary.data.type.html


进行文本分类,还有一个数据集是可以用的,即rainbow的数据集

http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

3、找了很多测试数据集,写论文的同志们肯定需要的,至少能用来检验算法的效果

可能有一些不能访问,但是总有能访问的吧:

UCI收集的机器学习数据集

ftp://pami.sjtu.edu.cn/

http://www.ics.uci.edu/~mlearn//MLRepository.htm

statlib 

http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm

http://lib.stat.cmu.edu/

样本数据库

http://kdd.ics.uci.edu/

http://www.ics.uci.edu/~mlearn/MLRepository.html

关于基金的数据挖掘的网站

http://www.gotofund.com/index.asp

http://lans.ece.utexas.edu/~strehl/

reuters数据集

http://www.research.att.com/~lewis/reuters21578.html

各种数据集:

http://kdd.ics.uci.edu/summary.data.type.html

http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html

http://lib.stat.cmu.edu/datasets/

http://dctc.sjtu.edu.cn/adaptive/datasets/ 

http://fimi.cs.helsinki.fi/data/

http://www.almaden.ibm.com/software/quest/Resources/index.shtml

http://miles.cnuce.cnr.it/~palmeri/datam/DCI/

进行文本分类&WEB

http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html

http://www.w3.org/TR/WD-logfile-960221.html

http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog

http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/

http://www.web-caching.com/traces-logs.html

http://www-2.cs.cmu.edu/webkb

http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf

http://www.cs.cornell.edu/projects/kddcup/index.html


时间序列数据的网址

http://www.stat.wisc.edu/~reinsel/bjr-data/

apriori算法的测试数据

http://www.almaden.ibm.com/cs/quest/syndata.html

数据生成器的链接

http://www.cse.cuhk.edu.hk/~kdd/data_collection.html

http://www.almaden.ibm.com/cs/quest/syndata.html


关联:

http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar

http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData

WEKA:

http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar

1。A jarfile containing 37 classification problems, originally obtained from the UCI repository

http://prdownloads.sourceforge.net/weka/datasets-UCI.jar

2。A jarfile containing 37 regression problems, obtained from various sources

http://prdownloads.sourceforge.net/weka/datasets-numeric.jar

3。A jarfile containing 30 regression datasets collected by Luis Torgo

http://prdownloads.sourceforge.net/weka/regression-datasets.jar

癌症基因:

http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi

金融数据:

http://lisp.vse.cz/pkdd99/Challenge/chall.htm

 

另一个人提供的

http://www.cs.toronto.edu/~roweis/data.html

http://kdd.ics.uci.edu/summary.task.type.html

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/

http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/

http://www.phys.uni.torun.pl/~duch/software.html

在下面的网址可以找到reuters数据集

http://www.research.att.com/~lewis/reuters21578.html

以下网址上有各种数据集:

http://kdd.ics.uci.edu/summary.data.type.html

进行文本分类,还有一个数据集是可以用的,即rainbow的数据集

http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html


Download the Financial Data (~17.5M zipped file, ~67M unzipped data) 

Download the Medical Data (~2M zipped file, ~6M unzipped data)

http://lisp.vse.cz/pkdd99/Challenge/chall.htm


kdnuggets 相关链接数据集:

http://www.kdnuggets.com/datasets/index.html

还有另外一个很好的资源网址为:http://kdd.ics.uci.edu/,里面包含的数据资源如下(按应用领域划分):

Direct Marketing 

  KDD CUP 1998 Data 


GIS 

  Forest CoverType 


Indexing 

  Corel Image Features 

  Pseudo Periodic Synthetic Time Series 


Intrusion Detection 

  KDD CUP 1999 Data 


Process Control 

  Synthetic Control Chart Time Series 


Recommendation Systems 

  Entree Chicago Recommendation Data 


Robots 

  Pioneer-1 Mobile Robot Data 

  Robot Execution Failures 


Sign Language Recognition 

  Australian Sign Language Data 

  High-quality Australian Sign Language Data 


Text Categorization 

  20 Newsgroups Data 

  Reuters-21578 Text Categorization Collection 

  NSF Research Awards Abstracts 199 0-2003 


World Wide Web 

  Microsoft Anonymous Web Data 

  MSNBC Anonymous Web Data 

  Syskill Webert Web Data 

分享到:
评论

相关推荐

    常用数据挖掘数据集

    "常用数据挖掘数据集"这个标题暗示了我们讨论的主题是关于数据挖掘过程中经常使用的数据资源,这些资源通常用于训练和测试各种算法,以解决实际问题。 描述中提到“包含阿里部分天池竞赛数据集”,这表明这个压缩包...

    数据挖掘 数据集

    数据挖掘数据集通常是精心挑选和准备的,它们可能来自各种来源,如公开的数据库、研究项目、商业交易或社交媒体。这些数据集可以帮助研究人员和实践者评估和比较不同的数据挖掘算法的效果。例如,UCI Machine ...

    数据挖掘数据集

    总的来说,中国统计年鉴2013年版的数据集为数据挖掘和商务智能提供了丰富的素材,无论是宏观经济研究、政策制定还是商业决策,都可以从中获取宝贵的信息。通过对这些数据的深入分析,我们可以发现隐藏的模式、趋势和...

    数据挖掘实验数据集

    总结来说,这个数据挖掘实验数据集提供了研究和开发室内居住检测系统的宝贵资源,涵盖了从数据收集、预处理、模型训练到评估的全过程。对于希望在该领域进行深入研究或者开发相关应用的人员,这是一个极好的学习和...

    数据挖掘关联规则分析数据集

    在这个“数据挖掘关联规则分析数据集”中,我们有两个合成的数据集,它们旨在帮助研究者和分析师探索不同项目之间的潜在关联,从而可能为业务决策、市场篮子分析或商品推荐系统提供依据。 关联规则通常由两部分组成...

    数据挖掘实验分析常用数据集

    总的来说,数据挖掘实验分析常用数据集为研究者提供了宝贵的资源,它们推动了算法的发展,促进了知识发现。无论是新手入门还是专业人士深入研究,都应充分利用这些公开数据集,以提高自己的数据挖掘技能并推动相关...

    UCI数据集(数据挖掘实验室数据)

    总之,UCI数据集是数据挖掘和机器学习领域的重要资源,它们推动了科研进步,培养了新一代的数据科学家,并促进了算法的发展与优化。无论你是学术研究者还是业界从业者,都可以从中找到合适的数据集来解决实际问题或...

    中文文档分类数据集-数据挖掘

    中文文档分类数据集 清华大学数据挖掘》里的练习 数据说明: 1、文档共有4中类型:女性、体育、文学、校园 2、训练集放到train文件夹里,测试集放到test文件夹里。停用词放到stop文件夹里。 请使用朴素贝叶斯分类对...

    数据挖掘-网页数据集

    本数据集就是这样一个专门用于数据挖掘实践的资源,包含了从网页抓取来的大量数据。 网页数据的获取通常涉及网络爬虫技术,这是一种自动化程序,可以遍历互联网,抓取网页内容并存储到本地。这些内容可能包括HTML...

    挖掘机 数据集 已标注完成 有700张左右 voc数据集

    总的来说,这个挖掘机数据集为开发和优化目标检测模型提供了一个宝贵的资源,特别是在工程车辆的场景中。结合VOC标准的标注和可能的YOLO模型训练,可以构建出能够在现实世界中识别和定位挖掘机的智能系统。无论是...

    数据挖掘wine数据集分类实验报告及代码

    Wine数据集源自UCI Machine Learning Repository,是研究葡萄酒品质的一个宝贵资源。数据集中的每一行代表一种葡萄酒,13个特征包括了葡萄酒的化学成分,如酒精含量、酸度、糖分等。目标变量是葡萄酒的类型,分为三...

    挖掘机数据集(1).rar

    总之,“挖掘机数据集(1).rar”为挖掘机图像识别提供了宝贵的训练资源,不仅揭示了数据集构建的重要性,也为后续的深度学习模型训练指明了方向。在AI技术日新月异的今天,这样的专业数据集将推动相关领域的研究与...

    数据挖掘大作业基于python实现葡萄酒质量分析源码+超详细注释+数据集.zip

    数据挖掘大作业基于python实现葡萄酒质量分析源码+超详细注释+数据集.zip 数据挖掘大作业基于python实现葡萄酒质量分析源码+超详细注释+数据集.zip 数据挖掘大作业基于python实现葡萄酒质量分析源码+超详细注释+数据...

    数据挖掘资源列表

    ### 数据挖掘资源列表知识点概述 #### 一、常用网站 ...综上所述,以上网站、数据集和工具资源为从事数据挖掘工作的专业人士提供了丰富的信息和支持,可以帮助他们更好地完成数据挖掘任务,并促进该领域的发展。

    数据分析与数据挖掘.pdf

    1. 数据分析(Data Analysis)是为了提取有用信息和形成结论,通过适当的统计分析方法对收集来的大量数据进行分析,以理解和消化数据集的过程。 2. 数据挖掘(Data Mining)是利用算法从大量数据中搜索隐藏的信息,...

    基于数据挖掘技术的水资源管理指标分析.pdf

    例如,在北京市水资源管理数据属性子集选择的研究中,利用数据挖掘技术对数据进行深入分析,不仅验证了指标层选取的合理性,还成功剔除了无关属性。在这一过程中,J48决策树算法被采用来找出数据中隐藏的知识,即...

    数据挖掘_数据挖掘实例_

    总的来说,这个数据挖掘实例集合是一个宝贵的学习资源,它不仅包含了理论知识,还有实践操作,是提升数据挖掘技能的好帮手。通过深入研究和实践这些案例,你将能够更熟练地运用各种数据挖掘技术和工具,为你的数据...

    数据挖掘(三)相关数据集资源

    数据挖掘(三)相关数据集资源

    数据挖掘(二)相关数据集资源

    数据挖掘(二)相关数据集资源

    UCI.rar_UCI数据集_weka数据集_基于数据挖掘_数据挖掘 UCI_数据挖掘实验

    总的来说,这些数据集是数据挖掘教学和研究的重要资源,通过它们,我们可以了解并实践数据预处理、特征工程、模型训练和验证等多个关键步骤,同时掌握如何利用Weka这样的工具进行数据挖掘工作。

Global site tag (gtag.js) - Google Analytics