- 浏览: 1241055 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
masuweng:
嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...' -
秋水涛静:
来来来 你告诉我你贴的这代码有什么用??你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览 -
andseny:
如果可以的话,求一份源码,谢谢 邮箱:846526948@q ...
利用diyUpload做多图片上传及预览 -
alloyer:
不错!可以使用,已验证。
Spring与jcaptcha集成 -
bewithme:
这和我去官网看有啥区别?
web之日期组件My97DatePicker
来自互联网:
1、气候监测数据集 http://cdiac.ornl.gov/ftp/ndp026b
2、几个实用的测试数据集下载的网站
http://www.cs.toronto.edu/~roweis/data.html
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集http://www.research.att.com/~lewis/reuters21578.html
以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
3、找了很多测试数据集,写论文的同志们肯定需要的,至少能用来检验算法的效果
可能有一些不能访问,但是总有能访问的吧:
UCI收集的机器学习数据集
ftp://pami.sjtu.edu.cn/
http://www.ics.uci.edu/~mlearn//MLRepository.htm
statlib
http://liama.ia.ac.cn/SCILAB/scilabindexgb.htm
http://lib.stat.cmu.edu/
样本数据库
http://kdd.ics.uci.edu/
http://www.ics.uci.edu/~mlearn/MLRepository.html
关于基金的数据挖掘的网站
http://www.gotofund.com/index.asp
http://lans.ece.utexas.edu/~strehl/
reuters数据集
http://www.research.att.com/~lewis/reuters21578.html
各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
http://www.mlnet.org/cgi-bin/mlnetois.pl/?File=datasets.html
http://lib.stat.cmu.edu/datasets/
http://dctc.sjtu.edu.cn/adaptive/datasets/
http://fimi.cs.helsinki.fi/data/
http://www.almaden.ibm.com/software/quest/Resources/index.shtml
http://miles.cnuce.cnr.it/~palmeri/datam/DCI/
进行文本分类&WEB
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
http://www.w3.org/TR/WD-logfile-960221.html
http://www.w3.org/Daemon/User/Config/Logging.html#AccessLog
http://www.w3.org/1998/11/05/WC-workshop/Papers/bala2.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.web-caching.com/traces-logs.html
http://www-2.cs.cmu.edu/webkb
http://www.cs.auc.dk/research/DP/tdb/TimeCenter/TimeCenterPublications/TR-75.pdf
http://www.cs.cornell.edu/projects/kddcup/index.html
时间序列数据的网址
http://www.stat.wisc.edu/~reinsel/bjr-data/
apriori算法的测试数据
http://www.almaden.ibm.com/cs/quest/syndata.html
数据生成器的链接
http://www.cse.cuhk.edu.hk/~kdd/data_collection.html
http://www.almaden.ibm.com/cs/quest/syndata.html
关联:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
http://www.almaden.ibm.com/software/quest/Resources/datasets/syndata.html#assocSynData
WEKA:
http://flow.dl.sourceforge.net/sourceforge/weka/regression-datasets.jar
1。A jarfile containing 37 classification problems, originally obtained from the UCI repository
http://prdownloads.sourceforge.net/weka/datasets-UCI.jar
2。A jarfile containing 37 regression problems, obtained from various sources
http://prdownloads.sourceforge.net/weka/datasets-numeric.jar
3。A jarfile containing 30 regression datasets collected by Luis Torgo
http://prdownloads.sourceforge.net/weka/regression-datasets.jar
癌症基因:
http://www.broad.mit.edu/cgi-bin/cancer/datasets.cgi
金融数据:
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
另一个人提供的
http://www.cs.toronto.edu/~roweis/data.html
http://kdd.ics.uci.edu/summary.task.type.html
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-20/www/data/
http://www-2.cs.cmu.edu/afs/cs.cmu.edu/project/theo-11/www/wwkb/
http://www.phys.uni.torun.pl/~duch/software.html
在下面的网址可以找到reuters数据集
http://www.research.att.com/~lewis/reuters21578.html
以下网址上有各种数据集:
http://kdd.ics.uci.edu/summary.data.type.html
进行文本分类,还有一个数据集是可以用的,即rainbow的数据集
http://www-2.cs.cmu.edu/afs/cs/project/theo-11/www/naive-bayes.html
Download the Financial Data (~17.5M zipped file, ~67M unzipped data)
Download the Medical Data (~2M zipped file, ~6M unzipped data)
http://lisp.vse.cz/pkdd99/Challenge/chall.htm
kdnuggets 相关链接数据集:
http://www.kdnuggets.com/datasets/index.html
还有另外一个很好的资源网址为:http://kdd.ics.uci.edu/,里面包含的数据资源如下(按应用领域划分):
Direct Marketing
KDD CUP 1998 Data
GIS
Forest CoverType
Indexing
Corel Image Features
Pseudo Periodic Synthetic Time Series
Intrusion Detection
KDD CUP 1999 Data
Process Control
Synthetic Control Chart Time Series
Recommendation Systems
Entree Chicago Recommendation Data
Robots
Pioneer-1 Mobile Robot Data
Robot Execution Failures
Sign Language Recognition
Australian Sign Language Data
High-quality Australian Sign Language Data
Text Categorization
20 Newsgroups Data
Reuters-21578 Text Categorization Collection
NSF Research Awards Abstracts 199 0-2003
World Wide Web
Microsoft Anonymous Web Data
MSNBC Anonymous Web Data
Syskill Webert Web Data
发表评论
-
cqlsh执行报错"No appropriate python interpreter found."
2017-03-21 18:04 2016版本信息: apache-cassandra-2.2.9 ... -
R之折线图
2015-01-13 10:51 1649需求: 用R语言画折线图 实现: xiao < ... -
数据归一化
2015-01-06 17:34 1156需求: 向量化的时候需要做数据的归一化,以便所有权重等权 ... -
pearson相关系数计算
2014-09-26 17:20 3833依赖 lib: <dependency> ... -
Mahout之Describe应用使用
2014-09-09 18:56 873Describe用于生成数据描述文件主要用于决策树分类使用, ... -
Mahout分类之决策树PartialBuilder应用使用
2014-09-09 18:13 1554mahout版本:0.9 hadoop版本:2.3.0 ... -
数据挖掘之分类指标:召回率 、精确度、准确率、虚警率和漏警率
2014-09-06 22:15 9103场景如下: 假设原样 ... -
weka之Mysql数据装载
2014-08-13 18:37 1010Instances为weka的数据集,Instance是他的 ... -
weka之数据预处理
2014-08-13 16:27 2920weka在做数据预处理的时候针对attribute提供了多种 ... -
数据挖掘之CRISP-DM 模型
2014-07-30 16:22 2029CRISP-DM (cross-industry stand ... -
pearson相关系数
2014-06-26 15:21 1516概述: pearson相关系数用于比较两组变量是否线性相关 ... -
基于boilerpipe抽取页面乱码问题解决方式
2014-03-21 14:57 1695需求: 基于boilerpipe抽取页面的文本内容,基于u ... -
基于lucene创建索引,查询索引的方式
2014-03-19 15:12 860需求: 内容包括两部分,一部分为唯一标示即id,一部分为内 ... -
Mahout之Item-based应用使用
2014-01-21 16:41 1513环境: <dependency> < ... -
在做协同的时候Mahout支持的DataModel类型
2014-01-13 13:12 2556需求: 基于mahout做协同那么mahout支持的Dat ... -
推荐引擎中如何解决冷启动问题
2013-09-05 17:42 1747概述: 冷启动在推荐系统中就是系统推荐中因为没有用户行为或 ... -
Mahout之文本向量化
2013-05-23 16:43 1700背景: 进行文本挖掘的时候,无论是聚类还是相似计算首先需要 ... -
MinHash概述及举例
2013-04-28 16:29 3434MinHash可用于聚类,计算向量相似等,两个向量相似计算, ... -
mahout常用Vector一览表
2013-04-19 19:16 1870mahout常用Vector一览表: org.apache ... -
基于内容的文本相似计算步骤
2013-04-19 19:02 1234基于内容的文本相似性计算步骤如下: 1.针对内容进行切词, ...
相关推荐
"常用数据挖掘数据集"这个标题暗示了我们讨论的主题是关于数据挖掘过程中经常使用的数据资源,这些资源通常用于训练和测试各种算法,以解决实际问题。 描述中提到“包含阿里部分天池竞赛数据集”,这表明这个压缩包...
数据挖掘数据集通常是精心挑选和准备的,它们可能来自各种来源,如公开的数据库、研究项目、商业交易或社交媒体。这些数据集可以帮助研究人员和实践者评估和比较不同的数据挖掘算法的效果。例如,UCI Machine ...
总的来说,中国统计年鉴2013年版的数据集为数据挖掘和商务智能提供了丰富的素材,无论是宏观经济研究、政策制定还是商业决策,都可以从中获取宝贵的信息。通过对这些数据的深入分析,我们可以发现隐藏的模式、趋势和...
总结来说,这个数据挖掘实验数据集提供了研究和开发室内居住检测系统的宝贵资源,涵盖了从数据收集、预处理、模型训练到评估的全过程。对于希望在该领域进行深入研究或者开发相关应用的人员,这是一个极好的学习和...
在这个“数据挖掘关联规则分析数据集”中,我们有两个合成的数据集,它们旨在帮助研究者和分析师探索不同项目之间的潜在关联,从而可能为业务决策、市场篮子分析或商品推荐系统提供依据。 关联规则通常由两部分组成...
总的来说,数据挖掘实验分析常用数据集为研究者提供了宝贵的资源,它们推动了算法的发展,促进了知识发现。无论是新手入门还是专业人士深入研究,都应充分利用这些公开数据集,以提高自己的数据挖掘技能并推动相关...
总之,UCI数据集是数据挖掘和机器学习领域的重要资源,它们推动了科研进步,培养了新一代的数据科学家,并促进了算法的发展与优化。无论你是学术研究者还是业界从业者,都可以从中找到合适的数据集来解决实际问题或...
中文文档分类数据集 清华大学数据挖掘》里的练习 数据说明: 1、文档共有4中类型:女性、体育、文学、校园 2、训练集放到train文件夹里,测试集放到test文件夹里。停用词放到stop文件夹里。 请使用朴素贝叶斯分类对...
本数据集就是这样一个专门用于数据挖掘实践的资源,包含了从网页抓取来的大量数据。 网页数据的获取通常涉及网络爬虫技术,这是一种自动化程序,可以遍历互联网,抓取网页内容并存储到本地。这些内容可能包括HTML...
总的来说,这个挖掘机数据集为开发和优化目标检测模型提供了一个宝贵的资源,特别是在工程车辆的场景中。结合VOC标准的标注和可能的YOLO模型训练,可以构建出能够在现实世界中识别和定位挖掘机的智能系统。无论是...
Wine数据集源自UCI Machine Learning Repository,是研究葡萄酒品质的一个宝贵资源。数据集中的每一行代表一种葡萄酒,13个特征包括了葡萄酒的化学成分,如酒精含量、酸度、糖分等。目标变量是葡萄酒的类型,分为三...
总之,“挖掘机数据集(1).rar”为挖掘机图像识别提供了宝贵的训练资源,不仅揭示了数据集构建的重要性,也为后续的深度学习模型训练指明了方向。在AI技术日新月异的今天,这样的专业数据集将推动相关领域的研究与...
数据挖掘大作业基于python实现葡萄酒质量分析源码+超详细注释+数据集.zip 数据挖掘大作业基于python实现葡萄酒质量分析源码+超详细注释+数据集.zip 数据挖掘大作业基于python实现葡萄酒质量分析源码+超详细注释+数据...
### 数据挖掘资源列表知识点概述 #### 一、常用网站 ...综上所述,以上网站、数据集和工具资源为从事数据挖掘工作的专业人士提供了丰富的信息和支持,可以帮助他们更好地完成数据挖掘任务,并促进该领域的发展。
1. 数据分析(Data Analysis)是为了提取有用信息和形成结论,通过适当的统计分析方法对收集来的大量数据进行分析,以理解和消化数据集的过程。 2. 数据挖掘(Data Mining)是利用算法从大量数据中搜索隐藏的信息,...
例如,在北京市水资源管理数据属性子集选择的研究中,利用数据挖掘技术对数据进行深入分析,不仅验证了指标层选取的合理性,还成功剔除了无关属性。在这一过程中,J48决策树算法被采用来找出数据中隐藏的知识,即...
总的来说,这个数据挖掘实例集合是一个宝贵的学习资源,它不仅包含了理论知识,还有实践操作,是提升数据挖掘技能的好帮手。通过深入研究和实践这些案例,你将能够更熟练地运用各种数据挖掘技术和工具,为你的数据...
数据挖掘(三)相关数据集资源
数据挖掘(二)相关数据集资源
总的来说,这些数据集是数据挖掘教学和研究的重要资源,通过它们,我们可以了解并实践数据预处理、特征工程、模型训练和验证等多个关键步骤,同时掌握如何利用Weka这样的工具进行数据挖掘工作。