`
wp63
  • 浏览: 31971 次
  • 性别: Icon_minigender_1
  • 来自: 山西...
最近访客 更多访客>>
社区版块
存档分类
最新评论

KDD

    博客分类:
  • BI
阅读更多
 知识发现(KDD:Knowledge Discovery in Databases)是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。知识发现将信息变为知识,从数据矿山中找到蕴藏的知识金块,将为知识创新和知识经济的发展作出贡献。
  数据库知识发现(knowledse discovery in databases,KDD)的研究非常活跃。该术语于1989年出现,Fayyad定义为"KDD"是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程”。在上面的定义中,涉及几个需要进一步解释的概念:“数据集”、“模式”、“过程”、“有效性”、“新颖性”、“潜在有用性”和“最终可理解性”。数据集是一组事实 F(如关系数据库中的记录)。模式是一个用语言L来表示的一个表达式E,它可用来描述数据集F的某个子集凡上作为一个模式要求它比对数据子集FE的枚举要简单(所用的描述信息量要少)。过程在KDD中通常指多阶段的处理,涉及数据准备、模式搜索、知识评价以及反复的修改求精;该过程要求是非平凡的,意思是要有一定程度的智能性、自动性(仅仅给出所有数据的总和不能算作是一个发现过程)。有效性是指发现的模式对于新的数据仍保持有一定的可信度。新颖性要求发现的模式应该是新的。潜在有用性是指发现的知识将来有实际效用,如用于决策支持系统里可提高经济效益。最终可理解性要求发现的模式能被用户理解,目前它主要是体现在简洁性上。有效性、新颖性、潜在有用性和最终可理解性综合在一起称为兴趣性。
  由于知识发现是一门受到来自各种不同领域的研究者关注的交叉性学科,因此导致了很多不同的术语名称。除了 KDD外,主要还有如下若干种称法:“数据挖掘”(data mining),“知识抽取”(information extraction)、“信息发现”(in1ormation discovery)、“智能数据分析”(intelligent data analysis)、“探索式数据分析”(exploratory data analysis)、“信息收获”(Information harvesting)和“数据考古”(data archedogy)等等。其中,最常用的术语是“知识发现”和“数据挖掘”。相对来讲,数据挖掘主要流行于统计界(最早出现于统计文献中)、数据分析、数据库和管理信息系统界;而知识发现则主要流行于人工智能和机器学习界。
[编辑本段]1.KDD基本过程(the process of the KDD)
  作为一个KDD的工程而言,KDD通常包含一系列复杂的挖掘步骤. Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年合作发布的论文<From Data Mining to knowledge discovery>中总结出了KDD包含的5个最基本步骤(如图).
  1: selection: 在第一个步骤中我们往往要先知道什么样的数据可以应用遇我们的KDD工程中.
  2: pre-processing: 当采集到数据后,下一步必须要做的事情是对数据进行预处理,尽量消除数据中存在
  的错误以及缺失信息.
  3: transformation: 转换数据为数据挖掘工具所需的格式.这一步可以使得结果更加理想化.
  4: data mining: 应用数据挖掘工具.
  5:interpretation/ evaluation: 了解以及评估数据挖掘结果.

2.常用KDD过程模型 (KDD process model)

随着Fayyad,Piatetsky-Shapiro 和 Smyth 在 1996年总结出的KDD5个基本步骤, 各种不同的KDD过程模型
  在此基础上发展以及完善起来.整体来说,KDD过程模型包含"学术模型"(academic research model)以及"
  工业模型"(industrial model)两大类. 常见的KDD过程模型有:
  1996 年Fayyad等人提出的 "9 步骤模型"(nine-steps model).
  1999 年 european commission 机构起草的CRISP-DM 模型. (cross-industry standard process for
  data mining)

分享到:
评论

相关推荐

    大作业使用NSL-KDD数据集训练一个网络入侵检测模型并用KDDCup和NSL-KDD数据集进行模型评估(满分项目)

    KDD数据集训练一个网络入侵检测模型并用KDDCup和NSL-KDD数据集进行模型评估(满分项目)大作业使用NSL-KDD数据集训练一个网络入侵检测模型并用KDDCup和NSL-KDD数据集进行模型评估(满分项目)大作业使用NSL-KDD数据...

    基于NSL-KDD数据集网络入侵检测模型并用KDDCup和NSL-KDD数据集进行模型评估python源码.zip

    使用NSL-KDD数据集训练一个网络入侵检测模型,并用KDDCup和NSL-KDD数据集进行模型评估。 使用环境 python == 3.7.9 scikit-learn == 0.19.1 numpy == 1.15.4 pandas == 1.1.2 文件介绍 ./data/ : 程序使用到的N...

    NSL-KDD-Dataset-master_NSL-KDD数据集_入侵检测_KDD_

    NSL-KDD(Non-Intrusive Feature Selection for KDD)数据集是网络安全领域的一个经典数据集,主要用于入侵检测系统的性能评估。它源自于KDD Cup 1999的数据集,经过了重新处理和简化,旨在更真实地模拟网络流量,并...

    KDD99入侵检测数据预处理和分类源代码及数据集.zip

    1、内容概要:本资源主要基于Python实现kdd99入侵检测数据集预处理,搭建DNN和CNN神经网络实现kdd99入侵检测分类,适用于初学者学习入侵检测分类使用。 2、入侵检测数据集: 该数据集是从一个模拟的美国空军局域...

    kddcup.data-10-percent-corrected与kddcup.data-10-percent-correcte

    《KDD Cup 数据集详解:kddcup.data_10_percent_corrected与kddcup.data_10_percent_corrected》 KDD Cup是一项国际知名的数据挖掘竞赛,自1999年起,它为研究者和从业者提供了一个展示数据挖掘技术的平台。在KDD ...

    NSL-KDD_NSL-KDD_NSL-KDD数据集_测试集_

    NSL-KDD(Network Security Library - Knowledge Discovery and Data Mining)数据集是网络安全领域的一个经典数据集,用于研究和开发入侵检测系统(Intrusion Detection System, IDS)。这个数据集是KDD99数据集的...

    NSL-KDD 入侵检测数据集.zip

    NSL-KDD数据集是KDD99数据集的改进,可以作为有效地基准数据集,各机器学习算法可以在NSL-KDD数据集上进行入侵检测实验。 NSL-KDD数据集是KDD 99数据集的改进: 1、NSL-KDD数据集的训练集中不包含冗余记录,所以分类...

    kddcup99 数据集

    KDDCup99的原始数据来自于1998年的DARPA入侵检测评估项目,所有的网络数据来自于一个模拟的美国空军局域网,网络中加了很多模拟的攻击。实验的训练数据为7周的网络流量,这些网络流量包含有约500万条网络连接;实验的...

    kdd 99 全部数据集

    《KDD Cup 99 入侵检测数据集详解》 KDD Cup 99(Knowledge Discovery and Data Mining Cup 1999)是数据挖掘领域的一个重要比赛,其核心是提供了一个广泛使用的入侵检测数据集,对于研究网络安全、机器学习和数据...

    KDDCUP99数据合集.zip

    《KDDCUP99数据集:入侵检测的基石》 KDD Cup 99,全称为"Knowledge Discovery and Data Mining Cup 1999",是数据挖掘领域的一次重要竞赛,由ACM(美国计算机学会)组织,旨在推动网络安全和入侵检测技术的发展。...

    KDDCUP99数据集预处理结果.zip

    《KDDCUP99数据集预处理:深入理解与应用》 KDD Cup 1999(简称KDDCUP99)是数据挖掘领域的一项重要竞赛,旨在检测和预防网络入侵。该赛事提供的数据集是研究网络安全、异常检测和机器学习的经典资源。在数据预处理...

    NSL-KDD数据集arff格式

    《NSL-KDD数据集与arff格式在入侵检测中的应用》 NSL-KDD数据集是网络安全领域中一个广泛使用的入侵检测系统(IDS)的数据集,它为研究和开发新的入侵检测算法提供了宝贵的资源。KDD,全称为Knowledge Discovery in...

    基于KDD CUP 99数据集的入侵检测分类程序-研究论文

    这个问题激发了一些专家来发现根据数据挖掘来减少错误警报的解决方案,这是在大数据(例如KDD CUP 99)中使用的分析过程的考虑因素。本文对处理入侵检测中的错误警报的各种数据挖掘分类进行了综述。 。 根据测试...

    KDD99数据集的归一化

    ### KDD99数据集的归一化处理 #### 一、引言 在机器学习领域,特别是针对网络安全分析的任务中,KDD99数据集因其丰富的信息与广泛的可用性而备受关注。该数据集由1999年 DARPA(Defense Advanced Research ...

    KDDCUP99.zip

    《KDD Cup 99:网络入侵数据集与异常检测技术》 KDD Cup 99 是一个在信息安全领域极具影响力的数据集,主要用于研究和实践网络入侵检测系统( Intrusion Detection System, IDS)。这个压缩包文件“KDDCUP99.zip”...

    KDD数据_NSL-KDD_NSL_KDD_kdd数据集_

    KDD和NSL-KDD数据集 不能小于20字

    KDD CUP 98 数据集-3

    KDD CUP98 的数据集,下面是数据集的部分数据: CONTROLN,TARGET_B,TARGET_D 3,0,0 6,0,0 9,0,0 11,0,0 16,0,0 19,0,0 20,0,0 23,0,0 24,0,0 25,1,25 28,0,0 29,0,0 30,0,0 31,0,0 33,0,0 34,0,0 35,0,0 36,0,0 39,0...

    KDD99预处理后的csv文件.rar

    《KDD99预处理CSV数据集详解》 在信息技术领域,数据分析与挖掘是一项至关重要的工作,而KDD(Knowledge Discovery in Databases)是这一领域的核心任务,它旨在从大量数据库中发现有价值的知识。KDD99是1999年国际...

    KDD Cup 1999数据集特征含义

    KDD Cup 1999 数据集特征含义 KDD Cup 1999 数据集是一個常用的网络入侵检测数据集,它包含了 41 个特征变量和一个分类标签。这些特征变量可以分为基本特征、流量特征、目标主机特征和时间特征四大类。 基本特征 ...

Global site tag (gtag.js) - Google Analytics