Data Mining的目的:
为数据建模。为数据建模的主要有一下的几个方向:
1、统计模型:统计数据的可视化就是其中最常见的用途。
2、机器学习:机器学习应用方向主要是我们都不知道能从数据获得什么信息,通过机器学习渐进式的获取数据的信息。 对于哪些我们明确知道想从其中获取什么信息的数据分析领域并不适用。
3、计算领域建模:该模型的主要作用是提升对该数据进行复杂查询的效率。
4、数据归集:最典型的例子就是PageRank算法,它把一个网页上的所有的数据最后归集为一个数字,这个数字就代表了该网页对你的查询条件来说的重要性;另一个方向就是把数据投射到多维空间变为一个点。然后通过点之间的距离对数据进行归类,所有数据集的特征总和就是该数据集的值。
5、特征提取:这个模型的主要目的是发现数据集中的一些现象级的数据特征。常见的现象级数据特征有:频繁出现的数据集,比方说,在超市买啤酒的人总会还买一袋花生之类的;相似的数据项,比方说推荐系统,发现某人和你的口味差不多,系统会向你推荐那个人还买了些什么东西。
Data Mining的误区:
Data Mining最常见的误区就是试图去发现海量数据中不常出现的事件特征,比方说布什政府的TIA(Total Information Awareness)项目曾经尝试从所有用户数据中找出有嫌疑的恐怖分子。
因为在数据量足够大的时候,会出现一些随机的状况,我们却有可能把一些随机的现象当做特征事件对待,从而导致误判。如上面提到的TIA计划,有可能错误的把一个普通人当做恐怖分子给处理了,这是非常危险的。 在统计学界有专家专门研究了如何避免这种误判,这个方法被称作:Bonferroni’s Correction。
其具体原理是:如果在同一数据集上同时检验n个独立的假设,那么用于每一假设的统计显著水平,应为仅检验一个假设时的显著水平的1/n。举个例子:如要在同一数据集上检验两个独立的假设,显著水平设为常见的0.05。此时用于检验该两个假设应使用更严格的0.025。即0.05* (1/2)。该方法是由Carlo Emilio Bonferroni发展的,因此称Bonferroni校正。
分享到:
相关推荐
对于一个企业,最理想的是建立一个类似人类神经系统的数据管理系统,采用各种信息终端采集内部和外部信息,通过分析、归纳、筛选,形成管理数据,某些数据可以成为系统的"本 大数据读书笔记全文共9页,当前为第1页。...
大数据时代读书笔记2021年.pdf
通过阅读这些文档,你可以深入理解大数据技术的工作原理,逐步掌握大数据开发和分析的实战技巧。同时,持续学习和实践是提高技术能力的关键,希望这份笔记能够成为你探索大数据世界的得力助手。
《大数据》读书笔记.docx
主要记录了我阅读架构大数据-大数据技术及算法分析时觉得是重点的知识,涉及以下内容:大数据、云计算、Hadoop、Spark、推荐算法等 ps:请用XMind软件打开
大数据时期读书笔记 大数据时期的三个转变: 1. 能够分析更多的数据,处置和某个现象相关的所有数据,而不是随机采样 2. 不热衷于精准度 3. 不热衷与寻觅因果关系 大数据时期的思维变革: 1. 缘故:没故意识处置...
《走近大数据》读书笔记模板是对大数据技术与应用的详细介绍,涵盖大数据的基本概念、发展历程、技术架构、应用场景、安全性、运维管理等方面的知识点。本笔记模板共分八章,分别介绍了大数据的基本概念、技术架构、...
我们现在做的只是冰山一角,但是由于庞大的数据新来源而带来的定量化方法,将横扫学界、商界和政界,所有领域都将被触及——哈佛大学定量社会研究所主任加里 • 金(Gany King),《大数据》读书笔记ppt模板。
阿里巴巴大数据实践-读书笔记,提纲挈领
根据提供的文件信息,我们可以推断出这是一份关于大数据领域内Hive技术的学习资源,包含视频教程及相关的学习笔记。接下来将围绕这份资料的核心内容——Hive在大数据处理中的应用,进行详细的阐述与解析。 ### ...
GFS大数据论文阅读笔记 概述:GFS(Google File System)是一种大型分布式文件系统,是专门为满足 Google 快速增长的数据处理需求而精心设计的。其核心目标是高效处理海量数据并实现高度可靠的分布式存储。在设计...
ACP大数据笔记,幸辛苦苦整理的,希望大家可以仔细阅读
《大数据与机器学习-实践方法与行业案例》读书笔记&思维导图,看书时做的笔记,分章节写的,比较全,方便查找。
在这份《大数据》PPT读书笔记中,我们得以一窥大数据的全貌,理解其为何能成为推动社会进步的关键力量,同时认识其带来的挑战与未来发展的可能。 首先,大数据的核心特性,即“四V”:体量大(Volume)、多样性强...
1. **Java基础**: Java的基础部分包括语法特性、数据类型、控制结构(如if语句、for循环、while循环)、类与对象、封装、继承、多态等面向对象编程的基本概念。理解这些内容是成为一名合格Java程序员的基石。同时,...
《大数据时代》是一本深入探讨大数据对社会各个领域影响的著作。书中的核心观点强调了在大数据时代,数据处理理念的三个关键转变:全量分析取代抽样分析、追求效率而非绝对精确、关注相关性而非因果关系。这些转变...
读书笔记大纲内容
通过深入阅读这份“大数据笔记”,你将不仅能够了解大数据的基础概念,还能掌握其关键技术,为你的职业生涯或项目开发打下坚实的基础。同时,笔记可能还会包含实践操作步骤、示例代码和项目案例,以助于你将理论知识...
bigdata《大数据时代》读书笔记-精华观点和核心语句.pdf