中山野鬼
发表于 5-4 09:00 7个月前,
17
回/1377阅, 最后回答: 7个月前
原文: http://www.oschina.net/question/249672_52154
先谈数据,其实很简单,就是观测值。例如测量数据。不过大家可能有个误区。认为,客户填写的表单就是数据。对编程序而言,是的。但是不是常规的数据。当然填写的内容,一旦落入的观测空间,则自然就成了数据。
不谈数据,就无以谈数据分析和数据挖掘。由此,上面先说了数据。这里还要说下信息。信息,抽象的说,就是可信的数据。那么这里和数据最大的区别就在于,一个是客观,一个是主观。例如你用尺子量桌子长宽。那么的出的值是数据。这是客观存在的,无论你的尺子是英制还是公制。但对于你而言,你实际上,不会关心实际的长度。通常你会说,我需要个更长的桌子,或者这个桌子,家里放不下,太大了,得买个小的。你不会说,小二,来两尺的桌子。这种主观对客观数据的接受和再描述,就是信息。
区分数据和信息的最大差别,就是我上面说的,主观和客观的差别。如果这个分不清,你做数据分析,和数据挖掘,就失去了意义。那么数据分析,和数据挖掘的差异在于,数据分析是手段,数据挖掘也是手段。。。。别喷我。不是错别字。
数据分析,是对数据的一种操作手段。或者算法。目标是针对先验的约束,对数据进行整理,筛选,加工。由此得到信息。
数据挖掘,是对数据分析手段后的信息,进行价值化的分析。
而数据分析和数据挖掘,又是甚至是递归的。就是数据分析的结果是信息,这些信息作为数据,由去数据挖掘。而数据挖掘,又使用了数据分析的手段。周而复始。。。
估计有人要喷我。你这等于说了白说。哈。有点递归思想好不好。
这里再细化说一下。数据分析和数据挖掘的最大区别在于,数据分析,是以输入的数据为基础,通过先验的约束,对数据进行处理,但是不以结论何如为调整。例如你需要图像识别,这个属于数据分析。你要分析人脸。数据通过你的先验的方法,就是出来个猫脸。你的数据分析也没有问题。你需要默默的承受结果,并且尊重事实。因此数据分析的重点在于数据的有效性,真实性,和先验约束的正确性。
而数据挖掘则不同,数据挖掘是对信息的价值化的获取。价值化自然不考虑数据本身,而是考虑数据是否有价值。由此,一批数据,你尝试对它做不同的价值评估,则就是数据挖掘。此时对比数据分析,最大的特点就是,你需要调整你的不同的先验约束,再次对数据进行分析。而先验的约束已经不是针对数据来源自身的特点,例如信噪比处理算法。而是你期望得到的一个有价值的内容,做先验的约束。以观测,数据根据这个约束,是否有正确的反馈。
说了这么多,恐怕可能还是有人不清楚。我就举两个简单的例子,诸位如果去面数据分析师,或数据挖掘师,不知道怎么回答时,套用我的例子。
1、你打算送女朋友戒指,那么你手上有批品牌和款型名单。你按照价格,风格,材质分类,得出如下结论,钻戒比钢戒贵。大钻戒比小钻戒贵,钢戒款式多。钻戒款式少。OK,这就是数据分析。对于一批数据,根据你的先验约束(按照什么什么划分)获得的结论。
但是,不是最贵的你的女朋友就最喜欢,女人嘛,感性的动物。也不是最贵的你能买的起。这些信息的价值,对你没有意义,你需要的就是用最少的钱,让你女朋友最开心。由此你需要数据挖掘。最优标准就是,最少的投入,最大的开心。OK。你需要先验的去寻找,贵的戒指不买的理由。哪怕从已有数据中得出。比如“钻戒款式少”或者“大钻戒也比钢钻戒要小”。同时你要去问问你的女朋友,你觉得怎么样才开心啊。当然,如果你女朋友来一句“反正看你皮夹胖的可以卡住门,我就不开心”,那你就得继续琢磨,我得找个,刚好投入能让皮夹不卡门的,而且让女朋友开心的。于是,你又去数据分析,此时实际上是用价值的评价标准,对数据进行价值化因此如果你确定了分析方式,则动作确实是数据分析,但是带上你确定价值化的评价标准的动作,就是数据挖掘了。最终,你可以得到一堆理由,即少钱,也让女朋友开心。
2、老婆早上就给你50元,让你买一天的菜。要求鸡猪鱼肉俱全,且蛋菜葱蒜豆品必备。你到菜场,先绕一圈,各个档口拉拉家常,问问价格。猪肉十几一斤,鱼也不便宜。数据分析下来,计算器,劈里啪啦的按,数字长的比韭菜还快。最后得出一价格。这个就是数据分析。根据客观数据,先验的公式,得到的信息。但对你而言,最大的价值是,用最少的钱,满足老婆的要求,还可以截留1元买根棒棒糖吃。那么你就要开始进行数据挖掘了。但是要有评价标准。多少肉算一天的菜量。梅花,后坐,小排,蹄旁。怎么个选法,可以让老婆满意,同时价格落于希望承受的空间范围。青菜白菜都是菜,便宜营养我最爱,于是,接着设定范围。几个轮回,包括中饭怎么配,晚饭怎么配,最终,到腾出一个购买方案,这就是数据挖掘。
简单的说,不谈钱,或者不谈价值,就没有挖掘可言。但凡不谈时,都是数据分析。当然每轮挖掘过程中,又是个数据分析的过程。没有客观数据,没有主观喜好,就没有数据挖掘一说。只有数据分析之为。。
所以切记,别把数据分析和数据挖掘混淆了。对于一些公司,热乎的搞名词概念。你也可以在BS的时候,好好的BS他们一下。
补充个抽象说法,数据分析,就是先决而后知。 数据挖掘就是先知而后决。决断的决。
分享到:
相关推荐
这是《Python数据挖掘课程》系列文章,前面很多文章都讲解了分类、聚类算法,而这篇文章主要讲解如何调用SnowNLP库实现情感分析,处理的对象是豆瓣《肖申克救赎》的评论文本。文章比较基础,希望对你有所帮助,提供...
3. **数据分析**:收集财务数据、销售数据和市场数据,运用统计方法进行处理和分析,揭示企业运营状况和市场表现。 4. **案例研究**:选取典型成功案例进行深入剖析,总结企业的成功经验、面临的问题和挑战。 5. **...
聚类算法广泛应用于数据挖掘、模式识别、图像分析、市场细分等领域。 2. 密度峰值聚类(Density-Based Clustering):这是一种基于密度的聚类方法,它不是通过划分空间来聚类,而是根据数据点的密度分布来确定聚类...
3. 数据分析:遗传算法可以用于数据分析领域,例如数据挖掘、数据预处理等。 Python实现 Python是一个流行的编程语言,具有强大的科学计算和机器学习库。下面是一个简单的遗传算法Python实现: ```python import ...
通过数据挖掘和分析,揭示了教育资源的分布、需求匹配度以及未来发展的潜力和挑战。此外,报告强调了价值观念、能力培养和社会支持在公益慈善教育中的核心作用,通过具体案例分析,提炼出成功项目的实践经验和模式。...
特别是,在江苏电视台新闻频道的实习,我参与了两次全省观众调查,这锻炼了我的数据分析能力和团队协作精神。 协调组织能力是我另一大优势。在XX年全国新闻传播学科研究生学术年会中,我担任会务组总负责人,成功地...
该系列囊括了计算机科学与技术领域的各类顶级会议论文,涵盖了计算机视觉、图像处理、人工智能、图形学、人机交互、数据挖掘等多个研究方向。 在2014年的计算机视觉会议集中,我们可以看到许多知名编辑和编辑委员会...
深度学习是一种人工智能领域的核心技术,它主要涉及神经网络的构建和训练,目的是使计算机系统能够从大量数据中自动学习特征并做出预测或决策。在教育领域,尤其是数学教学中,深度学习的概念被用来改革传统教学模式...
生物信息学则涉及从生物数据中提取有用信息,它通常包括生物序列分析、基因表达数据挖掘和生物网络分析等。 自然计算的研究在理论和实践层面都具有重要价值。在理论上,它帮助人们理解自然界的计算原理,并提出新的...