刚看了这篇博客 http://coolshell.cn/articles/10192.html
看完后, 觉得很有体会, 关于结论部分, 也补充一下自己的感受
综上所述,下面是我觉得数据挖掘或机器学习最重要的东西:
1)数据的质量。分为数据的标准和数据的准确。数据中的杂音要尽量地排除掉。为了数据的质量,大量人肉的工作少不了。
jimmee注: 是的, 不管数据量多大, 数据的质量如何, 噪音如何, 最后能否得出标准化的数据, 对后期的分析至关重要, 如果没有准确的数据, 那么得出的结论可能是相反的. 后期再花费多大的力气, 算法优化都是扯淡.
2)数据的业务场景。我们不可能做所有场景下的来,所以,业务场景和产品形态很重要,我个人感觉业务场景越窄越好。
jimmee注: 不同的业务场景, 可能使用到的算法是完全不同的, 照搬一个通用的算法去处理所有的业务, 基本来说是个愚蠢的行为, 做数据, 对业务的了解是很有必要的.
3)数据的分析结果,要让人能看得懂,知道接下来要干什么,而不是为了数据而数据。
jimmee注: 数据挖掘不是简单的统计, 分析出的数据能用来做什么, 需要能够落地到实处, 而不是想的美好, 对业务却没有任何帮助.
相关推荐
总之,"非常牛的大数据算法"涉及到的是一个复杂而广泛的领域,包括但不限于推荐系统的设计与优化、大数据处理的原理和技术、以及如何利用这些工具和方法解决实际问题。通过深入学习和实践,我们可以掌握这些知识,为...
总之,这项研究结合大数据分析技术和精密的质谱方法,为乳制品行业中乳清蛋白组分的定量分析提供了一种新的、可靠的工具。这不仅提升了对乳制品质量控制的能力,也为食品科学领域的研究开辟了新的道路。未来,这种...
项目负责人聂再清,清华大学国强教授、AIR首席研究员,主要研究领域是大数据与AI的前沿创新,以及在健康医疗领域的产业应用,更早之前则以阿里达摩院大牛、天猫精灵首席科学家为人熟知。 △聂再清 此次开源的...
本篇将深入探讨在C#环境中,如何实现分页功能以优化大数据量的DataGridView显示,以及一些非传统或特别的使用方法。 一、基础概念 1. DataGridView:它是Windows Forms中的一个控件,用于显示表格数据,支持编辑、...
#### 十、大数据时代的病人体征数据量 **知识点:** 在大数据时代,媒体收集到的病人体征、官能等数据的数量为1200个(选项B)。 **拓展:** 随着医疗技术的进步,尤其是可穿戴设备和远程监测技术的发展,越来越多的...
数据挖掘的目标是从大规模数据集中提取有价值的信息,这包括识别数据中的模式、建立预测模型以及发现数据间的重要关联。在这些任务中,Apriori算法作为一种经典的频繁项集挖掘算法,在数据挖掘领域扮演着核心角色。 ...
以下是一些由国内Oracle技术大牛整理的常见问题及其解决方案: 1. **性能优化** - **索引优化**:理解B树索引和位图索引的适用场景,合理创建和使用索引以提升查询速度。 - **SQL调优**:分析慢查询日志,运用 ...
然而,Apriori的主要缺点是对大数据集处理效率低,因为它需要多次扫描数据并生成大量的候选项集。 相比之下,FP-Growth算法采用了分治策略,通过构建FP树(频繁项集树)并在树上进行操作,显著减少了对数据的扫描...
数据挖掘是一种从大量数据中发现有价值模式的过程,而Apriori关联规则是数据挖掘领域中的一个经典算法,尤其在市场篮子分析、购物行为研究等方面应用广泛。Apriori算法的核心思想是通过频繁项集挖掘来找出具有强关联...
数据挖掘在信息技术领域中扮演着至关重要的角色,它是一种从大量数据中发现有价值信息和模式的过程。本讲座主要探讨了模糊集理论在数据挖掘中的应用,由国立高雄大学电气工程系的Tzung-Pei Hong教授讲解。通过分析...
在数据挖掘领域,关联规则学习是一项重要的任务,用于发现数据集中不同项目之间的有趣关系。...然而,随着大数据时代的到来,更高效的关联规则挖掘算法也在不断发展,以适应更复杂和大规模的数据分析需求。
关联挖掘是数据挖掘领域的一种重要技术,其主要目标是从大规模数据中发现有价值的、描述数据项之间相互联系的知识。第五章“关联挖掘”深入探讨了如何从海量数据中挖掘出有意义的关联规则,以及如何评估和利用这些...
根据给定文件的信息,本文将重点介绍关联规则数据挖掘算法,特别是Apriori算法及其改进算法。关联规则挖掘是数据挖掘领域中一个重要的分支,它主要用于发现数据集中的有趣关联或频繁模式。这类规则通常用于市场篮子...
随着数据量的爆炸式增长,能够从大数据中挖掘出有价值的信息显得尤为重要,关联规则挖掘恰好能够满足这一需求。 在关联规则挖掘中,最为常见的表示形式为蕴含式A=>B,其中A和B代表不同的项集,并且这两个项集都是...
《Kafka部署与使用详解》 Kafka是一种分布式流...Kafka的高吞吐量、低延迟特性和强大的消息处理能力使其成为大数据领域的重要组件。在实际应用中,还需要结合Zookeeper进行集群管理,确保服务的稳定和数据的一致性。
总之,关联规则是数据挖掘中的核心工具,它帮助我们在大数据中发现有价值的规律,从而提升决策效率和业务效果。通过深入理解和应用关联规则,我们可以从海量事务数据中提取知识,为商业、社会科学等多个领域带来洞察...
### 运用R做关联度分析 在大数据与人工智能领域,数据挖掘技术是不可或缺的一环。其中,关联分析作为一项重要的探索性分析方法,在...未来,随着数据量的不断增加和技术的发展,关联分析将会在更多领域发挥重要作用。