`
jimmee
  • 浏览: 539826 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

大数据, 数据量大就牛逼么?

阅读更多

刚看了这篇博客 http://coolshell.cn/articles/10192.html

 

看完后, 觉得很有体会, 关于结论部分, 也补充一下自己的感受

 

综上所述,下面是我觉得数据挖掘或机器学习最重要的东西:

 

1)数据的质量。分为数据的标准和数据的准确。数据中的杂音要尽量地排除掉。为了数据的质量,大量人肉的工作少不了。

jimmee注:  是的, 不管数据量多大, 数据的质量如何, 噪音如何, 最后能否得出标准化的数据, 对后期的分析至关重要,  如果没有准确的数据,  那么得出的结论可能是相反的. 后期再花费多大的力气, 算法优化都是扯淡.

 

 

2)数据的业务场景。我们不可能做所有场景下的来,所以,业务场景和产品形态很重要,我个人感觉业务场景越窄越好。

 

jimmee注:  不同的业务场景, 可能使用到的算法是完全不同的, 照搬一个通用的算法去处理所有的业务, 基本来说是个愚蠢的行为, 做数据, 对业务的了解是很有必要的.

 

 

3)数据的分析结果,要让人能看得懂,知道接下来要干什么,而不是为了数据而数据。

 

jimmee注:  数据挖掘不是简单的统计, 分析出的数据能用来做什么, 需要能够落地到实处, 而不是想的美好, 对业务却没有任何帮助.

分享到:
评论

相关推荐

    非常牛的大数据算法

    总之,"非常牛的大数据算法"涉及到的是一个复杂而广泛的领域,包括但不限于推荐系统的设计与优化、大数据处理的原理和技术、以及如何利用这些工具和方法解决实际问题。通过深入学习和实践,我们可以掌握这些知识,为...

    大数据-算法-乳与乳制品中主要乳清蛋白组分的定量分析检测方法研究.pdf

    总之,这项研究结合大数据分析技术和精密的质谱方法,为乳制品行业中乳清蛋白组分的定量分析提供了一种新的、可靠的工具。这不仅提升了对乳制品质量控制的能力,也为食品科学领域的研究开辟了新的道路。未来,这种...

    清华AIR开源轻量版BioMedGPT!聂再清:要做生物医药版ChatGPT

    项目负责人聂再清,清华大学国强教授、AIR首席研究员,主要研究领域是大数据与AI的前沿创新,以及在健康医疗领域的产业应用,更早之前则以阿里达摩院大牛、天猫精灵首席科学家为人熟知。 △聂再清 此次开源的...

    C# c/s 分页 DataGridView 的别类使用方法

    本篇将深入探讨在C#环境中,如何实现分页功能以优化大数据量的DataGridView显示,以及一些非传统或特别的使用方法。 一、基础概念 1. DataGridView:它是Windows Forms中的一个控件,用于显示表格数据,支持编辑、...

    21春北语《移动互联网思维》作业2题目及答案.docx

    #### 十、大数据时代的病人体征数据量 **知识点:** 在大数据时代,媒体收集到的病人体征、官能等数据的数量为1200个(选项B)。 **拓展:** 随着医疗技术的进步,尤其是可穿戴设备和远程监测技术的发展,越来越多的...

    Apriori算法在数据挖掘中的应用.pdf

    数据挖掘的目标是从大规模数据集中提取有价值的信息,这包括识别数据中的模式、建立预测模型以及发现数据间的重要关联。在这些任务中,Apriori算法作为一种经典的频繁项集挖掘算法,在数据挖掘领域扮演着核心角色。 ...

    一个国内Oracle技术大牛整理常见问题

    以下是一些由国内Oracle技术大牛整理的常见问题及其解决方案: 1. **性能优化** - **索引优化**:理解B树索引和位图索引的适用场景,合理创建和使用索引以提升查询速度。 - **SQL调优**:分析慢查询日志,运用 ...

    机器学习、数据挖掘-关联规则详细解释ppt(含案例)

    然而,Apriori的主要缺点是对大数据集处理效率低,因为它需要多次扫描数据并生成大量的候选项集。 相比之下,FP-Growth算法采用了分治策略,通过构建FP树(频繁项集树)并在树上进行操作,显著减少了对数据的扫描...

    数据挖掘apriori关联规则

    数据挖掘是一种从大量数据中发现有价值模式的过程,而Apriori关联规则是数据挖掘领域中的一个经典算法,尤其在市场篮子分析、购物行为研究等方面应用广泛。Apriori算法的核心思想是通过频繁项集挖掘来找出具有强关联...

    传统电脑决策.pptx

    数据挖掘在信息技术领域中扮演着至关重要的角色,它是一种从大量数据中发现有价值信息和模式的过程。本讲座主要探讨了模糊集理论在数据挖掘中的应用,由国立高雄大学电气工程系的Tzung-Pei Hong教授讲解。通过分析...

    一个Apriori的算法

    在数据挖掘领域,关联规则学习是一项重要的任务,用于发现数据集中不同项目之间的有趣关系。...然而,随着大数据时代的到来,更高效的关联规则挖掘算法也在不断发展,以适应更复杂和大规模的数据分析需求。

    第五章 关联挖掘.pdf

    关联挖掘是数据挖掘领域的一种重要技术,其主要目标是从大规模数据中发现有价值的、描述数据项之间相互联系的知识。第五章“关联挖掘”深入探讨了如何从海量数据中挖掘出有意义的关联规则,以及如何评估和利用这些...

    介绍关联规则数据挖掘算法的文章

    根据给定文件的信息,本文将重点介绍关联规则数据挖掘算法,特别是Apriori算法及其改进算法。关联规则挖掘是数据挖掘领域中一个重要的分支,它主要用于发现数据集中的有趣关联或频繁模式。这类规则通常用于市场篮子...

    应宇杰 19151633关联规则挖掘1

    随着数据量的爆炸式增长,能够从大数据中挖掘出有价值的信息显得尤为重要,关联规则挖掘恰好能够满足这一需求。 在关联规则挖掘中,最为常见的表示形式为蕴含式A=>B,其中A和B代表不同的项集,并且这两个项集都是...

    kafka部署和使用详尽PDF

    《Kafka部署与使用详解》 Kafka是一种分布式流...Kafka的高吞吐量、低延迟特性和强大的消息处理能力使其成为大数据领域的重要组件。在实际应用中,还需要结合Zookeeper进行集群管理,确保服务的稳定和数据的一致性。

    数据挖掘课件:第9章 关联规则.pdf

    总之,关联规则是数据挖掘中的核心工具,它帮助我们在大数据中发现有价值的规律,从而提升决策效率和业务效果。通过深入理解和应用关联规则,我们可以从海量事务数据中提取知识,为商业、社会科学等多个领域带来洞察...

    运用R做关联度分析

    ### 运用R做关联度分析 在大数据与人工智能领域,数据挖掘技术是不可或缺的一环。其中,关联分析作为一项重要的探索性分析方法,在...未来,随着数据量的不断增加和技术的发展,关联分析将会在更多领域发挥重要作用。

Global site tag (gtag.js) - Google Analytics