`
jimmee
  • 浏览: 541083 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

大数据, 数据量大就牛逼么?

阅读更多

刚看了这篇博客 http://coolshell.cn/articles/10192.html

 

看完后, 觉得很有体会, 关于结论部分, 也补充一下自己的感受

 

综上所述,下面是我觉得数据挖掘或机器学习最重要的东西:

 

1)数据的质量。分为数据的标准和数据的准确。数据中的杂音要尽量地排除掉。为了数据的质量,大量人肉的工作少不了。

jimmee注:  是的, 不管数据量多大, 数据的质量如何, 噪音如何, 最后能否得出标准化的数据, 对后期的分析至关重要,  如果没有准确的数据,  那么得出的结论可能是相反的. 后期再花费多大的力气, 算法优化都是扯淡.

 

 

2)数据的业务场景。我们不可能做所有场景下的来,所以,业务场景和产品形态很重要,我个人感觉业务场景越窄越好。

 

jimmee注:  不同的业务场景, 可能使用到的算法是完全不同的, 照搬一个通用的算法去处理所有的业务, 基本来说是个愚蠢的行为, 做数据, 对业务的了解是很有必要的.

 

 

3)数据的分析结果,要让人能看得懂,知道接下来要干什么,而不是为了数据而数据。

 

jimmee注:  数据挖掘不是简单的统计, 分析出的数据能用来做什么, 需要能够落地到实处, 而不是想的美好, 对业务却没有任何帮助.

分享到:
评论

相关推荐

    非常牛的大数据算法

    总之,"非常牛的大数据算法"涉及到的是一个复杂而广泛的领域,包括但不限于推荐系统的设计与优化、大数据处理的原理和技术、以及如何利用这些工具和方法解决实际问题。通过深入学习和实践,我们可以掌握这些知识,为...

    大数据案例:啤酒尿布的关联算法怎么来的?.docx

    是一个典型的关联规则挖掘案例,该案例来自美国沃尔玛连锁超市,故事背景是通过大数据分析发现尿布与啤酒这两种风马牛不相及的商品的销售数据曲线竟然初期的相似,于是就将尿布与啤酒摆在一起,没想到这一举措居然使...

    大数据-算法-乳与乳制品中主要乳清蛋白组分的定量分析检测方法研究.pdf

    总之,这项研究结合大数据分析技术和精密的质谱方法,为乳制品行业中乳清蛋白组分的定量分析提供了一种新的、可靠的工具。这不仅提升了对乳制品质量控制的能力,也为食品科学领域的研究开辟了新的道路。未来,这种...

    清华AIR开源轻量版BioMedGPT!聂再清:要做生物医药版ChatGPT

    项目负责人聂再清,清华大学国强教授、AIR首席研究员,主要研究领域是大数据与AI的前沿创新,以及在健康医疗领域的产业应用,更早之前则以阿里达摩院大牛、天猫精灵首席科学家为人熟知。 △聂再清 此次开源的...

    C# c/s 分页 DataGridView 的别类使用方法

    本篇将深入探讨在C#环境中,如何实现分页功能以优化大数据量的DataGridView显示,以及一些非传统或特别的使用方法。 一、基础概念 1. DataGridView:它是Windows Forms中的一个控件,用于显示表格数据,支持编辑、...

    21春北语《移动互联网思维》作业2题目及答案.docx

    #### 十、大数据时代的病人体征数据量 **知识点:** 在大数据时代,媒体收集到的病人体征、官能等数据的数量为1200个(选项B)。 **拓展:** 随着医疗技术的进步,尤其是可穿戴设备和远程监测技术的发展,越来越多的...

    Apriori算法在数据挖掘中的应用.pdf

    数据挖掘的目标是从大规模数据集中提取有价值的信息,这包括识别数据中的模式、建立预测模型以及发现数据间的重要关联。在这些任务中,Apriori算法作为一种经典的频繁项集挖掘算法,在数据挖掘领域扮演着核心角色。 ...

    一个国内Oracle技术大牛整理常见问题

    以下是一些由国内Oracle技术大牛整理的常见问题及其解决方案: 1. **性能优化** - **索引优化**:理解B树索引和位图索引的适用场景,合理创建和使用索引以提升查询速度。 - **SQL调优**:分析慢查询日志,运用 ...

    机器学习、数据挖掘-关联规则详细解释ppt(含案例)

    然而,Apriori的主要缺点是对大数据集处理效率低,因为它需要多次扫描数据并生成大量的候选项集。 相比之下,FP-Growth算法采用了分治策略,通过构建FP树(频繁项集树)并在树上进行操作,显著减少了对数据的扫描...

    数据挖掘apriori关联规则

    数据挖掘是一种从大量数据中发现有价值模式的过程,而Apriori关联规则是数据挖掘领域中的一个经典算法,尤其在市场篮子分析、购物行为研究等方面应用广泛。Apriori算法的核心思想是通过频繁项集挖掘来找出具有强关联...

    传统电脑决策.pptx

    数据挖掘在信息技术领域中扮演着至关重要的角色,它是一种从大量数据中发现有价值信息和模式的过程。本讲座主要探讨了模糊集理论在数据挖掘中的应用,由国立高雄大学电气工程系的Tzung-Pei Hong教授讲解。通过分析...

    一个Apriori的算法

    在数据挖掘领域,关联规则学习是一项重要的任务,用于发现数据集中不同项目之间的有趣关系。...然而,随着大数据时代的到来,更高效的关联规则挖掘算法也在不断发展,以适应更复杂和大规模的数据分析需求。

    第五章 关联挖掘.pdf

    关联挖掘是数据挖掘领域的一种重要技术,其主要目标是从大规模数据中发现有价值的、描述数据项之间相互联系的知识。第五章“关联挖掘”深入探讨了如何从海量数据中挖掘出有意义的关联规则,以及如何评估和利用这些...

    介绍关联规则数据挖掘算法的文章

    根据给定文件的信息,本文将重点介绍关联规则数据挖掘算法,特别是Apriori算法及其改进算法。关联规则挖掘是数据挖掘领域中一个重要的分支,它主要用于发现数据集中的有趣关联或频繁模式。这类规则通常用于市场篮子...

    应宇杰 19151633关联规则挖掘1

    随着数据量的爆炸式增长,能够从大数据中挖掘出有价值的信息显得尤为重要,关联规则挖掘恰好能够满足这一需求。 在关联规则挖掘中,最为常见的表示形式为蕴含式A=>B,其中A和B代表不同的项集,并且这两个项集都是...

    kafka部署和使用详尽PDF

    《Kafka部署与使用详解》 Kafka是一种分布式流...Kafka的高吞吐量、低延迟特性和强大的消息处理能力使其成为大数据领域的重要组件。在实际应用中,还需要结合Zookeeper进行集群管理,确保服务的稳定和数据的一致性。

    数据挖掘课件:第9章 关联规则.pdf

    总之,关联规则是数据挖掘中的核心工具,它帮助我们在大数据中发现有价值的规律,从而提升决策效率和业务效果。通过深入理解和应用关联规则,我们可以从海量事务数据中提取知识,为商业、社会科学等多个领域带来洞察...

    运用R做关联度分析

    ### 运用R做关联度分析 在大数据与人工智能领域,数据挖掘技术是不可或缺的一环。其中,关联分析作为一项重要的探索性分析方法,在...未来,随着数据量的不断增加和技术的发展,关联分析将会在更多领域发挥重要作用。

Global site tag (gtag.js) - Google Analytics