阅读更多

2顶
0踩

数据库

原创新闻 4个简单的数据管理技巧

2016-06-03 15:57 by 副主编 mengyidan1988 评论(2) 有6825人浏览
引用

原文:4 Tips for Easier Data Management
作者: Diana Shealy
译者:孙思
责编:孙思,关注数据库领域,寻求报道或者投稿请发邮件sunsi@csdn.net,另有「CSDN 高级数据库技术群」,内有诸多知名互联网公司的大牛,欢迎加微信sunlovesi申请入群,备注姓名+公司+职位。

它发生在我们所有人身上,你会收到新的A/B测试结果和需要验证的数据。或者你将最新漏斗分析转化到一个数据应用中,这样就可以不断地收获你努力工作带来的好处。当在检查你工作的时候,你会发现数字没有增加。数据验证是任何与数据密切相关的人的生活的一部分。也类似于跟踪和调试代码,两者都会导致失败和看似丢失工作时间。用实际的例子,我将会给一些提示和技巧,以便在你数据分析时,可以快速识别当中的错误。

不要假设任何事情

只是因为它似乎是正确的,但并不意味着它真的正确。因为我们常会被自己的大脑所欺骗。我已经注意到这种想法,尤其是当分析师在重新开始或产品化地分析。尽管,最初的查询或脚本看起来是一样的,一个更深层次的调查并非如此。

接下来,让我们看一个人们常碰到的问题:更改一个聚合查询。

看看以下两个查询:
SELECT 

     Month, 

     Group1, 

     Group2, 

     Group3, 

     CONCAT(Group1, “-”, Group2) as NewGroup,

     SUM(Usage) as total_usage

FROM usage 

GROUP BY 1, 2, 3, 4, 5

SELECT 

     Month, 

     CONCAT(Group1, “-”, Group2) as NewGroup,

     SUM(Usage) as total_usage

FROM usage 

GROUP BY 1, 2

起初,许多人看到这2个查询后会认为它们实际上是相同的效果。左边的查询仅包含了一些额外的列,对吗?但这并不算什么,在左边查询中有五个级别的聚合,右边仅有两个。由于该组织更加精细化,左边查询将返回更小的总数。这取决于你所做的进一步分析,如窗口函数或甚至过滤,这些额外的组可能会造成严重的破坏。如果你只是把他们放在管道做未来的查询,那么你就不再有不同的分组。

聚合错误是最常见导致数据错误的原因。即使一开始看起来正确,多两遍你就会恍然大悟。

这是一个快速的

由此,我指出另一个常见的数据错误,在过去四年里,我遇到可把快照表作为一位分析师和一位老师。这些都是数据表在给定时间段内 (每月、 每周、 每天),及时采取数码快照。

无论出于何种原因,这些类型的表格牵绊着许多人。首先,他们往往确定性很差。我这里的意思是,对于该表中一个新的消费者,作为快照表不会被立即识别,这样会造成用户误操作数据。一个简单的解决方案是预防诸如命名表来反映其内部结构。

如果你怀疑一个快照表及如何与其一起工作,那么,你可以使用快照表中的最大标识符,所有指标过于夸大。你采取一周后得到的结果数据,看起来是否是大了5-7倍?幸运的是,这是一个简单对这些表进行修复的工作。你可以缩小到一天,就像你时间周期的最后一天或采用最大价值。可参阅下面的例子:

选择一天:
SELECT 

   TD_TIME_FORMAT(time, ‘yyyy-MM’) as MONTH, 

   category,

   usage

FROM usage_snapshot

WHERE TD_TIME_RANGE(time, ‘2016-04-01’)

找到最大值:
SELECT 

   TD_TIME_FORMAT(time, ‘yyyy-MM’) as MONTH,

   category,

   MAX(usage) as total_max_usase

FROM usage_snapshot

你决定如何与快照表工作一致是很关键的。根据上下文和目标,两种处理的方法是有效的。

寻找模式

当调查数据验证问题时,我发现它很有用,试图找到模式中的一些错误。比如,像这样的一些问题:
  • 所有的数据都受到影响吗?
  • 受影响的数据都来自同一组吗?
  • 这些差异是成正比的,还是随机的?
  • 有没有日期的模式?

帮助你缩小一个潜在的原因。如果所有的数据都受到影响,罪魁祸首通常是在脚本或查询中,而不是在数据本身。然而,如果我注意到某个月或某天有明显偏低,我将去调查基础数据。这可能意味着数据收集的问题发生在那个时间段。

如果数据验证往往按比例与原始数据相比,它可能意味着一些数据一直没有被捕获在你的聚合中。基本逻辑错误往往呈现出“随机”,意思似乎没有可识别的模式。然而,这种情况是由于不正确处理或简单,故障逻辑的边缘情况下发生的。

从头开始搜查

你已经尝试了一切,你仍然无法搞明白。现在,是时候开始挖掘了。虽然这很容易从错误的答案开始并且逆向工作,或从这个地方开始你认为这都是错的,但你必须从头开始。

数据中的错误刚开始可能为良性的,但随着你的工作分析,带来的问题是指数变的更差。就像一个数学题:从一开始,找到错的位置。这部分可能繁琐和耗时,但在用完了所有技术后,回到最初状态,观察你的数据是如何一步步的变化的,这有助于查询断点以及断点位置。
2
0
评论 共 2 条 请登录后发表评论
2 楼 cyg1208 2016-06-06 14:47
cyg1208 写道

1 楼 cyg1208 2016-06-06 14:47

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Delphi参考手册Delphi教程

    Delphi参考手册Delphi教程

  • 【编程语言】Delphi使用教程

    Delphi是一个功能强大且灵活的编程语言,适用于构建各种Windows和跨平台应用程序。通过不断学习和实践,您可以充分利用Delphi提供的各种特性和工具来创建高质量、可维护且安全的软件解决方案。

  • Delphi经典入门(CHM)

    一套Delphi入门的CHM教材,只是发现是纯文字版,里面应该有图的地方居然没图,网上也没找到带图片的,将就吧。

  • 万一的delphi博客chm整理

    支持万一的delphi博客,要想看更新的博文请去他的博客。http://www.cnblogs.com/del。

  • Delphi深度历险

    寬達是個熱血青年!熱情表現在他對技術寫作、軟體創作、心得分享、排難解惑上面。 1997.09在網路上發表「拋磚引玉」一文後,我收到寬達的來信,他說看了文章後再也忍 不住,所以寫信給我。我因此結識寬達、達智、匡正、蘇轍等一批Delphi好手。 此後我們一直保有聯絡 -- 通常是我請教他網路觀念以及各種工具的使用居多。寬達精 通的東西多樣,面向很廣;Delphi是他最喜歡也最上手的開發工具,我從他(以及那批 高手)身上,知道了Delphi的神奇魔力

  • Delphi XE10.3 中文学习手册(ObjectPascal语言手册 )

    正在学习XE10 对于我这种英语没过3级的选手 很适合学习中文手册

  • delphi5开发人员指南pdf完整版

    一本学习Delphi的难得的书,原版pdf格式文本。

  • Delphi技术手册中文版.pdf

    Delphi技术手册中文版.pdf 对于初学者来说是一本非常好的书籍

  • Delphi7参考手册-应用编程150例.chm

    Delphi7参考手册-应用编程150例.chm

  • 101_《Delphi5程序员指南》(1/7)

    【共7个压缩包,这是Part1】 本书介绍了Delphi5的各方面内容。全书共分为5部分:第一部分介绍Delphi的基础知识;第二部分介绍常规编程,如常见控件的使用方法等;第三部分为高级编程,如编写动态链接库(DLL)、控制打印机、处理异常、线程编程、文件系统的处理、MDI应用程序和多媒体编程等;第四部分介绍控件编程,详细说明了可视控件(包括常规控件和图形控件)和不可视控件的开发技术;第五部分是数据库编程,介绍Delphi中的数据库应用程序开发技术,这部分通过较复杂的实例,展示如何用Delphi开发大型数据库应用程序。另外,本书还提供了大量丰富的代码实例。 本书适合广大使用Delphi5进行程序开发的用户,对中、高级程序员尤其适用。

  • 在 Delphi 之中调用 CHM

    在 Delphi 之中调用 CHM 帮助的演示.rar 在Delphi中,要调用Chm文件可以通过引用HHctrl.ocx文件的函数HtmlHelpA实现

  • Delphi 7完美经典[中国铁道出版社]432M高清_分8卷压缩.zip.006

    本书针对各个层次的读者的需求,深入剖析了Object Pascal程序语言以面向对象的观点详述了Delphi VCL组件,并在数据库设计方面辅以了实用的范例。

  • Delphi 精华文档 chm版

    Delphi 精华文档 chm版 Delphi 精华文档 chm版

  • Delphi深度历险.rar

    Delphi深度历险.rarDelphi深度历险.rarDelphi深度历险.rarDelphi深度历险.rarDelphi深度历险.rar

  • delphi 2010 手册 中文版

    delphi 2010 手册 中文版 内容全面

  • delphi深度历险这书真的不错.

    http://www.iis.sinica.edu.tw/~cychen/index_c.html  这里下载先要感谢作者无私的公开全部内容! 还期盼看到他写更多的好书语言很顺,虽然是繁体(作者为台湾人),不过毕竟是中文,深入浅出,娓娓道来,看着真的很爽! 友情提示,pdf的比例放大到170%样子看比较好!一路看了一章,对vcl 有了写理解,都说书非解不能读,其实我还有李维那本没看..强烈推荐初学

  • Delphi高级开发指南

    Delphi高级开发指南

  • Visual Basic 2008/2010 高级编程(第5版)(高清PDF 330MB) 1/6

    Visual Basic 2008/2010 高级编程(第5版)(高清PDF 330MB) Visual Basic 2008 2010 高级编程 1/6(共6个分卷压缩文件) 作者:(美)伊夫杰,郝利斯 等著,张敏,丁峰 译 出版社:清华大学出版社 出版日期:2009-6-1 ISBN:9787302200864 页码:1163 -------------------------------------------------------------------------------- Visual Basic 2008版本有了很大的改进,给Visual Basic这个面向对象的流行语言引入了全新的概念、技术和功能。编写本书的优秀团队非常了解学习Visual Basic 2008所面临的挑战。本书内容全面,为在.NET环境下使用Visual Basic 2008提供了一种清晰而简明的方式。.   本书主要介绍了如何在VB解决方案中使用Microsoft提供的最新、最强大的工具,探讨了LINQ、AJAX、新的Visual Studio版本等,使读者能把这些功能应用于自己目前要完成的工作。本书的内容还包括.NET Framework、部署.NET应用程序的最佳方式、数据访问、与其他技术,如COM和XML,的集成。   本书主要内容   ◆ Visual Basic 2008的核心元素,所有新增功能、VB语言提供的所有语法   ◆ CLR在.NET平台上管理已编译代码的执行   ◆ 使用VB创建、安装、运行和调试Windows服务   ◆ 使用新的SQL Server 2008和.NET应用程序   ◆ Windows窗体和Windows Presentation Foundation的许多功能   ◆ 使用LINQ功能的方式   ◆ Silverlight引入的新Web技术   本书适用于希望迁移到VB最新版本的资深开发人员。 内容提要 --------------------------------------------------------------------------------   随着.NET功能的整体增强,Visual Basic 的功能也得到极大提升,应用也越来越广。本书通过大量示例详细阐述了Visual Basic 2008的各种新特性、编程知识和开发技巧,适合希望迁移到Visual Basic 2008编程的高级程序员。   该书与《Visual Basic 2008入门经典(第5版)》以及它们的早期版本一直是中国VB程序员学习.NET技术的优秀图书。   Visual Basic 2008 版本有了很大的改进,给Visual Basic 这个面向对象的流行语言引入了全新的概念、技术和功能。编写本书的优秀团队非常了解学习Visual Basic 2008 所面临的挑战。本书内容全面,为在.NET环境下使用Visual Basic 2008 提供了一种清晰而简明的方式。   本书主要介绍了如何在VB解决方案中使用Microsoft提供的最新、最强大的工具,探讨了LINQ、AJAX、新的Visual Studio 版本等,使读者能把这些功能应用于自己目前要完成的工作。本书的内容还包括.NET Framework、部署.NET应用程序的最佳方式、数据访问与其他技术,如COM和XML的集成。 目录 -------------------------------------------------------------------------------- 第1章 VB 2008核心元素 第2章 对象语法综述 第3章 面向对象编程 第4章 公共语言运行库 第5章 本地化 第6章 泛型 第7章 名称空间 第8章 异常处理和调试 第9章 用ADO.NET 3.5访问数据 第10章 在VB 2008中使用XML 第11章 LINQ 第12章 .NET Framework中的安全性 第13章 Visual Studio 2008 第14章 使用SQL Server 第15章 Windows窗体 第16章 Windows窗体的高级功能 第17章 Windows Presentation Foundation 第18章 集成WPF和Windows窗体 第19章 使用ASP.NET 3.5 第20章 ASP.NET 3.5的高级功能 第21章 Silverlight开发 第22章 Visual Studio Tools for Office 第23章 程序集 第24章 部署 第25章 使用传统的COM和接口 第26章 线程技术 第27章 Windows Workflow Foundation 第28章

Global site tag (gtag.js) - Google Analytics