大数据:用对象数据库引擎探索全球气候变暖问题
我们不能把北极塞进关系型数据库里面。这是研究世界各地的冰雪气候的大卫加拉赫在设计一个解答基础性问题的系统时发现的,这个问题就是:“全球变暖是如何影响南极和北极的?”。
加拉赫的研究开始与格陵兰岛的大约66万平方英里的冰层覆盖区域。事实证明,在如今传统的关系型数据库的黄金时代,有一种被人们忽视的技术,利用这种技术能够更好的完成对格陵兰30年的大数据的探测任务。其中包括一天三次的卫星扫描,产生的数据量几乎是PB级规模的任务。这项技术便是将数据作为对象来处理的面向对象的数据库管理系统- 来自于Versant公司的对象数据库引擎。
“这些数据对于Oracle或者传统的关系型数据库来说太过庞大了,很容易在数据装载的时候导致系统崩溃。”位于科罗拉多大学博尔德分校的国家冰雪数据中心(NSIDC)IT服务部经理加拉赫说。为处理那些非常适合表结构的连续性数据的报告和分析而设计的关系型数据库是无法展示陵兰岛上冰的历史变迁过程的。
作为一个经过专业训练的地理学家,加拉赫是这一项目的主要负责人。该项目总投资为60万美元,由国家科学基金会拨款,目的是要建立一个可以处理几十亿比特时序信息(以统一的时间间隔测量的数据序列)的系统,并使这些信息通过互联网可以被世界各地的研究人员获取。加拉赫说,“我们必须转向这样的模式,它能更方便地去分析数据,而不是将数据转成分析所用。”
数据如此庞大,以至于国家冰雪数据中心(及其数据收集合作伙伴,国家航空航天局)只将元数据放在关系数据库中。数据本身存储在目录树下,在研究人员要了解如什么、哪里和何时等关键问题时才会被提取出来——如果研究人员要分析原因的话,那就更费力了。由于文件太大,如果一个研究人员想要知道,例如,冰的反射率,或是反射属性——冰颜色的深浅,反射率的高低或反射变化的快慢,可能要花上好几个星期的时间才能得到想要的数据。(属性是面向对象技术中用来表示持久化数据的专业术语。)
“然后他们还必须写出些什么来整理他们手中的信息。如果他们很幸运,通过运算,才有可能在经费用完之前可以得到一些结果,”加拉赫表示,“我们认为,必须要找到其它的解决办法。”。
被遗忘的面向对象数据库
IDC负责信息管理及数据集成软件研究的副总裁,Carl Olofson表示,面向对象数据库技术一直被人们误解——甚至在数据库社区中也常常被人们误解——人们认为这种技术已经过时,只局限在一些特殊的领域应用之中。这可能是因为制定收集数据和制作报表的数据库标准的工作重点放在了关系数据库上。
为了充分利用对象数据库,必须建立映射其属性结构的对象模型。“要完成这项工作需要有一定的抽象思维,”Olofson说,“IT公司可能会感到他们并没有时间来进行这样的分析。”。
但是观念是在不断更新的。用对象数据库引擎能够更好地将现在各个企业想通过时间和空间范围追踪的复杂数据和复杂结构的类——例如,社交网络中的人与人之间的关系——进行存入和检索。目前,诸如Versant,GemStone Systems(该公司最近被VMware Inc.收购了)以及Objectivity Inc.这样的供应商正在赢得更多企业和程序员关注的目光。
Olofson表示,“最基本的一点,对象数据库在对大数据领域中建立秩序,同时不丢失任何信息上是十分有用的。”
新的NoSQL技术与此有一定的相关性,也提供了许多便利,但是这些技术缺少用户基础和行业标准。Olofson举了个例子,例如Hadoop擅长数据的初始输入,但是创建某种结构化输出却是它的短板。
能够时间旅行的“数据棒”
加拉赫表示,对象数据库应用成功的关键在于知道你想要解决的问题。此外,说服已经习惯关系数据库的数据库管理员停止从表的角度来思考也是一大挑战。Gallaher以及小组成员——两个研究生和一位教授(兼职)——想出了一个被他们称作为数据棒的结构。这里面包含了几十亿个像素,作为一个固定区域的整体时间记录观察。
他解释说,“把数据棒看作是由片组成的一个堆,每一片都代表了几个小时,这个堆现在有30英尺高。”以反射率为例,您可以要求系统“告诉你哪些‘片’的颜色比其它片的颜色深,颜色深的片发生了什么情况。如果有了有趣的发现,你也可以要求系统告诉你临近的对象的情况。”
加拉赫表示,“这其中的亮点就是,我们不要把它看作是一个图像,相反,你应该把它看作是一个跨越时间的棒。我们把它看作是一个巨大的3维矩阵。”
出于效率(以及可恢复性)的原因,格陵兰所有的数据棒以五年为一个时间段,包含了多个数据库。加拉赫说:“你可以查询所有的数据库。如果你愿意的话,你可以把这些数据库当作一个“棒”来用”。通过使用VQL, 即Versant查询语言(他认为这一语言对于外部用户类似SQL),了解一段时间的变化就变得相当直接明了。
加拉赫说:“对于我来说,向人们解释最佳的方法就是把数据棒看作是对一个无限时间长度的记录,在这个时间维度上你可以随时随地了解你想知道的情况。”
加拉赫之前在对Hadoop以及类似的技术做了大量的调查之后,他认为Versant数据库能够完成他想要的工作。Versant数据库可以处理他们所需要的任何大小的数据。“我们问的问题包括巨大的区域,繁多的时间点,大量的变量,以及要求在几秒中内得到响应或者被缓存等等,”他又补充道,“现在我们几个小时内所做的事情,以前要花上六个月,这绝不是玩笑。”
分享到:
相关推荐
在日常的开发和使用中,我们经常需要借助各种小工具来提高工作效率,例如快速启动常用的应用程序、管理文件等。一个简单但功能强大的集成工具箱可以帮助用户快速访问、启动并管理程序。今天,我们将以Python为基础,结合Tkinter和Win32API,开发一个类似Windows快捷方式的工具箱应用,能够让你轻松集成各种常用程序并一键启动
django自建博客app
《基于YOLOv8的智慧校园实验室高压灭菌锅安全联锁系统》(包含源码、可视化界面、完整数据集、部署教程)简单部署即可运行。功能完善、操作简单,适合毕设或课程设计
用于hifi测序数据的基因组组装程序
Microsoft Access 2010 数据库引擎可再发行程序包AccessDatabaseEngine-X64解压后的文件AceRedist
从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例
自然语言处理之TF-IDF算法与TextRank算法的缠绵_textrank,tf-idf和两者的组合-CSDN博客.html
内容概要:2023版《科学智能 (AI4S)全球发展观察与展望》阐述了AI for Science(AI4S)在全球范围内的最新进展及其对科学和工业的深远影响。文章首先回顾了AI4S在过去一年中的快速发展,特别是在药物研发、材料科学、地质学、污染治理等多个领域的应用实例。AI4S通过结合深度学习、机器学习和其他AI技术,加速了从基础研究到实际应用的转化过程。例如,在药物研发中,AI4S帮助科学家克服了“反摩尔定律”的挑战,提高了新药研发的成功率;在材料科学中,AI4S实现了复杂材料的高效模拟,如人造钻石、石墨烯、碳纳米管等;在地质学中,AI4S通过模拟地球内部结构和物理过程,为地震学研究提供了新视角。此外,文章还探讨了大语言模型(LLMs)与科学方法的结合,指出LLMs不仅能辅助科学研究,还能生成新的科学假设并进行逻辑推理。 适合人群:具备一定科研背景或对AI技术感兴趣的科研人员、工程师、政策制定者及高校师生。
这个数据集包含了日常步数统计、睡眠时长、活跃分钟数以及消耗的卡路里,是个人健康与健身追踪的一部分。 该数据集非常适合用于以下实践: 数据清洗:现实世界中的数据往往包含缺失值、异常值或不一致之处。例如,某些天的步数可能缺失,或者存在不切实际的数值(如10,000小时的睡眠或负数的卡路里消耗)。通过处理这些问题,可以学习如何清理和准备数据进行分析。 探索性分析(发现日常习惯中的模式):可以通过分析找出日常生活中的模式和趋势,比如一周中哪一天人们通常走得最多,或是睡眠时间与活跃程度之间的关系等。 构建可视化图表(步数趋势、睡眠与活动对比图):将数据转换成易于理解的图形形式,有助于更直观地看出数据的趋势和关联。例如,绘制步数随时间变化的趋势图,或是比较睡眠时间和活动量之间的关系图。 数据叙事(将个人风格的追踪转化为可操作的见解):通过讲述故事的方式,把从数据中得到的洞察变成具体的行动建议。例如,根据某人特定时间段内的活动水平和睡眠质量,提供改善健康状况的具体建议。
框架结构天城商业办公楼5200平米(建筑图 结构图 计算书 开题报告 任务书 文献翻.zip
柴油机连杆加工工艺及夹具设计.zip
读书网首页的HTML信息
文字渐变颜色代码生成器:让文字绽放多彩魅力,演示:在信息交流日益丰富的今天,个性化的文字展示成为吸引目光的关键。这款文字渐变颜色代码生成器,便是为满足这一需求而生的绿色软件,无需安装,便捷实用。 它的操作极为简便。用户只需在软件界面中输入想要转换的文字内容,接着从丰富的色彩选项里挑选心仪的起始颜色与结束颜色,随后轻轻按下 “转换按钮”,神奇的事情就此发生 —— 适用于论坛、网页、QQ 空间等多种平台,以及自定义格式的渐变颜色代码便会即刻生成。不仅如此,生成的代码还能自动复制到剪切板,极大地节省了用户手动复制的时间。当你在论坛回帖、更新网页内容或是装扮 QQ 空间时,只需轻松粘贴代码,原本单调的文字瞬间就能拥有绚丽的渐变色彩,瞬间脱颖而出,为你的表达增添独特魅力,让文字不再平凡,轻松成为视觉焦点。 一款可以轻松把一段文字生成渐变颜色代码的绿色软件,当你在软件中输入完要转换的文字后,只需要挑选自己喜欢的起始颜色、结束颜色后,按一下―转换按钮即可生成相应的论坛/网页/QQ空间以及自定义格式代码,并且代码可以自动复制到剪切板中,回帖时直接粘贴代码即可不错得文字代码生成器,让你得文字更加漂亮.
1.【锂电池剩余寿命预测】Transformer锂电池剩余寿命预测(Matlab完整源码和数据) 2.数据集:NASA数据集,已经处理好,B0005电池训练、B0006测试; 3.环境准备:Matlab2023b,可读性强; 4.模型描述:Transformer在各种各样的问题上表现非常出色,现在被广泛使用。 5.领域描述:近年来,随着锂离子电池的能量密度、功率密度逐渐提升,其安全性能与剩余使用寿命预测变得愈发重要。本代码实现了Transformer在该领域的应用。 6.作者介绍:机器学习之心,博客专家认证,机器学习领域创作者,2023博客之星TOP50,主做机器学习和深度学习时序、回归、分类、聚类和降维等程序设计和案例分析,文章底部有博主联系方式。从事Matlab、Python算法仿真工作8年,更多仿真源码、数据集定制私信。
资源内项目源码是来自个人的毕业设计,代码都测试ok,包含源码、数据集、可视化页面和部署说明,可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源,毕设答辩评审绝对信服的保底85分以上,放心下载使用,拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务,拿来就能用的绝对好资源!!! 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.txt文件,仅供学习参考, 切勿用于商业用途。
资源内项目源码是来自个人的毕业设计,代码都测试ok,包含源码、数据集、可视化页面和部署说明,可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源,毕设答辩评审绝对信服的保底85分以上,放心下载使用,拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务,拿来就能用的绝对好资源!!! 项目备注 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可用于毕设、课设、作业等。 下载后请首先打开README.txt文件,仅供学习参考, 切勿用于商业用途。
Android项目原生java语言课程设计,包含LW+ppt
配套文章:https://blog.csdn.net/gust2013/article/details/146909670?spm=1001.2014.3001.5502