`

拥抱开源 - 云上元数据管理

阅读更多

上期我们讲述的是实现数据工程师梦想的一个小目标《梦想成真,只差一步》,里面提到了要实现数据超市的管理,数据工程师需要使用合适的工具将数据进行整理、组合、分类后上架,然后业务分析师和数据科学家就可以使用了。

hadoop

在整个数据工程师的工作流程中,需要自始至终的进行数据治理:我们需要将每种类型的数据进行清晰的标识以及分类,以利于其它角色的用户进行查找以及使用;我们需要将每种数据的使用范围进行管理以及监控,以使得数据被合理、合法的使用;我们还要管理数据的生存周期以及质量溯源,以利于数据质量可以被监管,无用数据被清除...... 因此本文中我们将着重介绍上图中标红框的部分,介绍实现我们梦想的工具Open Metadata Services - 开源组件Apache Atlas。

这个模块还在Apache的孵化中,最新的版本是8月16号发布的0.7版本。详细文档可以查看以下链接:http://atlas.incubator.apache.org/

Atlas 最早由HortonWorks实现,用来管理Hadoop项目里面的元数据,进而设计为数据治理的框架。后来开源出来给Apache社区进行孵化,目前得到Aetna,Merck,Target,SAS等公司的支持进行发展演进,IBM现在也积极贡献功能,拿来为我所用。(其在HortonWorks公司的介绍材料链接: https://zh.hortonworks.com/apache/atlas/#section_1 ) 从其诞生历史看,该框架天生就支持横向海量扩展,具备良好的集成能力,非常适合在云上使用。以下是其架构图:

hadoop

Apache网站介绍它的主要功能有:

1、数据分类 ;

2、集中审计 ;

3、搜索及溯源 ;

4、安全及策略引擎 ;

它的最核心部分Core就是类型管理系统 Type System , 用户可以把数据资产进行类型定义,然后使用Ingest/Export 的模块进行元数据的导入、修改、删除等管理。和外界的接口可以通过Rest API或使用Kafaka进行消息交换。数据对象存放在按照图的模式进行管理的Titan图数据库中,具体Titan又把元数据存放在HBase中,索引存放在Solr中。这样用户可以非常便捷和直观的通过层次图进行浏览信息,可以按照文字进行精确的查找。

hadoop

如上图,我们将数据资产分成了五类,分别是:Pipeline、Data Set、Report、Model、Notebook,具体存储的属性是红色框部分,描述了以上五种数据资产的详细信息:例如它是哪类型业务,数据质量如何,归在哪个项目里面,具体评级如何、用户访问权限如何等等......

有了这个Open Data Services服务后,我们是否觉得又离梦想近了一步?更详细的使用我们将在未来文章分享。

IBM对开源社区一直采取大力拥抱以及不遗余力地进行支持的态度:

hadoop

IBM基于Cloud Foundry 打造了世界最大的PaaS平台BlueMix,在上面部署了大量开源的云数据服务业务 - 例如Cloudant源于CouchDB,DataWorks Forge构建在Spark平台之上。现在我们将Atlas开源元数据管理部署到我们的云数据治理中,通过实际使用来促进该项目的大力发展。我们有理由相信,未来IBM 将把开源的魔力继续发扬光大!

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

0
0
分享到:
评论

相关推荐

    docker 安装教程.md

    附件是docker安装教程,文件绿色安全,请大家放心下载,仅供交流学习使用,无任何商业目的!

    数学建模算法与程序大全pdf电子书(司).zip

    数学建模算法与程序大全pdf电子书(司).zip

    使用node+socket搭建一个星铁聊天室

    现代网页聊天应用是一款基于Node.js和Socket.IO的实时聊天系统,旨在为用户提供流畅且互动性强的在线聊天体验。该应用采用前后端分离的开发模式,前端使用HTML、CSS和JavaScript构建用户界面,后端使用Node.js和Socket.IO实现实时通信功能。应用支持文字、表情、图片、音频和视频等多种消息类型的发送和接收,用户可以通过头像选择器更换自己的头像,并且群主还拥有更改聊天室名称的特权。

    IPD研发管理端到端流程详解.pptx

    IPD研发管理端到端流程详解.pptx

    智慧产业园区综合解决方案两份文件.pptx

    智慧产业园区综合解决方案两份文件.pptx

    软件工程数据挖掘期末复习笔记

    软件工程期末复习

    linux内核相关分支的说明资料

    linux内核相关分支的说明资料

    数据融合的艺术:Pandas中的数据合并技术

    Pandas是一个开源的Python数据分析库,用于数据处理和分析。它提供了高性能、易用的数据结构和数据分析工具,非常适合处理表格数据(例如CSV文件、SQL查询结果等)和时间序列数据。以下是Pandas的一些主要特点: 1. **DataFrame对象**:Pandas的核心数据结构,类似于Excel中的表格或SQL数据库中的表,可以存储不同类型的数据列。 2. **Series对象**:一种一维数组,可以存储任何数据类型,每个元素都有一个标签。 3. **强大的数据操作功能**:包括数据过滤、分组、聚合、合并、重塑等。 4. **时间序列分析**:Pandas提供了丰富的时间序列功能,包括时间戳的解析、时间区间的生成、频率转换等。 5. **缺失数据处理**:Pandas提供了处理缺失数据的多种方法,例如填充、删除等。 6. **数据清洗和预处理**:Pandas可以方便地进行数据清洗,例如去除重复数据、数据类型转换、数据对齐等。 7. **数据合并与连接**:Pandas支持多种数据合并操作,如合并(merge)、连接(concat)等。

    商城B2Cweb端自动化测试完整代码pytest,并打包为exe文件可在任何环境执行

    商城B2Cweb端自动化测试完整代码pytest,并打包为exe文件可在任何环境执行

    多态vob练习及参考答案

    多态vob练习及参考答案

    制造业数字化转型之路双份文件.pptx

    制造业数字化转型之路双份文件.pptx

    智慧城市规划建设方案.pptx

    智慧城市规划建设方案.pptx

    论坛万能粘贴手(可将任意文件转为文本)

    该软件可将任意文件转为文本。 还原为原文件的方法:将得到的文本粘贴到记事本,另存为UUE格式,再用压缩软件如winrar解压即可得到原文件。

    数字图像处理大作业,使用MATLAB处理 - 副本.zip

    数字图像处理大作业,使用MATLAB处理 - 副本

    wx235外卖小程序-ssm+vue+uniapp.zip(可运行源码+sql文件+文档)

    本文从管理员、用户和商家的功能要求出发,微信外卖小程序中的功能模块主要是实现管理员服务端;首页、个人中心、食品类型管理、商户信息管理、外卖信息管理、用户管理、商家管理、系统管理、订单管理,商家服务端:首页、个人中心、商户信息管理、外卖信息管理、用户管理、订单管理,用户客户端:首页、商户信息、外卖信息、我的。 管理员服务端;首页、个人中心、食品类型管理、商户信息管理、外卖信息管理、用户管理、商家管理、系统管理、订单管理等。 商家服务端:首页、个人中心、商户信息管理、外卖信息管理、用户管理、订单管理 用户客户端:首页、商户信息、外卖信息、我的等相应操作; 基础数据管理:实现系统基本信息的添加、修改及删除等操作,并且根据需求进行交流信息的查看及回复相应操作 管理员通过点击后台管理,进入页面可以查看首页、个人中心、食品类型管理、商户信息管理、外卖信息管理、用户管理、商家管理、系统管理、订单管理等功能模块,进行相对应操作, 商家通过点击注册页面,进入注册页面填写商家账号、商家姓名、店铺名称、商家性别、联系电话、商家邮箱、店铺地址驾校注册,注册成功可以输入商家账号、密码、角色进行登录相对应操作, 用户登录到首页可以查看首页、商户信息、外卖信息、我的等内容,

    wx285警务辅助人员管理系统-ssm+vue+uniapp.zip(可运行源码+sql文件+文档)

    本警务辅助人员管理系统采用WXML 、WXS、JS小程序编写语言、微信开发者工具进行微信端开发,使用MYSQL数据库进行储存系统数据,以微信为入口的,具有快捷、轻便的特点,不占内存,不用下载、安装,而且访问速度很快。系统界面良好,操作简单方便,通过系统概述、系统分析、系统设计、数据库设计、系统测试这几个部分,详细的说明了系统的开发过程,最后并对整个开发过程进行了总结,实现了警务辅助人员管理的重要功能。 警务员通过微信平台可打开系统,用户要想使用本系统,必须进行登录操作,没有账号的警务员可进行注册操作,警务员注册登录后主要功能模块包括首页、公告信息以及我的(任务信息、出勤信息和考勤信息) 管理员通过微信平台登录系统后,可对系统进行全面管理,包括个人中心、警务员管理、公告信息管理、任务信息管理、出勤信息管理、考勤信息管理、管理员管理以及系统管理 管理员登录后可查看、新增、修改和删除警务员信息;管理员能够增删改查公告信息;管理员可添加、修改和删除任务信息;管理员可查看所有出勤信息,并可添加考勤;管理员可查看、新增、修改和删除考勤信息

    Java和JavaFX中的轻量级浏览器使用NetBeans及源码.zip

    Java和JavaFX中的轻量级浏览器使用NetBeans及源码 项目:Java和JavaFX中的轻量级浏览器 简介 轻量级浏览器是一个使用NetBeans和JavaFX设计的简单基于Web的浏览器,使用Java语言进行验证。这是一个为期末项目制作的简单项目。在这个项目中,你可以使用这个轻量级浏览器上网冲浪。 由于这个项目完全使用Java和JavaFX制作,因此它将是你学期项目的一个很好的选择。 该项目为国外大神项目,可以作为毕业设计的项目,也可以作为大作业项目,不用担心代码重复,设计重复等,如果需要对项目进行修改,需要具备一定基础知识。 注意:如果装有360等杀毒软件,可能会出现误报的情况,源码本身并无病毒,使用源码时可以关闭360,或者添加信任。

    wx238电子竞技信息交流平台-ssm+vue+uniapp.zip(可运行源码+sql文件+文档)

    本基于微信小程序的电子竞技信息交流平台采用WXML 、WXS、JS小程序编写语言、微信开发者工具进行微信端开发,使用MYSQL数据库进行系统数据的储存,以微信为入口的,具有快捷、轻便的特点,不占内存,不用下载、安装,而且访问速度很快。系统界面良好,操作简单方便,通过系统概述、系统分析、系统设计、数据库设计、系统测试这几个部分,详细的说明了系统的开发过程,最后并对整个开发过程进行了总结,实现了电子竞技信息交流的重要功能。 用户进入首页界面可查看游戏资讯信息 用户在英雄界面可查看所有英雄信息,并可选择查看详情 用户在比赛界面可通过战队名称快速查询比赛信息,并可选择查看详情 用户在选手界面可查看所有选手信息,并可选择查看详情 用户可进入留言板界面进行发表留言

    wx242居住证申报系统-ssm+vue+uniapp.zip(可运行源码+sql文件+文档)

    居住证申报系统的设计主要是对系统所要实现的功能进行详细考虑,确定所要实现的功能后进行界面的设计,在这中间还要考虑如何可以更好的将功能及页面进行很好的结合,方便用户可以很容易明了的找到自己所需要的信息,还有系统平台后期的可操作性,通过对信息内容的详细了解进行技术的开发。 居住证申报系统的开发利用现有的成熟技术参考,以源代码为模板,分析功能调整与居住证申报系统管理的实际需求相结合,讨论了基于居住证申报系统管理的使用。 基于居住证申报系统的设计基于安卓手机上运行,可以实现管理员服务端;首页、个人中心、群众用户管理、警方管理、居住证登记管理、回执单管理、领证信息管理、公告栏管理、系统管理等功能。同时也方便警方客户端;首页、公告栏、我的,群众用户客户端;首页、公告栏、我的等详细的了解及统计分析。 管理员通过居住证申报系统进行确认,管理员进入到居住证申报系统主界面,管理员进入到操作界面,通过登录窗口进行在线填写自己的用户名和密码、角色进行登录,登录成功后进入到系统操作界面进行相应信息的获取 管理员进入到界面,通过界面的任务大厅,登录成功后进入到系统可以进行查看首页、个人中心、群众用户管理、警方管理、居住证登记管理、回执单管理、领证信息管理、公告栏管理、系统管理等功能模块,进行相对应操作 群众用户通过登录进入到系统操作界面后,可以根据需求对首页、公告栏、我的等模块进行管理维护操作。群众用户首页页面可以查看首页、公告栏、我的等信息,进行提交操作

    使用 JavaScript 编写的带有源代码的自定义预算应用程序.zip

    项目:使用 JavaScript 编写的自定义预算应用程序(含源代码) 自定义预算应用程序是一个使用 JavaScript、CSS 和 HTML 开发的简单项目。这个项目是一个有趣的项目,用于根据 CRUD 操作计算每月预算。用户可以提供食品、衣服、旅行和其他项目的支出详情,您可以保存预算并存储详细信息。  项目制作 自定义预算应用程序项目仅包含 HTML、CSS 和 JavaScript。谈到该系统的功能,用户可以根据自己的意愿确定收入来源。此外,您还可以添加费用详细信息并计算当月的实际预算。您只需在文本字段中输入项目的名称和金额,然后单击添加按钮即可将信息添加到记录中。该项目包含大量 JavaScript,用于使项目正常运行。 如何运行该项目? 要运行此项目,您不需要任何类型的本地服务器,但需要浏览 器。我们建议您使用现代 浏览器,如 Google Chrome 和 Mozilla Firefox 。要运行此系统,首先,通过单击 index.html 文件在 浏览器中打开项目。 该项目为国外大神项目,可以作为毕业设计的项目,也可以作为大作业项目,不用担心代码重复,设计重复等,如果需要对项目进行修改,需要具备一定基础知识。 注意:如果装有360等杀毒软件,可能会出现误报的情况,源码本身并无病毒,使用源码时可以关闭360,或者添加信任。

Global site tag (gtag.js) - Google Analytics