Dataphin帮助企业构建数据中台系列之--萃取数据中心 -

大涛学长

浏览: 119894 次
性别:
来自: 北京

最近访客更多访客>>

carat

kkkzm

shagnxiaoyu1

limengna845567

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Dataphin帮助企业构建数据中台系列之--萃取数据中心

算法阿里巴巴活动

Dataphin作为阿里巴巴数据中台OneData (OneModel、OneID、OneService)方法论的产品载体，帮助企业构建三大数据中心：基于数据集成形成的垂直数据中心、基于数据开发沉淀的公共数据中心和基于标签工厂构建的萃取数据中心。今天我们就一起来看看，Dataphin是如何基于OneID思想构建数据萃取中心，连接上下游应用为企业创造更多价值的吧～

1. 为什么要建立萃取数据中心：提升数据价值密度
    首先，我们来看看Dataphin为什么要帮助企业构建自己的萃取数据中心？

大数据时代，任何微小的数据都可能产生不可思议的价值。作为智能数据构建与管理平台，Dataphin的规范建模、数据处理等核心功能帮助企业高效整合来自不同业务数据库的海量数据，沉淀数据资产，构建自己的数据中台，应对大数据时代Volume（大量）、Variety（多样）、Velocity（高速）方面的挑战。然而，相比于传统的小数据，大数据更大的价值在于从海量不相关的各类数据中，挖掘出对预测分析有参考意义的数据，提升数据价值密度并应用于指导生产，从而帮助企业实现提效降本的目的。Dataphin的数据萃取功能正提供了这样的能力。

从业务视角来看，日常生产和营销活动中，不管是人群圈选、选址还是个性化投放，都离不开标签的指导。标签是对一个实体的立体刻画（不局限于人，任何可被描述和分析的存在都可以是实体，如商品、公司等）。不同维度的标签从不同角度对实体进行描述，例如以零售视角为切入点，我们可以从自然属性（如性别、年龄）、社会属性（如经济状况、婚姻状态）、兴趣偏好（如喜欢整洁的环境、希望有漂亮的牙齿）和行业消费偏好（如美妆偏好、母婴偏好）来对消费者进行描述。高质量、全面的标签能够有效地抽象出一个实体的信息全貌，为精准营销奠定了基础。

数据只有融通才能产生更大的价值，我们不仅希望可以分析和应用大数据，更希望得到通过跨业务单元连接起来的数据和精细化萃取的数据。这种情况下，Dataphin数据萃取模块基于业务数据库的原始数据和建模研发等沉淀的数据资产，将全系统中主数据——即贯穿各个隔离业务的核心对象，进行识别与关联连接，打通业务数据孤岛，进一步提炼可直接应用的高价值标签数据，从而帮助企业构建自己的萃取数据中心，并对接上游应用（QuickAudience等）进一步指导生产营销活动。

1. 如何高效建立萃取数据中心：可视化配置，自动化生产
    Dataphin研发模块下的数据萃取为我们提供了连接行为数据并实现标签萃取的功能，现阶段优先支持以消费者为对象的数据体系，功能模块主要包括3 大部分：ID中心、行为中心和标签中心（目前ID中心暂未上线）。此外，运维模块下还提供单独的萃取运维子模块，支持从业务视角查看萃取相关的调度任务。下面，我们将从几个功能模块的视角给大家介绍Dataphin如何帮助企业构建自己的萃取数据中心。

![image](https://yqfile.alicdn.com/95221d8f99c5611687fcfb363c72554d0071f209.png)

1）ID中心：相关ID自动化识别与连接
Dataphin基于OneID的思想，以唯一标识打通来自不同平台、系统、渠道的数据，支持通过可视化界面参数配置的方式，从所有数据中提炼并基于算法自动识别各类型ID 之间的映射关系（购物会员ID、视频观看者ID、购物设备mac、观看设备IP 等），并将属于同一实体的不同类型ID通过唯一的One ID进行连接，使得基于ID生产的标签可以聚合到同一实体，从而对实体进行更精准、全面的刻画。

2）行为中心：沉淀行为元素，构建行为规则
Dataphin目前支持以人的相关ID 为中心，通过可视化界面表单配置的方式，从来源行为数据中提炼进而聚拢不同业务域下的行为数据（如电商购物、视频观看）。

首先，我们需要从业务视角对行为数据进行梳理，从中提炼出可复用的行为元素（行为域、业务线、动作、对象、对象属性），并通过对行为元素进行组合定义不同的行为（行为域-业务线-动作-对象）。行为域聚合业务含义一致的行为数据，如电商域、文娱域；业务线基于行为域将行为数据进一步细分，各业务线之间相对独立，如淘宝业务线、天猫业务线；动作指行为主体发出的操作，如购买、浏览；对象指行为主体操作的具体事物，如商品、电影；对象属性是对象的描述性信息，如名称、品牌、年份。通过抽取沉淀行为元素，我们可以将来源数据更好地进行划分组合以得到具有明确业务含义的行为，如电商域-淘宝-购买-商品、文娱域-优酷-浏览-电影。通过沉淀行为元素，我们可以更好地规范来源数据，并减少重复建设和人力投入。
![image](https://yqfile.alicdn.com/6f9cc0850533adc985d509a21b4b52d1db93d82d.png)

给同一行为选择不同的来源表并添加配置，即生成不同的行为规则（由行为+来源表唯一确定），后续标签生产将依赖已经构建的行为和行为规则。规则配置主要包括行为主体ID、对象、对象属性和行为发生次数，从来源表选择相应的字段，再通过行为规则的周期调度任务，我们就能得到持续更新的行为数据作为标签生产的来源。
![image](https://yqfile.alicdn.com/d38b7bd4cf39d90566bb0d92684c92fd1b7b14d2.png)

3）标签中心：高效标签生产
构建完成行为和行为规则后，进一步地，我们将基于算法模型，通过简单的界面配置定义标签的生成规则。

标签的配置分为两大步骤：第一步首先基于定义的行为圈选出某标签需要依赖的行为数据，接着对预期得到的标签值和打标方式进行配置；第二步需要对已选的行为数据设置时间衰减模式，并基于业务含义给不同的行为分配不同的权重。例如，我们认为“购买母婴用品”和“观看亲子视频”的用户都可以被打上“母婴人群”的标签，那么第一步，我们将这两种行为相关的数据都勾选出来，设置预期标签值为“母婴人群”；第二步，我们认为近期的行为比之前发生的行为更有参考性，因此选择线性衰减模式，给近期行为赋予更大的时间权重；同时，基于业务经验，我们认为“购买母婴用品”比“观看亲子视频”更能精确定位到目标用户，所以给“购买母婴用品”行为分配更大的权重。这样，我们就完成了“母婴人群”这样一个购物偏好标签的生产。![image](https://yqfile.alicdn.com/c885be3b27cdd45480196c6d9eef183ce1937927.png)

不同于传统标签生产，Dataphin数据萃取的用户只需要关心标签的具体业务含义和规则，而不用关心底层算法的实现，通过简单的界面操作即可完成标签的配置，并自动生成代码和周期调度任务，极大程度上降低了标签生产的难度和门槛。
![image](https://yqfile.alicdn.com/67816a632f6eb72690be0d3d1560cdcc2a12da68.png)

4）萃取运维
最后，我们在萃取模块配置的行为规则和标签都会生成自动化调度的周期任务。在“运维”界面的“萃取运维”子模块下，我们可以从业务视角更清晰明了地查看相应任务和对应生成的实例，并针对异常调度通过补数据等操作回复生产。如此一来，业务人员也可以配置并查看萃取任务，大大降低了对技术人员的依赖。
![image](https://yqfile.alicdn.com/a130f70b3af54245af0355b5ef3a5aaada65c028.png)

1. 总结
    Dataphin数据萃取功能上线后，批量生产十几个同类型的标签的时间从两周缩短到两天左右，而且可以监控标签生产任务，不管是速度还是正确性上都得到了很大的提升；参与的人员也从原本的数据产品经理、数据研发工程师、数据科学家为主导转变为更多的业务角色可以参与甚至主导。

Dataphin萃取数据中心的建立，帮助企业更好的实现了目标对象相关ID 的识别与连接、目标对象所有行为的规范化结构化聚集和目标对象相关标签属性的快速创建，从而快速构建企业自己用户数据资产，以便对接数据应用类产品，实现营销投放等。

看了这些介绍，是不是对Dataphin的数据萃取功能充满了期待和信心？那就快来体验一下吧～更多Dataphin的惊喜等你来挖掘！

结语：
阿里巴巴数据中台团队，致力于输出阿里云数据智能的最佳实践，助力每个企业建设自己的数据中台，进而共同实现新时代下的智能商业！
阿里巴巴数据中台解决方案，核心产品：

Dataphin，以阿里巴巴大数据核心方法论OneData为内核驱动，提供一站式数据构建与管理能力；
Quick BI，集阿里巴巴数据分析经验沉淀，提供一站式数据分析与展现能力；
Quick Audience，集阿里巴巴消费者洞察及营销经验，提供一站式人群圈选、洞察及营销投放能力，连接阿里巴巴商业，实现用户增长。

[原文链接](https://yq.aliyun.com/articles/726135?utm_content=g_1000088925)

本文为云栖社区原创内容，未经允许不得转载。

分享到：

最强CP！阿里云联手支付宝小程序如何助力双 ... | Dataphin数据服务系列之--API 配置、管理和 ...

2019-11-21 17:10
浏览 440
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Dataphin产品白皮书.pdf: OneID则通过标签数据，实现全量实体识别与连接，萃取数据价值，帮助企业构建标签体系，完成核心商业要素的资产化。OneService作为主题式服务，以业务便捷消费数据为目标，快速构建API提供服务，建立统一的数据服务...

阿里巴大数据智能ppt: 同时，Dataphin具备垂直数据中心和全域数据中心的萃取能力，以及垂直数据处理套件、数据采集管理工具、数据清洗及结构化工具、数据同步集成工具等。 Dataphin的关键技术变革体现在其业务逻辑模型的转变上，从物理表...

烟草行业解决方案白皮书.pdf: 针对这些挑战，提出了以阿里云数据中台的Dataphin产品能力为中心的数据中台解决方案。这一方案的核心目标是打造烟草行业数据中台，旨在解决数据全域化、标准化、资产化、价值化、服务化的问题。具体来说，通过搭建...

松下AFPX-C38AT PLC控制双切刀三边封制袋机系统的伺服电机与温控程序解析: 内容概要：本文详细介绍了基于松下AFPX-C38AT PLC平台的双切刀三边封制袋机控制系统。该系统通过PLC控制四台伺服电机进行切刀和移刀动作以及二轴送袋定位，同时管理两台变频器实现主机和放料电机的同步调速，并利用WK8H模块进行16路温控输出。文中展示了具体的PLC编程实例，如伺服电机的DRVI指令、变频器的同步控制、温控模块的PID调节等。此外，还讨论了硬件配置、触摸屏界面设计、通信协议设置等方面的内容，强调了系统的灵活性和稳定性。适合人群：从事工业自动化控制领域的工程师和技术人员，尤其是对PLC编程和伺服电机控制感兴趣的读者。使用场景及目标：适用于需要深入了解PLC控制系统的开发人员，帮助他们掌握伺服电机控制、变频器同步调速和温控模块编程的具体方法，提高实际项目中的应用能力。其他说明：文章不仅提供了详细的编程示例，还分享了许多实际调试的经验和技巧，有助于读者更好地理解和应用相关技术。

计算机审计软件的特点与应用.pdf: 计算机审计软件的特点与应用.pdf

离散傅里叶变换（DFT）分析-Discrete Fourier Transform (DFT) Analysis-matlab: 离散傅里叶变换（DFT）分析函数[F，FT，Phase]=DFT（T，Signal，Fi，FF，Res，P，Cursor）计算离散傅里叶变换（DFT）功能概述：离散傅立叶变换（DFT）分析函数[F，FT，Phase]=DFT（T，Signal，Fi，FF，Res，P，Cursor）是频率域信号分析的通用工具。它在指定的频率范围内计算信号的离散傅立叶变换（DFT），提供可定制的可视化选项。输入 T（采样时间向量，秒）：表示与正在分析的信号样本相对应的时间点。信号：您希望在频域中检查的数据集或信号。 FI（以赫兹为单位的初始频率）：频率分析的起点。 FF（最终频率（Hz）：频率分析范围的上限。 Res（分辨率以赫兹为单位）：确定傅立叶变换的精度。较小的值会增加分辨率。 P（打印选项）： 0：没有生成图。 1：仅显示震级图。 2：显示大小和相位图。光标（在绘图上启用光标）（可选）： 1：当P不

Matlab实现电转气协同与碳捕集的虚拟电厂优化调度系统: 内容概要：本文详细介绍了如何在Matlab中构建一个综合了垃圾焚烧、碳捕集和电转气（P2G）技术的虚拟电厂优化调度系统。该系统旨在通过合理的设备参数设置、多能流耦合约束以及分段碳价机制的目标函数设计，实现环保与经济效益的最大化。文中展示了具体的数学模型建立方法，如设备参数初始化、能量平衡约束、碳捕集与P2G物料平衡、分时碳成本计算等，并讨论了求解技巧，包括变量定义、求解器选择和约束条件处理等方面的内容。此外，还探讨了垃圾焚烧发电占比变化对P2G设备启停策略的影响，以及不同时间段内的最优调度策略。适合人群：从事能源系统优化研究的专业人士，特别是那些熟悉Matlab编程并希望深入了解虚拟电厂调度机制的人群。使用场景及目标：适用于希望提高虚拟电厂运行效率的研究机构或企业。通过本项目的实施，能够更好地理解如何整合多种能源技术，在满足电力供应需求的同时减少碳排放，降低成本。具体应用场景包括但不限于：制定更加科学合理的发电计划；评估新技术引入后的潜在效益；探索不同政策环境下的最佳运营模式。其他说明：文中提到的一些关键技术点，如碳捕集与P2G的协同工作、垃圾焚烧发电的灵活应用等，对于推动清洁能源的发展具有重要意义。同时，作者也在实践中遇到了一些挑战，如约束条件之间的冲突等问题，并分享了解决这些问题的经验。

栈的入栈和出栈.pdf: 入栈和出栈的基本操作

V型永磁同步电机永磁体参数调整与优化技术解析及Maxwell仿真应用: 内容概要：本文详细探讨了V型永磁同步电机中永磁体参数调整的方法和技术，特别是在Maxwell软件中的应用。首先介绍了V型永磁体的关键参数（如V型夹角、磁钢厚度、极弧系数等）及其对电机性能的影响。接着讨论了利用Maxwell进行参数化建模、参数扫描、优化方法（如响应面法、多目标遗传算法）的具体步骤和注意事项。文中还提供了多个实用脚本，涵盖从几何建模、材料属性设置到求解器配置、后处理分析等多个方面。此外，强调了优化过程中应注意的问题，如退磁校验、磁密饱和、涡流损耗等，并给出了一些实战技巧。适合人群：从事电机设计与仿真的工程师、研究人员，尤其是熟悉Maxwell软件的用户。使用场景及目标：帮助用户掌握V型永磁同步电机永磁体参数调整的技术要点，提高电机性能指标（如降低齿槽转矩、减少谐波失真、优化转矩波动等）。通过实例和脚本指导，使用户能够在Maxwell中高效地完成仿真和优化任务。其他说明：文章不仅提供了详细的理论解释，还包括大量实践经验分享和常见问题解决方案，有助于读者更好地理解和应用相关技术。

光伏发电系统仿真：基于扰动观察法的最大功率点跟踪与储能控制策略: 内容概要：本文详细介绍了光伏发电系统的仿真建模及其控制策略。主要内容分为四个部分：首先是光伏发电系统仿真模型的搭建，通过数学公式和Python代码实现了太阳电池特性的模拟；其次，探讨了扰动观察法（PO）作为最大功率点跟踪（MPPT）的方法，展示了其实现逻辑和代码示例；第三部分讨论了带储能控制策略的设计，利用状态机管理储能系统的充放电过程，确保电力供应平稳；最后进行了负载突变验证实验，评估了系统在极端条件下的稳定性和可靠性。通过这些步骤，作者不仅解释了理论背景，还提供了具体的实现细节和技术挑战。适合人群：对光伏发电系统感兴趣的研究人员、工程师以及相关领域的学生。使用场景及目标：适用于希望深入了解光伏发电系统工作原理的人群，尤其是关注最大功率点跟踪技术和储能控制系统设计的应用开发者。目标是帮助读者掌握光伏系统仿真的关键技术，为实际项目提供理论支持和技术指导。其他说明：文中提供的代码片段可以直接用于实验环境，便于读者动手实践。此外，针对可能出现的问题如耦合振荡等，给出了相应的解决方案。

电机设计中8极48槽辐条型转子桥参数化建模与优化（基于Maxwell）: 内容概要：本文详细介绍了8极48槽辐条型电机转子桥的参数化建模方法及其优化过程。通过将桥的厚度、过渡圆弧半径和倒角角度作为变量进行参数化处理，利用Maxwell软件实现了自动化仿真和优化。文中展示了具体的Python和VBScript代码示例，用于动态调整桥部尺寸并监控磁密分布，最终通过参数扫描找到最佳设计参数组合，显著降低了磁密峰值和扭矩波动，提高了电机的整体性能。适合人群：从事电机设计与仿真的工程师和技术人员，尤其是熟悉Maxwell软件的用户。使用场景及目标：适用于需要优化电机转子桥结构的设计项目，旨在提高电机性能，降低磁密峰值和扭矩波动，确保机械强度的同时提升电磁性能。其他说明：文章提供了详细的代码示例和操作步骤，帮助读者快速掌握参数化建模技巧，并强调了网格设置和多参数联动优化的重要性。

风电调频并网系统中高效仿真的4机2区模型及其PSS模式应用: 内容概要：本文详细介绍了用于风电调频并网系统的4机2区模型，该模型能够在短时间内完成长时间跨度的仿真，极大提高了科研和工程分析的效率。文中具体阐述了模型的结构特点，包括两个区域内的发电机组分布、连接方式以及风电场的虚拟惯量控制机制。此外，文章深入解析了四种PSS（电力系统稳定器）模式的工作原理及其在不同工况下的表现，特别是针对风电接入带来的低频振荡问题进行了讨论。通过实例展示了PSS模式对系统稳定性的显著提升效果，并分享了一些实用的调参技巧。适合人群：从事电力系统仿真、风电并网研究的专业技术人员及高校相关专业师生。使用场景及目标：适用于需要进行大规模风电调频并网系统仿真的场合，旨在帮助研究人员更好地理解和解决风电接入对电网稳定性的影响，优化风电并网友好度。其他说明：文章不仅提供了理论分析，还包括具体的Python和Matlab代码示例，便于读者理解和实践。同时强调了在高风电渗透率条件下选择合适PSS模式的重要性。

LabVIEW Excel工具包：高效自动化生成带格式测试报告的方法与技巧: 内容概要：本文详细介绍了如何使用LabVIEW的Excel工具包来高效生成带有特定格式的测试报告。首先，准备一个Excel模板文件，设置好表头样式、公司LOGO和合并单元格，并用特殊标记占位。然后，通过LabVIEW代码进行Excel操作，如初始化Excel应用、打开和复制模板文件、写入测试数据、设置条件格式、调整列宽以及保存和关闭文件。文中强调了使用二维数组批量写入数据、条件格式设置超标数据标红、精确控制列宽、避免文件覆盖等问题。此外，还提到了一些常见问题及其解决方案，如Excel进程卡死、数据错位等。最终，通过这些方法可以将原本复杂的报告生成过程大幅简化，提高工作效率。适合人群：熟悉LabVIEW编程的工程师和技术人员，尤其是从事自动化测试和数据分析工作的人员。使用场景及目标：适用于需要频繁生成格式一致的测试报告的场景，如汽车电子测试、环境监测等领域。目标是通过LabVIEW的Excel工具包实现自动化、高效的报告生成，节省时间和精力。阅读建议：读者可以通过本文学习如何利用LabVIEW的Excel工具包快速生成带格式的测试报告，掌握关键技术和最佳实践，从而提升工作效率。同时，在实践中应注意模板的设计和代码的优化，以应对各种复杂的需求变化。

main (4).ipynb: main (4).ipynb

计算机数学基础(下).pdf: 计算机数学基础(下).pdf

基于MATLAB的多智能体系统一致性算法在电力系统分布式经济调度中的应用: 内容概要：本文详细介绍了如何利用MATLAB实现基于多智能体系统一致性算法的电力系统分布式经济调度策略。首先，通过构建邻接矩阵生成函数，处理电网拓扑结构，确保每个节点能够正确获取邻居信息。接着，定义发电机成本函数和负荷效用函数，将两者统一为二次函数形式，以便更好地兼顾发电侧和用电侧的经济性。然后，重点展示了核心的一致性迭代算法，通过拉普拉斯矩阵实现信息扩散，使发电机和负荷之间的增量成本和效益逐步趋于一致。此外，文中还提供了具体的测试案例，包括10台发电机和19个柔性负荷组成的系统，展示了算法的高效性和鲁棒性。最后，强调了通信拓扑设计对收敛速度的影响，并分享了一些调试经验和潜在的应用前景。适合人群：电力系统研究人员、自动化控制工程师、MATLAB开发者以及对分布式优化算法感兴趣的学者。使用场景及目标：适用于电力系统经济调度的研究与开发，旨在提高调度效率、降低成本的同时保障系统的稳定性。通过分布式算法替代传统的集中式调度方式，增强系统的隐私保护能力和计算效率。其他说明：文中提供的MATLAB代码不仅可用于学术研究，还可以进一步应用于实际工程项目中，特别是在含有大量新能源接入的现代电力系统中，展现出更大的优势。

计算机数控装置课件.pdf: 计算机数控装置课件.pdf

机器人路径规划中RRT算法的优化与改进方案: 内容概要：本文详细介绍了RRT（快速扩展随机树）路径规划算法的多个优化方法及其具体实现。首先指出原始RRT存在的缺陷，如路径质量差、计算时间长等问题。然后提出了一系列改进措施，包括目标偏向采样、自适应步长控制、路径平滑处理以及椭圆约束采样等。每个改进都附有具体的Python代码片段，并解释了其实现思路和技术细节。此外，文中还讨论了不同改进方案之间的协同使用效果，强调了实际应用中的注意事项。适合人群：从事机器人路径规划研究的技术人员，尤其是有一定编程基础并希望深入了解RRT算法优化的人群。使用场景及目标：适用于各种需要高效路径规划的应用场合，如仓储机器人、无人机避障、机械臂运动规划等。主要目标是提高路径规划的速度和质量，同时减少计算资源消耗。其他说明：尽管这些改进显著提升了RRT的表现，但在实际部署时仍需考虑传感器噪声和系统延迟等因素的影响。作者分享了许多个人实践经验，为读者提供了宝贵的参考。

计算机试题实例分析.pdf: 计算机试题实例分析.pdf

基于PLC的自动门禁系统设计与实现：三菱FX3U系列的应用实例: 内容概要：本文详细介绍了利用三菱FX3U系列PLC构建自动门禁系统的全过程。首先阐述了硬件配置方案，包括选用三菱FX3U-32MT作为主控制器，配备多种传感器如红外对射、地磁以及防夹传感器等，并采用适当的执行机构进行门的开闭控制。接着深入解析了梯形图逻辑的设计，涵盖基本开闭逻辑、安全回路设计、滤波处理等方面的内容。文中特别强调了几个关键技术点，如通过定时器控制门的开启时间和防夹保护措施，解决了红外传感器误触发的问题，并引入了GX Works2模拟器用于程序调试。此外，还讨论了如何通过RS485通信接口实现身份验证模块的联网功能及其故障转移机制。最后，作者分享了一些实用的经验教训，例如避免信号干扰的方法和确保系统稳定性的冗余设计。适合人群：从事自动化控制领域的工程师和技术人员，尤其是对PLC编程有一定基础的人群。使用场景及目标：适用于需要构建高效可靠的自动门禁系统的场合，旨在提高门禁系统的安全性、可靠性和智能化水平。其他说明：文中提到的具体案例和解决方案可以为类似项目的实施提供宝贵的参考价值。同时，作者还提供了许多调试技巧和注意事项，有助于读者更好地理解和应用所学知识。

最近访客 更多访客>>