![1.jpg](https://ucc.alicdn.com/pic/developer-ecology/f922616d832b43518ba467ea2ac1612e.jpg)
**概念**:LADV是DataV内嵌的智能识别设计产品,能够迅速学习和识别手绘草图、信息图表、大屏截图等资料,并在DataV内自动生成可配置的可视化应用。
有了LADV今后人人都能做可视化专家了!
先来看看LADV的效果:
![2.jpg](https://ucc.alicdn.com/pic/developer-ecology/cfcd9d0a51454f468dc3d2a7f7a70925.jpg)
![3.jpg](https://ucc.alicdn.com/pic/developer-ecology/f6ca64530a2c4202832f70478c30a4f7.jpg)
以上例子中,生成的可视化图表,均可以在DataV的环境下做进一步的样式调优和数据接入,最终发布为一个实时数据驱动展示的页面。
1.LADV解决了什么问题?
==============
简单来说,就是大幅降低数据可视化的设计成本。让用户在制作数据可视化应用时,可以将更多的精力投放在前期需求梳理、指标设计,和后期的数据探索、可视分析这些关键环节上。
纵观数据可视化这个垂直领域,包括DataV在内的很多团队都在尝试降低可视化的实现的工程成本(如下图1, 2)。然而除了工程成本本身,数据可视化的设计效率极大的影响了数据挖掘效率。
工业界可视化先驱如Tableau, Power BI等提出的解决方案是为用户提供不同的模版。但模版不可能完全贴合实际使用场景下的需求,很多用户在使用过程中,只能向可视化设计的高门槛以及冗长的制作时间妥协,选择近似的模版来解决。如何让各种背景的用户真正制作自己中意的数据可视化一直是一个难题。而DataV团队研发的LADV——一个基于深度学习的可视化生成系统,通过机器学习可视化案例的风格而生成数据可视化(如下图3),恰恰就是为了解决这个问题而生的。
![4.jpg](https://ucc.alicdn.com/pic/developer-ecology/457dd096e87b441393fb253aa8d86bde.jpg)
2.颠覆可视化设计和搭建流程
==============
2.1 传统流程
--------
数据可视化设计需要多方配合,就DataV举例如下图传统流程,有产品和分析同学进行需求调研,而设计同学会根据所需图表进行高保真设计, 最后会交由前端同学进行还原。这样的流程由于需要多方协同,导致效率变慢。更重要的是,这样的流程致使很多没有设计能力的用户缺少创建属于自己可视化的能力。
![5.jpg](https://ucc.alicdn.com/pic/developer-ecology/e1181a7b06384f7baa9ae254630744ab.jpg)
2.2 LADV优化流程
------------
通过LADV,我们设计了一种新的可视化创建流程。如上图所示,LADV极大减少了传统的设计流程,新的流程支持通过图片进行原型设计及前端还原,并支持后续的设计微调。
3.技术方案
======
3.1.1 图表识别模型技术
--------------
深度学习技术在近些年来得到飞速发展,在不同领域都取得优异的成绩。包括在数据图表分类领域也取得了很大的进展,如学术界的Revision, ChartSense 等。但大多数的模型仅仅能够进行图片分类,而非物体识别(换句话说,不仅进行图片分类,同时识别该类型图片所在的位置)。
现有的方案中最优的也只是能够通过OCR技术识别文字的位置及内容(如下图),很难做到识别图表及图表的位置,如柱状图,饼图等。更何况物体识别所需的图表在可视化图片中的相对位置等信息,更是让这些数据看起来是不可能完成搜集的。
![6.jpg](https://ucc.alicdn.com/pic/developer-ecology/4bef8cdaec914101b6dd1ae708be0fc3.jpg)
然而DataV又恰恰拥有数以万计的数据可视化模版数据,所以我们通过DataV的数据训练了可以识别图表位置及类型的物体识别模型,这也是物体识别模型首次应用于数据图表领域。同时,LADV不仅仅能够识别图表的类型及位置,还可以将可视化界面的颜色进行提取。从而将原案例风格中更多的维度迁移到机器生成的数据可视化界面中。
![7.jpg](https://ucc.alicdn.com/pic/developer-ecology/deb465bff9b549d98c66e48adf5c0062.jpg)
3.1.2 识别结果优化
------------
在得到识别结果的基础上,我们进行了对识别结果的优化。例如我们使用了Grid Design这样的设计规范,来避免由识别导致的布局误差(如上图a,c),并能够将存在布局不规范的原图进行规范。
3.2 颜色识别模型技术
------------
色彩是大屏展示不可或缺的成分之一,在使用颜色时不仅需要考虑美观度和协调性,还需要考虑到可读性。我们将从原始图片中提取颜色并在优化后加以应用。首先,从图片中提取颜色及其相应占比,一般来说在一个大屏中背景色的占比是最大的, 所以使用占比最大的颜色作为背景色。文本颜色将影响大屏的可读性,我们根据WCAG对比度标准计算出使得和背景色对比度达到7:1的文本颜色。接着对提取到的颜色进行过滤,去除背景色相似色和文本色相似色,然后对剩余的颜色进行聚类得到主色。最后使用色板生成方案生成色板并应用于大屏中。
3.3 文字及字体识别模型技术
---------------
在即将发布的版本中,LADV可以支持对文字及字体的识别,同时将识别到的文字及字体还原到生成可视化中。在字体识别中,我们使用了ResNet-18 作为识别的模型。从而实现了能够识别案例可视化中的字体,例如包括衬线体及无衬线体等。LADV同时使用了OCR等传统方案对文字进行了识别。
3.4 识别图表映射
----------
从 LADV 生成 DataV 大屏的过程主要分为两步——大屏基本配置生成和大屏配置优化。首先,我们将 LADV 识别得到的图表类型映射为 DataV 中的组件类型,同时结合图表的位置,使用默认的图表样式配置和数据配置,生成一份“JSON”格式的大屏的基本配置。
在这一步中,我们主要解决了大屏内容和布局的生成,使用默认的样式配置和数据在视觉层面还远不能达到我们的需求,因此我们还要针对这两个部分进行优化。我们将 LADV 识别得到色彩信息作为大屏的主题配色,修改大屏相关色彩配置(如背景颜色和文字颜色),并遍历大屏中的每个组件,应用当前的主题配色,这个步骤使得大屏整体的色彩会更加丰富和和谐。这里需要注意的是,由于手绘稿的色彩相对比较单一,所以我们没有直接提取手绘稿的色彩信息,而是应用了一些内置的主题配色,对生成的大屏进行美化。
除了色彩的优化外,我们根据识别得到的文字信息,修改文字类组件的字体、字号等样式配置,并使用识别得到的文字内容,作为文字组件的数据。完成以上步骤后,我们通过 DataV 提供的大屏生成接口,将最终的大屏配置导入到DataV 产品中生成为可交互的可视化大屏,用户可以在此基础上继续优化,完成最终的数据可视化。
3.5 技术框架总结
----------
在LADV的技术中,我们总结了目前LADV的技术框架,如下图。
![8.jpg](https://ucc.alicdn.com/pic/developer-ecology/654873af4ec347978eb5a8913e8b9aa9.jpg)
4.项目实例
======
4.1 LADV操作演示
------------
我们仅仅需要上传喜欢的数据可视化模版,就可以生成一份已在DataV内编辑好并可交互的可视化界面。同时,我们还可以对该模版进行继续编辑,以达到我们想要的结果。 下图左为选择案例模版页面,同时可以上传图片,并点击右下角上传案例。右侧图片为通过LADV学习而生成的可视化界面,并可在DataV内进行继续编辑。
![9.jpg](https://ucc.alicdn.com/pic/developer-ecology/cc897bec60a74e71a6041991dda88d71.jpg)
与此同时,LADV考虑到有些用户更倾向于优先绘制草图,因为草图可以抽象出不同的设计。所以,我们提供了可以快速将用户手绘的数据可视化草图通过识别来生成可视化界面的方法。通过与浙江大学 CAD实验室合作,DataV收集了近2,000张手绘设计稿,并通过物体识别模型进行训练。
![10.jpg](https://ucc.alicdn.com/pic/developer-ecology/d39a180d35a94e62ae8c6ace16afb1d9.jpg)
4.2 用户反馈
--------
我们在通过谷歌图片搜索,尝试通过搜索3种不同的关键词得到的可视化案例来测试LADV,(1)Power BI, ( 2 ) Tableau, ( 3 ) Dashboard。同时我们还搜集了( 4 ) Tableau Gallery的可视化案例界面 我们发现,除了 Tableau Gallery,用户对所有的图表生成在美观上都给了很高的评价,并且,尽管Tableau Gallery目前美观分数最低(原因为较多infographic案例,不规则图表等),但用户依旧愿意基于LADV生成图去继续搭建,而非从零开始设计可视化的界面。这也意味着,LADV有能力彻底解放我们在可视化设计上的能力。
![11.jpg](https://ucc.alicdn.com/pic/developer-ecology/ce0e2768ec14404199ef45b63101894f.jpg)
可见的将来,我们相信在设计可视化界面时,LADV可以参与到各个环节中。我们真诚的希望,LADV不仅能够帮助用户解决可视化的设计问题,同时能够激起用户对可视化设计的兴趣,进而通过可视化设计及图表布局,颜色等展示维度来影响数据的挖掘。
5.未来期待
======
最后,经过接近一年的努力, LADV通过与国内外学术界不同方式的合作受益良多,如国内可视化先驱浙江大学CAD实验室的陈为教授,并得到了TVCG主编Klaus Mueller教授的合作邀请。
该功能已在企业版和专业版中上线,体验点击链接哦!
链接:[https://data.aliyun.com/visual/datav](https://data.aliyun.com/visual/datav)
本文原作者:言顾
[原文链接](https://link.zhihu.com/?target=https%3A//yq.aliyun.com/articles/721532%3Futm_content%3Dg_1000084426)
本文为云栖社区原创内容,未经允许不得转载。
分享到:
相关推荐
随着大数据时代的到来,数据可视化已经成为数据科学领域不可或缺的一部分。 #### II.1 数据可视化简史 这一章节由 Michael Friendly 撰写,回顾了数据可视化的历史演变过程。从早期的手绘图表到现代计算机辅助的...
Sketchify手绘风格数据可视化工具是一款独特且创新的软件应用,专为将传统的数字图表转换为具有手绘外观和感觉的视觉展示而设计。这款工具的版本v1.0提供了源码,对于学习和理解数据可视化、图形渲染以及前端开发...
深度学习在手绘草图识别中的应用,不仅提高了识别的自动化程度,也为智能设备提供了一种更加人性化的交互界面。随着深度学习算法的不断发展和完善,未来手绘草图识别的准确性和实用性都将得到进一步提升。
综上所述,马良画板不仅仅是一款可视化设计工具,它结合了深度学习和智能化设计,致力于提高用户在数据分析可视化方面的能力,降低了设计的复杂度,缩短了设计周期,并且使得大屏数据展示更加直观和有效。...
跨学科项目化学习是一种教育模式,它强调将两个或两个以上的学科核心概念和能力整合在一起,通过这种方式在不同学科之间建立联系。这种学习方式能够促进学生大脑的发展,实现知识、技能和态度的整合,并唤醒学习者的...
深度学习是机器学习的一种,通过神经网络来学习数据特征。深度卷积神经网络是深度学习的一种,它可以学习图像特征,是计算机视觉领域的常用方法。递归神经网络是深度学习的一种,它可以学习序列数据的特征,是自然...
### 计算机论文英文附录中的可视化编程 ...综上所述,可视化编程作为一种编程范式,正逐渐成为软件开发领域的重要工具之一,其通过图形界面提供更直观的编程体验,有助于提升开发效率及降低学习门槛。
思维导图作为一种有效的思维工具,可以帮助学生组织和可视化信息,增强理解和记忆。在教学中,教师可以引导学生绘制思维导图,如在《典范英语》的课程中,通过手绘和打印结合的方式,让学生参与到板书创作中,体现...
随着深度学习技术的进步,这些问题有望得到解决,使得SketchCode成为未来前端开发不可或缺的一部分。 综上所述,Python-SketchCode是一个利用深度学习进行自动化前端开发的工具,它借助Keras的力量,将手绘的网页...
而"手绘电路原理图组件数据集.zip"则为这一领域提供了宝贵的研究资源,它是一个专门针对电路原理图的手绘图像数据集,旨在推动计算机视觉在电子设计自动化(EDA)领域的应用。 这个数据集的核心价值在于其独特性:...
为您提供Sketchify手绘风格数据可视化工具下载,Sketchify是一个js工具,可将任何包含SVG图形的DOM元素转换为手绘风格的效果。它基于Rough.js。Sketchify用法:将由svg组成的现有图形转换为草图模式。运行以下代码:...
G2 是一套基于可视化编码的图形语法,以数据驱动,具有高度的易用性和扩展性,用户无需关注各种繁琐的实现细节,一条语句即可构建出各种各样的可交互的统计图表.结合工业和学术实践,实现图形语法、动画语法和交互...
该文档是一篇关于人体动作草图到三维骨骼模型重建方法研究的学术论文,文章从深度学习的角度出发,探讨了如何通过手绘草图动作识别来重建三维骨骼模型的过程,以下是该论文所涉及的知识点概述: 1. 深度学习在三维...
1. 创新教学方式:利用多媒体教学设备,如视频、PPT等,创建生动的教学情境,增强学生的学习体验,激发他们的求知欲,从而使课堂成为深度学习的场所。 2. 细研教材,拓展教学内容:教师应深入研究统编教材,设定明确...
手绘草图识别是一个极具挑战性的计算机视觉问题,由于草图本身的特性——通常是二值图或灰度图,缺乏颜色和纹理信息,以及绘制者的个人风格,使得识别工作复杂化。深度学习技术,特别是深度卷积神经网络,为解决这一...
此外,MNIST数据集相对较小且结构简单,使得它成为初学者上手深度学习的理想选择。 总的来说,这个项目涵盖了深度学习的基本概念,包括卷积神经网络的构建、训练和应用,以及使用TensorFlow这一强大的工具。对于想...
快速手绘简笔画图片数据集,每个文件包含1000张图像。数据集由不同类别的图纸组成。每个npy文件都是一个包含28x28黑白绘图的数组。 快速手绘简笔画图片数据集,每个文件包含1000张图像。数据集由不同类别的图纸组成...
cutecharts为Python数据可视化领域提供了更多个性化的选择,它虽然不像Matplotlib那样功能全面,但它小巧灵活,操作简单,对于需要手绘风格图表的场景非常合适。通过这些示例,我们可以看到,cutecharts能够满足一些...
这种技术的核心在于深度学习算法与大量图像数据的结合,通过这种方式,AI不仅能够模仿现有的绘画风格,还能创造出全新的艺术表现形式。 ### 工作原理 AI绘画的工作流程大致分为几个步骤: 1. **数据准备**:首先...