摘要:2019云栖大会大数据&AI专场,阿里巴巴高级研究员贾扬清为我们带来《大数据AI发展的新机遇和新挑战》的分享。本文主要从人工智能的概念开始讲起,谈及了深度学习的发展和模型训练,以及数据的爆发增长,着重阐述了算法、数据和算力的闭环。
[直播回放 >>>](https://developer.aliyun.com/live/1598)
以下是精彩视频内容整理:
* * *
作为一个研究者的身份,在这么多年AI的科研工作之中,有哪些有意思的事情?
说到人工智能,从十几年前我开始做人工智能的时候,我当时认为毕业可能就失业了,我们永远不会像做数据库、系统、架构的人那样容易找到工作。到了2012年之后,我发现人工智能能够找到工作了,不光如此,而且大家还非常想要人工智能方面的人才。从2013年开始,我们常常从各路媒体口中听到人工智能的未来已来。我现在仍然在做人工智能的研究,我认为人工智能的未来也没有那么快到来。所以回想人工智能的这些东西,我一直在想,人工智能困难不困难?我们对于人工智能困难程度的估计是怎么样的?
![image.png](https://ucc.alicdn.com/pic/developer-ecology/c2ed3bccb9c74798a07562f5aed06751.png)
通过翻阅历史书我得知,最早提出人工智能概念的人是麦卡锡,这个预言是做什么呢?让机器使用语言让它来解决现在还只有人能够解决的问题。最重要的一点,既然是一个智能企业,那么它能够自我进化,大家觉得努力一个夏天,就能够取得重大的进展,这是1956年发生的事情。现在我们知道,除了产生了一些人工智能的定义,剩下的什么都没有发生。
![image.png](https://ucc.alicdn.com/pic/developer-ecology/7e8141c427394d659e6b410be3b19697.png)
到了1966年,我们听到一句话:我们有非常好的想法,只差一个程序了。当时有一个教授提出了MIT的夏季视觉计划,要有效的利用夏天实习生来搭建计算机视觉系统的核心来识别物体与背景,以及物体的种类。1966年的夏天过去了,什么都没有发生,1966年我们没有看到无人车,现在也没有看到无人车。
为什么实现人工智能那么困难?人的大脑在功耗上来说只有20W,一个手机是5W的功率,所以人可以做非常多的事情,那么,为什么实现人工智能要那么困难?我最开始做人工智能的时候是从计算机视觉起家的,让我们大概来看一下计算机视觉在这几年做了什么事情。
![image.png](https://ucc.alicdn.com/pic/developer-ecology/ee22244f78264b0f9b0a100d82bfd77d.png)
2012年深度学习流行之前,计算机视觉各种方法都采取了简单的特征来解决问题,处理各种图像,手工计算图像猜测最有用的特征是边,所以我们当时手写了很多的算法,从图片中拿一个小块出来,算一下左边的像素值是多少,右边的像素值是多少,有差别就会有一个竖边,用这样简单的竖边、横边、45度边等手工设计特征来做图像识别。
我们显然知道人在做图像识别的时候,用这样的特征是远远不够的,我们看上面的这个图,它多半能够有一点效果,但是用这样的特征来做自动驾驶系统,我们不敢做,不知道大家敢不敢。
![image.png](https://ucc.alicdn.com/pic/developer-ecology/50b6989be6754f15baaa91f1659a3f9b.png)
2012年开始提出了用更加深度的神经网络和数据驱动的训练来形成更加复杂的、类似于人的视觉系统的计算机视觉模型的想法。它的想法是说,模型像人的大脑一样是分层的,我的收入通过每一层来提取更复杂的信息来形成抽象的概念,每一层神经网络中间都有很多的参数,这些参数是通过大量数据训练来形成的。这样的深度学习方法能够给我们带来非常灵活的设计和非常多的不同领域的应用,从计算机系统到语音到自然处理,几乎所有能够感知到的领域都能够用到深度学习来解决掉。深度学习是机器学习的一部分,并没有像神经网络那么牛,但是在这么多年之中,我们发现并沉淀了很多非常好的算法,比如说决策数和线性模型,它们的计算量不需要有深度学习那么大,但是它们在非常多的领域有非常棒的表现。
![image.png](https://ucc.alicdn.com/pic/developer-ecology/6e0d412b134e4a40af3feadee69e93eb.png)
我们在Flink之中实现特别多的浅层学习模型或者说传统学习模型,今天无论是传统学习还是深度学习,尤其是最近几年的深度学习,给我们带来了算法上非常大的潜力。我们回想一下,最开始手工设计的图像特征,我们发现它最大的限制并不在于我们能够处理多大的数据,有多大的算力,反而是我们的算法本身就是简单的。通过深度学习,通过其它的计算学习算法的进化,我们的算法能够处理更多的数据,可以学到更加复杂的决策,越来越多算法的复杂性就对算力提出了巨大的需求,这个说起来不太有体感,我们还是拿图像来做一个例子。
![image.png](https://ucc.alicdn.com/pic/developer-ecology/c0a42edb60024dad8c897ac0b36257c3.png)
深度学习系统或者说今天所提到的人脸识别、车识别、物体识别,都是基于深度神经网络来做的。在2015年的时候,当时有人提出了一个Resnet模型,能够达到非常好的正确率。那么,Resnet训练一次需要在120万张图片之中进行10的18次方的计算。我当时有一次去伦敦的时候算了一下,如果所有伦敦的人每秒钟能够算一次计算的话,全伦敦需要4千年来训练模型。咱们中国有人多的优势,但也不能这么用。所以通过传统的高性能方式,我们可以把大量的GPU通过高速的网络互联起来,让这些GPU做两件事情:一是每一个GPU领一堆小图片去算一下模型,看每个参数应该怎么样进化,二是通过高速互联,使得GPU可以很快同步模型,确定这个模型应该往这里走或者往那里走,这在传统的高性能计算领域都有非常好的积累,所以今天我们在阿里的平台上通过Eflops+PAI可以实现在3分钟之内训练出这样的resnet模型。最初训练深度学习的时候大概需要7天的时间,Resnet的计算量增加了10倍,在增加的基础上还可以通过软硬件协同的方式,把训练的时间从10天降低为3分钟,所以这就是AI系统和大数据结合所带来的价值。
![image.png](https://ucc.alicdn.com/pic/developer-ecology/f7c35e5f881e4256832cf55d3f3627f1.png)
我们刚才说120万张图片的数据集,在实际的应用之中,我们发现数据的数量是呈指数级的增长,而且是成千上万倍差别的,拍立淘是阿里巴巴用来让用户用手机拍一个图片来看在淘宝之中相似的图片是怎么样的,拍立淘模型训练需要一个PB左右的图像,和现在的图像相比,大了非常多,计算量也大了许多。在我们今天有了大量数据的情况下,不仅是数据量给我们带来了很大的挑战,而且数据的质量也给我们带来了很大的挑战。我们在实验室当中做计算机视觉、语言、图像等等工作的时候,这些数据是比较简单的,我们可以想象一下怎么样存储图片?就是有一个文件夹放一个图片在里面就可以了,但是在实际应用中,我们在做推荐系统的时候,这些数据一定程度上是比较脏的,不是说它比较差,而是它本身需要大量的处理,很多核心推荐算法的来源是用户购买的行为,哪些行为存在log里边,我们需要来理解这个log,通过比较复杂的数据链路来清洗数据,所以我们说算力算法数据的合成是AI的三个要素。
![image.png](https://ucc.alicdn.com/pic/developer-ecology/24d26d463c0247f1b9c0dd8289e55ca6.png)
我们在讲AI的时候会提到算力算法和数据的闭环,但是其实90%的工作是在算法之外的,或者说数据算力之外的,我们在考虑AI系统的时候,谷歌在十几年前就提出了这样的理论,机器学习这件事情就像是一个高息的贷款,最开始觉得非常美好,但是在实际落地的时候,我们需要付的利息或干的事情是非常多的。
我在Facebook工作时,做过手机端的深度学习的训练,手机端的学习是非常多的,模型的压缩、模型的部署、运行速度调优等一系列的东西。有一天早上8点钟我到了办公室,看到有些同学在他的桌子上放了一个测试的手机,它的背后贴了一个小贴纸,贴纸说:昨天还好好的,今天发现重新训练的模型不对了。很多做过深度学习的同学有这样的感觉,今天我们在做深度学习的部署和推理的时候,其实不光是跑一个GPU跑一个训练那么简单,从最开始如何来设置我们的模型和数据输入的链路,数据怎么样去提取特征,到后面怎么样来管理资源,最后怎么来部署,怎么样来管理自己在模型上的想法等等,这是一个非常大的系统工程,不光是说我拿一个CNN的算法放在手机上就行了,今天AI在要落地的时候,不光是有算法,而是要有一系列系统工程的内容。
大数据和AI峰会就是想要给大家分享我们在处理大数据和AI的时候所遇到的问题,所想到的一些心得,所沉淀下来的方法论和能够给大家提供的一系列工具和想法。
![image.png](https://ucc.alicdn.com/pic/developer-ecology/4f1d7181a4f5498c91f6f3a7d29fda8f.png)
飞天大数据平台和AI平台是支撑阿里巴巴所有的应用,我们也和社区、合作伙伴有非常紧密的联系。今天由我抛砖引玉的简单讲了讲一些想法,我希望在各位嘉宾的分享之中,能够更加详细的和大家探讨大数据和AI在将来的走法,我们应该怎么样把算法、数据和算力的闭环真正和产业结合起来落到实处去,这是我想要给大家分享的内容。
[原文链接](https://yq.aliyun.com/articles/722645?utm_content=g_1000085337)
本文为云栖社区原创内容,未经允许不得转载。
分享到:
相关推荐
本文主要围绕“大数据与AI的16种可能”展开,通过2020年阿里云客户最佳实践合集,深入探讨了大数据和人工智能如何在各行各业得到实际应用,并成为企业数据与智能的新基石。在云的时代背景下,我们看到了数据智能技术...
在此背景下,《阿里巴巴大数据及AI实战》一书应运而生,旨在分享阿里巴巴在大数据与人工智能领域的实践经验。 **阿里云智能计算平台事业部总裁贾扬清观点:** - **云计算的价值:**云计算的核心价值在于通过处理...
文档提到在云时代,数据智能技术架构正在被简化,大数据与人工智能技术正逐步发展成为具有系统化、平台化、模块化能力的技术。这种架构的转变让企业能够更好地支撑自身不同发展阶段的需求,成为企业数据与智能的新...
【正文】 《开源大数据前瞻与应用实战》一书聚焦于大数据和人工智能的融合趋势,以及开源技术在这一领域的关键...通过这些先进的技术和策略,阿里云将帮助企业把握大数据与人工智能融合的机遇,驱动业务的创新和发展。
1. 人工智能和深度学习的概述:讲座首先为听众梳理了人工智能尤其是深度学习的发展历程。深度学习之所以流行,是因为它能够在无监督的情况下从数据中自动学习到有用的特征。这一点在图像和语音识别等复杂的任务中尤...
- 阿里云通过上云实践,简化了技术架构,使得大数据和人工智能具备系统化、平台化、模块化的能力,从而满足企业不同发展阶段的需求,为企业数据与智能的发展奠定新基石。 2. 阿里云产品的应用和客户案例: - 文档...
文章首先介绍了阿里巴巴集团副总裁、阿里巴巴开源技术委员会负责人贾扬清的观点,他认为大数据和人工智能的一体化是未来的必然趋势,而人工智能将是大数据业务发展的关键出口。Flink在2020年的技术进步表现在流批...
《贾扬清的Caffe源码深度解析》 Caffe,全称为Convolutional Architecture for Fast Feature Embedding,是由贾扬清(Yangqing Jia)等人在2014年开发的一款深度学习框架,以其高效、简洁和易用性而闻名。贾扬清的...
**Caffe(Convolutional Architecture for Fast Feature Embedding)**是由加州大学伯克利的贾扬清开发的,它是一个清晰、高效的深度学习框架,特别适合初学者。Caffe的特点包括: 1. **代码结构清晰**:它的代码...
这些开源工具的出现,极大地推动了人工智能的发展,使得开发者和研究人员能够更容易地构建和部署AI应用,同时也为企业和社会带来了深远的影响。随着技术的不断进步,我们有理由期待未来AI将在更多领域带来创新和变革...
它是贾扬清在伯克利撰写论文时为学习C++和CUDA而创建的,后来发展成为一个开源项目,被广泛应用于研究和工业界。Caffe的特点在于使用简洁的Google Protobuf定义网络结构,并支持CPU和GPU的兼容执行,这使得模型的...
ChatGPT是一款基于人工智能技术的语言模型,由OpenAI公司开发,自2022年11月推出以来,迅速在全球范围内引发了关注热潮。这款大语言模型因其强大的对话、理解和生成能力,极大地推动了AI技术研发的竞争。短短几个月...
贾扬清作为AI领域的专家,其选择加入阿里巴巴的决定背后,可能蕴含了对阿里巴巴在AI技术应用和创新方面的认可。这种业界大佬的个人选择也反映出公司技术实力和未来发展方向的一个侧面。 ### 华为云智能边缘平台首席...
近日,OpenAI发布声明,向其用户和整个ChatGPT社区道歉,并称将努力重建信任。...阿里巴巴技术副总裁贾扬清3月21日在朋友圈宣布离开阿里,计划瞄准AI架构方向进行创业,要打造一个人工智能平台。 即
* 人工智能和机器学习之间的差异及其重要性 * 机器学习目录:机器学习1 * 机器学习的基础概念和术语 2. 工业级应用: * AliGraph:一个工业级的图神经网络平台 * EdgeRec:揭秘边缘计算在淘宝推荐系统的重要实践 * ...
加韦贾扬,这个名字在上下文中似乎没有特别的IT含义,可能是个人名或者项目名称。不过,既然标签是“HTML”,我们可以围绕HTML这个主题来展开深入的讨论。 HTML(HyperText Markup Language)是用于创建网页的标准...
该公司的目标是通过互联网技术和智能工具升级传统批发商的供应链,优化进货渠道,提高效率,并以此为基础构建一个全面的社区超市网络。 首先,掌心社区的核心业务是为城市一级批发商提供SAAS解决方案,解决他们面临...
硅谷华人科学家 profile贾扬清独家专访AI贾扬清Algorithm花花酱水中的鱼Direct insertion sort张不坏的博客git二分法查找命令的使用LeetCode_Swiftswift算法Learn-AlgorithmsSolutions to LeetCode by Swift时间...
caffe源代码解析、20150531-贾扬清微信讲座完整版、Python接口
### 《阿里云机器学习PAI-DSW入门指南》四大实践场景解析 #### 一、阿里云机器学习概述及...此外,阿里云还不断更新和完善PAI-DSW的功能和服务,使其更加贴近用户需求,助力更多开发者和企业在人工智能时代取得成功。