以假乱真，MIT基于深度学习的新算法给视频配音

资讯频道 → 互联网

0顶
0踩

2016-06-28 15:45 by 副主编 mengyidan1988 评论(0) 有6237人浏览

算法 MIT 大数据

声明：ITeye资讯文章的版权属于ITeye网站所有，严禁任何网站转载本文，否则必将追究法律责任！

引用

原文：MIT’s New AI Can (Sort of) Fool Humans With Sound Effects
译者：刘翔宇审校：刘帝伟
责编：周建丁（zhoujd@csdn.net）

神经网络已经在玩游戏方面超过了我们，并且也应用于智能手机照片的管理以及邮件回复方面。此外，它们还能在好莱坞谋得一职。

在MIT的计算机科学和人工智能实验室（CSAIL），一个由6位研究人员组成的小组创建了一套机器学习系统，它可以将声音效果与视频剪辑匹配。别高兴得太早，CSAIL的算法还不能在任何旧的视频上工作，而且它产生的声音效果也是有限的。对于该项目，CSAIL的博士生Andrew Owens和研究生Phillip Isola将他们用鼓槌重击一堆东西录制成视频，包括树桩、桌子、椅子、水坑、楼梯扶手、枯叶，还有肮脏的地面。

该小组将最初的1000个批量视频输入到它的AI算法中。通过分析视频中物体的物理外观，鼓槌的每次运动轨迹，还有最终的声音，计算机能够学习到物理物体和它被击中所发声音之间的联系。然后，通过“观看”物体被鼓槌重击，轻敲和刮蹭时的不同视频，这个系统可以计算出伴随每个剪辑相应的音调、音量以及的声音听觉特性。

视频：https://youtu.be/0FW99AQmMc8

该算法本身不产生声音——它只是从成千上万的音频剪辑数据库中获取数据。此外，声音效果也不是基于视觉匹配来选择；你可以在上面视频中1:20处看到，该算法有自己的创意。它随着沙沙作响的塑料袋来选择声音效果，在灌木从彻底被鼓槌敲击时直接给出声音效果。

Owens说，研究小组使用卷积神经网络来分析视频帧，递归神经网络来选择对应的音频。

它们的学习过程主要来自于Caffe深度学习框架，该项目也由美国国家科学基金会（National Science Foundation and Shell）资助。小组的一名成员在谷歌研究院工作，Owens则是微软研究奖学金计划的一员。

Owens说，“我们几乎已经把现有的深度学习技术运用到了新领域，我们的目标不是开发新的深度学习方法。”

听音辨物
为视频匹配逼真声音是音效师的主要工作领域——后期制作音频向导，他们记录你在一部好莱坞电影中看到（和听到）的脚步声、门的嘎吱声、腾空横踢。

一位出色的音效师可以将声音精确匹配给视频，让观众误以为这声音是实际捕捉到的。

MIT的机器人还没有这么娴熟。该研究小组进行了一项在线调查，为4000名参与者展示了同一视频配上原始音频和算法生成的声音版本，然后让他们选择哪个视频里的声音是真实的。有22%的人选择了假音频——还远不完美，但效果仍是之前版本算法的两倍。

根据Owens所述，那些测试结果是一个好兆头，预示着计算机视觉算法可以检测物体的组成，以及轻敲、重击、刮蹭物体时产生的不同物理效果。不过，还是有些物体系统不能正确处理。有些时候，系统会认为鼓槌在撞击某一物体，但实际上并没有，比起对更坚实物体产生的声音效果，更多的人更容易被对落叶和灰尘产生的声音效果愚弄。

这个项目不仅仅是为了产生有趣的声音效果，它背后还有更深层的原因。Owens认为，如果该系统已经非常完善，那么计算机视觉技术就可以帮助机器人通过分析物体发出的声音来识别它的材质和物理属性。Owens说，“我们希望这些算法通过观察这些物理相互作用以及响应来学习，你可以把它想象成婴儿那样通过敲打、跺脚和玩耍来学习世界。”

查看图片附件

分享到：

0
顶

0
踩

评论共 0 条请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

深度学习算法知识

一、神经网络+卷积神经网络（一）神经网络（Neural ...利用单一算法学习各种决策边界，调节中间层数量以及层的深度，神经网络可学习更复杂的边界特征，而得出更加准确的结果⚠️可以用于回归，但主要应用于分类问题。

人工智能趋势与深度学习算法

人工智能趋势与深度学习算法 1 前沿技术 1.1 Transformer模型: 1.2 BERT模型：基于Transformer Encoder构建的预测模型 1.3 自监督学习(Self-supervised Learning) 1.4 类脑计算(Brain-Inspired Computing) 1.5 AI大...

基于深度学习的配准框架

M和F的意义：点击，仅适用于初学者理解本文重点关注基于深度学习的图像配准框架，根据深度学习的类型分类监督学习和无监督学习。基于监督学习的配准框架上面是二维的例子：将两幅图像对应坐标点进行分块，将...

基于深度学习的图像分割综述

综述：基于深度学习的图像分割传统的图像分割算法基于深度学习的图像分割算法全卷积神经网络（FCN）基于图模型的卷积模型编码-解码模型基于多尺度和金字塔的网络模型基于R-CNN的模型扩展卷积模型和DeepLab族基于循环...

论文总结：基于深度学习的图像风格迁移研究

目录基于深度学习的图像风格迁移研究深度学习图像风格迁移合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片基于深度学习的图像风格迁移研究深度学习图像风格迁移合理...

基于深度学习的超分辨率重建

超分辨率技术（Super-Resolution）是指从观测到的低分辨率图像重建出相应的高分辨率图像，在...基于深度学习的SR，主要是基于单张低分辨率的重建方法，即Single Image Super-Resolution (SISR)。 SISR是一个逆问...

深度学习下的图像分割

深度学习下的图像分割技术汇总

华南理工深度学习与神经网络期末考试_深度学习算法地图

其它机器学习、深度学习算法的全面系统讲解可以阅读《机器学习-原理、算法与应用》，清华大学出版社，雷明著，由SIGAI公众号作者倾力打造。书的购买链接书的勘误，优化，源代码资源PDF全文链接：深度学习算法地图自...

基于深度学习的GAN应用风格迁移

我们可以这样定义:“对抗生成网络(GAN)是一种深度学习模型，模型通过框架中至少两个框架：生成模型和判别模型的互相博弈以学习产生好的输出。” 当然这么说略显抽象，我们不如来看一个有趣的例子：当爱德华·蒙克...

2021年，我们还需要入门深度学习吗？

火热到显卡一度卖脱销(不是因为挖矿)，研究生导师集体推荐学生转深度学习方向、毕业论文不带“深度学习”四个字都毕不了业、大街上随便拉个学生问都认识吴恩达。就这个火的程度，我那会也毅然决然地踏入了深度学习...

《深度学习入门：基于Python的理论与实现》读书笔记：第8章深度学习

8.2 深度学习的小历史 8.2.1 ImageNet 8.2.2 VGG 8.2.3 GoogleNet 8.2.4 ResNet 8.3 深度学习的高速化 8.3.1 需要努力解决的问题 8.3.2 基于GPU的高速化 8.3.3 分布式学习 8.3.4 运算精度的位数缩减 8.4...

【项目实战全解】基于深度学习与自然语言处理的AI文本生成（自动写作）

文章目录一、项目演示：1：诗歌创作2：律诗与绝句3：小说篇4：自己的...技术改变生活，从高中就听闻自动写文章技术，没曾想，竟然已经做到以假乱真的地步！今天来详解一下我接触过的文本，文本生成，机器问答，阅读理

低成本单发单收激光测距传感器方案详解：硬件设计、代码实现及应用案例

内容概要：本文详细介绍了低成本单发单收激光测距传感器的一站式解决方案，涵盖硬件设计、软件实现及其应用。硬件部分基于STM32F030F4P6芯片，搭配激光发射管和APD接收模块，通过精心设计的信号调理电路确保高精度测量。软件部分展示了关键代码片段，如初始化、测距算法和ADC配置，采用改进型飞行时间法（ToF）并通过DMA优化数据处理效率。此外，文章还讨论了调试过程中遇到的问题及解决方案，如环境光干扰和PCB布局优化。最终，该方案实现了0.05-50米范围内±1.5mm的测距精度，适用于多种应用场景。适合人群：电子爱好者、硬件工程师、嵌入式系统开发者。使用场景及目标：① DIY爱好者可以通过本方案进行个人项目的开发；② 企业可以基于此方案进行商业产品的开发，降低成本；③ 教育机构可以用作教学案例，帮助学生理解激光测距原理和技术实现。其他说明：文章不仅提供详细的硬件和软件设计方案，还包括BOM清单、供应商信息和调试指南，有助于快速实现和优化项目。

基于麻雀算法优化LSTM的时间序列预测——MATLAB实现及应用

内容概要：本文详细介绍了将麻雀算法（SSA）应用于LSTM参数优化的方法及其MATLAB实现。首先，通过生成带噪声的正弦波数据模拟真实场景的数据扰动，然后定义适应度函数用于评估LSTM模型的表现。接着，利用麻雀算法的发现者和跟随者角色进行参数优化，最终实现了比随机调参更好的预测效果。文中不仅提供了完整的代码实现，还讨论了参数设置的经验值以及一些实用技巧，如数据归一化、早停机制和并行加速等。适合人群：对机器学习尤其是深度学习有一定了解的研究人员和技术爱好者，熟悉MATLAB编程环境。使用场景及目标：适用于需要提高时间序列预测精度的任务，如金融数据分析、天气预报等领域。主要目标是通过引入生物启发式的优化算法来提升LSTM模型的性能。其他说明：文中提到的麻雀算法能够显著减少人工调参的工作量，并且相比传统的网格搜索法更加高效。此外，作者还分享了一些实践经验，帮助读者更好地理解和应用这一方法。

西门子Smart200 PLC实现高效星三角降压启动子程序及应用

内容概要：本文详细介绍了使用西门子Smart200 PLC实现高效的星三角降压启动子程序的方法。作者分享了具体的编程技巧，包括参数化的外部配置、定时器的巧妙运用以及故障处理机制。文中展示了完整的主程序调用示例和子程序内部逻辑，强调了模块化编程的优势，使得不同电机可以轻松复用相同的子程序，极大提高了调试和维护效率。此外，作者还提到了一些常见的调试陷阱和优化建议，如避免星三角同时导通、合理设置切换时间和加入硬件互锁等。适合人群：从事PLC编程、自动化控制领域的工程师和技术人员，尤其是那些希望提高编程效率和代码复用性的从业者。使用场景及目标：适用于需要频繁进行电机星三角降压启动的工业应用场景，如纺织厂、水泥厂等。主要目标是通过模块化编程减少重复劳动，提升系统稳定性和响应速度。其他说明：文章不仅提供了详细的代码示例，还分享了许多实践经验，帮助读者更好地理解和应用这些技术。

2025中国数字营销趋势报告.pdf

威纶通MT6071iP一机多屏控制信捷PLC的技术实现与应用

内容概要：本文详细介绍了如何利用两台威纶通MT6071iP触摸屏控制一台信捷PLC的具体步骤和技术要点。主要内容涵盖硬件连接、触摸屏设置、PLC编程、调试与优化等方面。文中不仅提供了具体的配置方法，如通讯参数设置、画面设计、宏指令处理等，还分享了许多实际操作中的经验和注意事项，如地址分配、数据同步、通讯稳定性提升等。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些需要实现多屏协同控制PLC系统的工作者。使用场景及目标：适用于需要提高生产线上设备操作便捷性和监控灵活性的场合。通过一机多屏设置，可以在不同位置对同一PLC进行控制，方便现场操作和远程管理。其他说明：文章强调了硬件连接细节、通讯参数一致性、PLC编程逻辑的重要性，并提供了一些实用技巧，如宏指令处理、心跳检测、防呆设计等，帮助读者更好地理解和实施该项目。

0顶0踩