摘要: 近两年,神经机器翻译(NMT: Neural Machine Translation)技术异军突起,翻译质量取得大幅提升。但不幸的是,NMT 系统的训练成本非常高,限制了这一技术的大范围使用。 阿里翻译团队通过使用阿里云机器学习平台PAI实现了模型训练效率5倍的飞跃,并已应用在英俄电商翻译质量优化项目中。
近两年,神经机器翻译(NMT: Neural Machine Translation)技术异军突起,翻译质量取得大幅提升。但不幸的是,NMT 系统的训练成本非常高,限制了这一技术的大范围使用。
阿里翻译团队通过使用阿里云机器学习平台PAI实现了模型训练效率5倍的飞跃,并已应用在英俄电商翻译质量优化项目中。
1,什么是NMT
NMT一词的出现要追溯到2014年9月1号,加拿大蒙特利尔大学Bengio教授研究组在开放论文网站arxiv上发布了他们最新的研究成果『neural machine translation by jointly learning to align and translate』,NMT进入了人们的视野。
他们设计了一组神经网络,使用一个编码器将源语言句子编码为一个向量,然后使用一个解码器对该向量进行解码,产生译文。同时,引入了注意力机制进一步提高译文质量。
2,阿里翻译如何使用PAI
在阿里巴巴内部,阿里翻译负责为1688国际站、全球速卖通等提供多语言服务,中国卖家填写的一些中文信息会被机器自动翻译成多国语言。该团队同时还为钉钉、东南亚电商Lazada等提供服务。
去年,他们首次将NMT技术应用在通讯场景下。虽然翻译质量取得很大的提升,但模型训练耗时太长。3000万的训练数据在单块GPU卡上一般需要训练20天以上,才能得到一个初步可用的模型。
之后,他们尝试在阿里云机器学习平台PAI上开发支持分布式训练的NMT系统,并于3月底完成了第一个版本。在英俄电商翻译质量优化项目中,分布式NMT系统大大提高了训练速度,使模型训练时间从20天缩短到了4天。
图:使用不同卡数时,在中英100万训练语料上获得的收敛加速比
现在,阿里翻译团队还在破解线上服务处理延时的难题,为神经网络机器翻译模型的大规模应用扫除最后障碍。
3,PAI是什么
PAI是阿里巴巴“NASA”计划发布的首个重磅工具,可完全兼容全球主流的深度学习开源框架。同时,底层提供强大的云端异构计算资源,包含CPU、GPU、FPGA。在GPU方面,可灵活实现多卡调度。
在阿里巴巴内部,PAI已经被广泛使用。淘宝搜索使用PAI的参数服务器,可以把百亿个特征的模型,分散到数十个乃至于上百个参数服务器上,打破规模瓶颈。最终实现搜索结果基于商品和用户的特征进行排序。
在过去的一年时间里,阿里云协助客户落地了多项重大的人工智能应用。但人工智能要想真正成为成为普惠技术,需要一件人人可用的生产工具。PAI正是为此而生。
分享到:
相关推荐
**阿里云机器学习平台(PAI)**是阿里巴巴集团推出的一个面向企业级用户的综合性机器学习平台,它提供了包括数据预处理、模型训练、模型部署等一系列完整的机器学习流程支持。随着深度学习技术的蓬勃发展,对高效、...
阿里云机器学习平台PAI是阿里巴巴推出的一款专为大数据和人工智能领域设计的高效能平台,由高级产品专家刘吉哲在2017年广州云栖大会上进行了深入讲解。该平台旨在为企业提供全面的机器学习解决方案,以应对各种实际...
阿里云机器学习PAI(Platform for AI)- Data Science Workbench(DSW)是一个全面集成的云端大数据分析和机器学习平台,专为数据科学家和工程师设计。本指南将引导你逐步了解并掌握如何使用PAI-DSW进行高效的数据...
"阿里云专有云Enterprise版机器学习PAI V3.3.0用户指南" 该文档为阿里云专有云Enterprise版机器学习PAI V3.3.0用户指南,提供了机器学习PAI产品的使用指南和法律声明。 法律声明 阿里云提醒用户在阅读或使用本...
阿里云机器学习组件PAI用户手册,机器学习PAI组件说明。
6. **机器学习PAI**:机器学习PAI是阿里云为企业级用户提供的一套全面的机器学习平台,它可能涵盖了模型训练、模型部署、数据预处理、算法库等多个方面,旨在简化机器学习流程,提高效率。 7. **技术优势**:PAI...
阿里云专有云 Enterprise 版机器学习 PAI V3.1.0 运维指南。 本文档是阿里云专有云 Enterprise 版机器学习 PAI V3.1.0 的运维指南,旨在帮助用户了解和使用机器学习 PAI 产品。该文档涵盖了机器学习 PAI 的产品架构...
阿里云专有云企业版V3.12.0的机器学习PAI技术白皮书为用户提供了全面的技术介绍和操作指导,帮助用户在阿里云的专有云环境中构建、训练和部署机器学习模型,从而提升业务智能化水平。通过深入了解和运用这些技术,...
"阿里云专有云Enterprise版机器学习PAI V3.1.0 产品简介" 本文档是阿里云专有云Enterprise版机器学习PAI V3.1.0的产品简介,旨在为用户提供机器学习PAI的概况和功能介绍。下面是本文档中所包含的知识点: 1. 机器...
阿里云专有云Enterprise版V3.5.0的机器学习PAI用户指南是一份详细介绍如何使用阿里云机器学习PAI平台的文档。该指南旨在帮助用户理解和掌握PAI的各项功能,以便在企业环境中有效地进行数据挖掘、模型训练和预测分析...
阿里云人工智能平台 PAI 是一个基于大数据和人工智能的统一管理资源平台,旨在提高人工智能资源的运营效率和科学计算能力。该平台通过结合 Dataworks 大数据和 PAI 智能计算集群,实现了分布式 AI 计算和资源效率的...
阿里云专有云Enterprise版机器学习PAI V3.1.0 技术白皮书 阿里云专有云Enterprise版机器学习PAI V3.1.0 技术白皮书是阿里云提供的一份详细的技术白皮书,旨在帮助用户了解机器学习PAI技术的各个方面。该白皮书包含...
阿里云专有云企业版V3.8.0的机器学习PAI用户指南是一份详尽的文档,旨在帮助用户理解和使用阿里云的机器学习平台。该指南适用于那些希望利用机器学习技术提升业务效率和洞察力的企业和个人。以下是其中涵盖的一些...
本文将详细介绍阿里云机器学习PAI平台在驾驶行为识别上的应用。 驾驶行为识别是智能交通系统中的一个关键组件,其目的是识别和分析驾驶员的行为,以提高交通安全和效率。驾驶行为识别可以分为两大类:基于传感器的...
阿里云专有云企业版V3.12.0中的机器学习PAI产品是一个为企业级用户提供强大、高效、易用的机器学习平台。这个产品旨在帮助企业快速构建、训练和部署机器学习模型,以提升数据分析能力和业务智能化水平。以下是对产品...
阿里云专有云企业版V3.9.0的机器学习PAI运维指南是一份针对阿里云用户的重要文档,旨在帮助用户理解和维护阿里云提供的机器学习平台PAI。该文档适用于2019年10月17日的产品版本。以下是对其中关键知识点的详细解释:...
《阿里云专有云企业版 V3.12.0 机器学习PAI 运维指南》是针对阿里云专有云企业版中机器学习PAI平台的运维人员提供的一份详尽的操作和管理指南。该文档适用于V3.12.0版本,旨在帮助用户理解和维护这个平台,确保其...
PAI,全称为Platform for AI,是阿里云提供的一种全面、便捷、高效的数据智能计算平台,旨在帮助企业快速构建和部署机器学习模型,实现数据驱动的决策和创新。 1. **产品概述**: 机器学习PAI提供了丰富的机器学习...
阿里云专有云企业版V3.8.2的机器学习PAI用户指南是一份详细介绍如何使用阿里云机器学习平台的文档,适用于2020年12月17日的产品版本。该指南包含了多个关键知识点,旨在帮助用户有效地利用PAI进行数据处理、模型构建...