阅读更多
近日,有道发布了一项全新的翻译服务——人机翻译,通过自研的神经网络翻译技术(YNMT),让翻译的价格创了新低。

早在2011年,有道就推出了专业的人工翻译服务,这项服务由具有翻译资格的译员提供高质量的翻译结果。而比起纯粹的人工翻译,此次发布的有道人机翻译最大的不同之处在于它把有道神经网络翻译(Youdao Neural Machine Translation,YNMT)和专业人工翻译结合在了一起,处理翻译需求时,首先由YNMT进行初步翻译,在机器翻译结果的基础上,由专业译员对初译结果进行编辑润色,大幅度提高了翻译效率,同时价格降低了50%。

有道人机翻译这项翻译模式上的创新,得益于有道在人工智能上的突破以及在人工翻译领域多年的积累。

事实上,网易有道研发两年之久的YNMT早已在有道翻译官及有道e读中上线。用户打开有道翻译官,在设置中选择神经网络翻译Beta版;或者下载有道e读,使用整句翻译功能,就可体验到神经网络翻译。

从技术角度来看,与传统的基于短语的翻译相比,YNMT能够对整个句子进行编码,更充分地利用上下文信息,判定多义词的词义,生成较高质量的译文。

传统机器翻译,就是把一个固定的字词或者词组翻译成目标语言。根据剑桥大学自然语言处理(NLP)组的陈村在一篇文章中的描述,传统机器翻译界的主流方法都是 Phrased-Based Machine Translation (PBMT),此前连 Google 翻译使用的也是基于这个框架的算法。所谓基于词组,就是将原语句中的话拆成词组,在对应词组进行逐一翻译,最后再把顺序汇总成目标语言的一句话。

比如说“今天我想吃蛋糕”,可能会被机器拆解成“今天”、“我”、“想”、“吃蛋糕”。PBMT 翻译模式会将这几个词逐一做翻译,然后根据自然语言处理重新排序,最后所呈现的结果让它看起来像一句话。所以这也解释了为什么在使用机器翻译的时候会出现大量的语序问题、以及对应词汇的翻译根本没有结合段落上下文的问题。

而基于神经网络的翻译模式是近年来发展的一个大方向,深度神经网络结构去直接学习拟合 源语言 到 目标语言 的概率。

通俗来说,传统统计机器翻译(SMT)的处理过程,更像一堆模块的组合、翻译、分词、调序等每条细分的“流水线”各司其职,最后把这些模块通过设定的机制组合起来,输出翻译结果;而 神经网络翻译(NMT) 的框架会将需要翻译的原文看做一个整体,实现了以句子为整体的上下翻译环境,在单句中翻译结果更加具有逻辑性,尤其是当一个长句子出现时,这种翻译模型就比更传统的 PBMT 更加有序。

搞定了 NMT 结构框架,然后就要依赖数据喂养。比如传统通用模型可以选择中英文对照版本的书籍,而有道在新闻语料和英语学习类语料这两个方面来源数据更多,所以他们的模型训练在这方面更成熟。

与传统的基于短语的翻译相比,有道宣布 YNMT(Youdao-NMT) 翻译质量的提升是 SMT 过去两年累计提升的总和,YNMT(Youdao-NMT)在新闻类语料和英语学习类语料两方面的的盲测 BLEU 值(代表准确度)甚至超过了 GNMT(Google-NMT)。(备注:BLEU 值是一种代替人工的、针对翻译工作的自动评价方法。)

究其原因,词典是网易有道的传统优势,词条数据庞大,解释准确。借助这一优势,再加上有道有针对性的优化,YNMT对英语学习类语料的翻译结果更加精准。这一类的翻译需求的特点是,原文规整,句式不太复杂,对准确率要求很高。在该类数据上的盲测结果中,有道YNMT翻译的BLEU值超过GNMT 3.24个百分点。

新闻类语料翻译是另外一个常见的需求,它的特点是,长句经常出现,句子结构复杂而且夹杂着大量人名地名。在这类数据上,YNMT同样表现不俗,BLEU值能够达到34.72,比谷歌领先了2.27个百分点。这对于翻译结果,是非常大的提升,直接关乎读者能否理顺句子逻辑。

机器翻译仍是一个未解决的难题

网易有道首席科学家、YNMT技术带头人段亦涛也坦言,神经网络翻译在全球范围内,都属于非常尖端的技术,虽然已有一定成果,但还远未达到完善的地步。和机器学习其他领域类似,机器翻译的效果是和数据密切相关的。在一个场景下有作用的技术,在另外一个数据集合上不见得表现好。这对开发者来说,很多时间都是“摸着石头过河”。

有道YNMT目前的技术突破,的确让开发者们感到振奋,但要将这样高质量的神经网络翻译结果拓展到更多领域,还有很长的路要走。机器翻译作为AI的核心难题之一,还远没有达到被完全解决的地步。

随着有道人机翻译的推出,凭借其快速、准确以及高性价比已快速吸引到了一批优质用户,尤其是十万字以上需求的机构用户。有道人机翻译可以极大提高翻译速度,帮用户节约成本。例如,美国某医学论坛需翻译10万条医学问答,共计约400万英文单词,使用有道人机翻译服务,20天时间即完成稿件交付;而针对网易考拉这类跨境电商平台,有道人机翻译也能够迅速翻译海外商品介绍,且能保证翻译结果准确无误。

更多人工智能精彩内容,可关注以下微信订阅号和加入技术专家群。
  • 大小: 197.6 KB
  • 大小: 214.9 KB
  • 大小: 145.1 KB
  • 大小: 69.2 KB
0
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • 制作签名cab文件

    最近做directshow插件,用于网页,参照别人的cab做法,自己做了下,ocx文件需要有版本信息。1.编写inf文件,例如your.inf    signature="$CHINA$"    AdvancedINF=2.0[DefaultInstall]AddReg = AddReg[Add.Code]    your.ocx=your.ocx    ;Start of ffd

  • ActiveX控件打包成Cab、数字签名、证书制作步骤,带源码Demo和所需工具

    一、准备工作下载makeCAB下载IExpress:用于制作CAB(比较好用,有界面)二、制作CabFROMYANTAI.dll为ActiveX控件选择cab保存路径三、证书制作及签名cmd切换到makeCAB目录然后输入如下命令:makecert /sv "RemtCard.pvk" /n "CN=公司名称" -r RmtCard.cer弹出如下界面:输入密码后确定再输入刚才设置的密码,点确定后...

  • CAB文件打包以及制作证书签名

    一、CAB文件打包 请参考http://jingyan.baidu.com/album/c74d60007cc74e0f6a595d3c.html?picindex=1 二、证书及签名制作 1、在cmd中定位到makecert.exe目录,然后输入如下命令: makecert /sv "RemtCard.pvk" /n "CN=公司名称,E=www.zhaishenghuo.net,O=公

  • XMl Schema校验

    1.Schema概要 XML是可扩展标记语言,也就是说其中的节点标记设置由... 这次学习中,运用的XML校验是通过XML Schema(XSD)。其本身是一个XML文档,所以必须满足XML文档结构。在每个Schema文档中必须包含一个根元素。

  • java校验xml_Java通过XML Schema校验XML

    Java通过XML Schema校验XMLJava通过XML Schema校验XMLXML的校验在XML处理中非常常见,如果没有有效的办法来校验XML的合法性,往往会导致很多问题。XML的校验是通过XML Schema(XSD) 或DTD文件的语法规范来校验的。DTD...

  • java schema校验_Java通过XSD(XML Schema)校验XML

    使用正确的XML文件自动生成XSD校验文件a.xsd,需要借助第三方jar包trang.jar,执行命令java -jar trang.jar a.xml a.xsd3.Java代码实现package nnn;import java.io.File;import javax.xml.parsers.SAXParser;import ...

  • 使用Schema对XML进行校验

    Java XML javax.xml.validation.Validator JDK Oracle IBM

  • java通过schema校验xml

    之前在做项目时时常需要通过一些“小xml”传输或存储一些信息,...然后我就想不是有schema这种xml描述语言吗,那应该也可以在代码里用它进行校验xml… 在实现使用schema校验xml这个目标前,你首先得自己会根据自己的x

  • xml 文档校验之 xml schema学习

    在项目工作中,我们要对生成的 xml 文档进行规则校验,看生成的文档是否符合我们的模板文档,简单的方法是是编写 XSD 文档。 XSD是指 XML结构定义 ( XML Schemas Definition ) XML Schema 是DTD的替代品。XML Schema...

  • XML Schema验证

    XML Schema验证 一、什么事Schema(XSD)  XML Schema是微软定义的一套用来验证XML技术。是一套预先规定的XML元素和属性创建的,这些元素和属性定义了XML文档的结构和内容模式。  DTD的局限性:  1、DTD不...

  • 关于一个xml schema校验问题的解决办法

    今年的一个项目用到了xml的schema校验。但是在使用的过程中遇到了一个问题: schema在控制字符串长度的时候用的是字符个数,比如 "abc" 和 “我爱你” 的长度都是3。但是按照字节来算。它们的长度是不一样的。 如果...

  • Java实现xml文件的xsd校验(schema校验)

    JDK中的javax.xml包中有能进行schema校验的类库,但只能返回true或false,无法给出确切的错误信息。 Dom4j中给出了几种schema校验的思路,本文实现其中一种。 Dom4j在github上的文档地址是:...

  • Javat通过XML Schema 校验XML文件

    XML的校验在XML处理中非常常见,如果没有有效的办法来校验XML的合法性,往往会导致很多问题。XML的校验是通过XML Schema(XSD) 的语法规范来校验的。

  • 用xerces-c来进行xml schema校验

    在xerces-c的官方网站上有文章指引说明是如何进行xml schema校验。http://xerces.apache.org/xerces-c/schema-3.html 给出的例子代码: // Instantiate the DOM parser. XercesDOMParser parser; parser....

  • 使用 Schema xsd 文件校验 xml 文件格式

    【代码】使用 Schema xsd 文件校验 xml 文件格式。

  • XML Schema 简介

    xml 学习

  • xml schema 详解

    1. xml schema 是定义 xml 文件的合法构建模块,可以理解为是一种编写 xsd 或 xml 文件的语法。使用 schema 语法编写的文件后缀名可以是 .xsd 或 .xml。 2. xsd(xml schema definition) 文件,后缀名 .xsd,定义 xml...

  • 基于freeRTOS和STM32F103x的手机远程控制浴室温度系统设计源码

    该项目是一款基于freeRTOS操作系统和STM32F103x微控制器的手机远程控制浴室温度系统设计源码,共包含1087个文件,包括580个C语言源文件、269个头文件、45个汇编源文件、36个数据文件、36个目标文件、35个编译规则文件、28个包含文件、27个文本文件、6个源文件、3个归档文件。此系统通过手机远程实现对浴室温度的有效控制,适用于智能浴室环境管理。

Global site tag (gtag.js) - Google Analytics