阅读更多

0顶
0踩

开源软件

原创新闻 DeepText:Facebook的文本解析引擎

2016-06-08 10:55 by 副主编 mengyidan1988 评论(0) 有7039人浏览
文本是Facebook上主要的交流形式。不论是浏览或是从垃圾信息中过滤出感兴趣的内容,理解各种不同的文本对于改进Facebook产品的用户体验都非常重要。

基于这个想法,我们构建了DeepText。它是一个基于深度学习的文本解析引擎,能够按照接近人类的思维处理文本信息,处理的速度高达每秒钟上千篇文章,支持的语言高达20多种。

DeepText利用了多个深度神经网络架构,包括卷积和复发性神经网络,能够在单词和字母级别进行学习。我们使用FbLearner Flow和Torch训练模型。通过FBLearner Predictor平台,点击按钮即可获得模型服务。该服务的基础基础设施易于扩展,提供的模型非常可靠。Facebook的工程师们可以通过DeepText提供的自服务架构轻松构建新DeepText模型。

为什么要深度学习
文本处理包含许多任务,比如将文章分类到篮球板块;识别其中的实体,比如运动员的名字;提取比赛的统计数据以及其它有意义的信息。但是要更加接近人类理解文本的能力,需要教会电脑理解俚语以及如何消除歧义。比如如果某个人说,“I like blackberry”,那么他指的是水果还是手机?

在Facebook上进行文本解析需要处理很多困难的扩展性及语言方面的问题。用传统的NLP技术解决这些问题效果不佳。相比传统的NLP技术,通过深度学习我们能够更好地对多语言提供支持,并且更加高效地处理标签数据。起初Ronan Collobert与Yann LeCun在Facebook AI Research发布了论文,DeepText在此技术上提供了实现并在深度学习上进行了扩展。

更多、更快地解析语言
Facebook是一个真正意义上的全球化社区,因此DeepText需要尽可能多地支持更多种类的语言。传统的NL技术需要大量复杂的工程和语言知识预处理。语言不同要求的处理方式也有差别,比如方言和不通的拼写方式就是最好的例子。通过深度学习,我们能够降低对语言特定知识相关的依赖,系统可以在不需要或者很少的预处理情况下也能够进行学习。这样可以帮助我们快速地实现对多语言的支持,从而将工程开发的工作量实现最小化。

更深层次的理解
在传统的NLP技巧中,单词会转换为计算机算法能够识别的格式。“brother”这个单词可能标识为ID 4598,而单词“bro”会对应另一个整数,比如986665。这种方式要求每个单词在训练数据中拼写正确,这样才能够被解析。

采用深度学习,我们可以使用“单词嵌入(word embedding)”这样的数学概念,这样就能够记录单词之间的语义关系。因此,只需要进行适当的计算,就能够看到“brother”和“bro”在空间上离得很近。这种表示方式就能够获取更深层次的语义。

使用单词嵌入,我们还能够摈弃表面形式的差异,在不同语言之间理解相同的语义。比如英语和西班牙语的“happy birthday”和“feliz cumpleaños”在同一个嵌入空间里离得非常近。通过把单词和短语映射到一个公共的嵌入空间,DeepText能够构建模型语言无关的模型。

标签数据的不足
除了上面提到的差别外,书面语言还可以利用无监督学习从单词嵌入中对非标签数据进行学习和提取结构。深度学习提供了一个很好的框架,可以提升这些单词嵌入,使用带标签的较小集合进一步改进。相对传统方式,这是一个明显的优势,后者需要大量人工标签过的数据并且对新任务响应非常困难。很多情况下,作为牺牲标签数据集合的补偿,无监督学习和监督学习的组合能够显著提高性能。

在Facebook上探索DeepText
DeepText已经在Facebook一些功能上进行了测试。以Messenger为例,DeepText被AML Conversation Understanding团队用来分析人们可能希望去的地方。这种目的检测可以帮助分析是否需要打车,比如他/她会说:“我刚从出租车上下来”,而不是“我需要搭便车”。

视频:https://code.facebook.com/Engineering/videos/10154132641047200/

我们还开始使用精确性更高、多语言DeepText模型来帮助人们发现他们的目的。例如有人会发帖说:“我想要$200卖掉旧自行车,有人感兴趣吗?”。DeepText能够检测到这个帖子是在卖东西,然后提取一些有用的信息,包括正在卖东西以及东西的价钱。然后,会提示卖家使用Facebook已有的工具更好地达成交易。

DeepText通过对意图、情绪和实体(人物/地点/事件)的提取,结合文本、图片并自动移除垃圾信息的干扰,能够更好的提升Facebook用户体验。许多名人和公众人物使用Facebook与公众交流。这些交流通常会带来成百上千的评论。从这些各种语言的评论中找到高质量且相关度较高的评论是一个很大的挑战。除此之外,DeepText面临的另一个挑战是如何找到相关度或质量最高的评论。

下一步计划
我们将与Facebook AI Research小组一起持续改进DeepText技术及语言。具体的改进有以下几点。

更好地理解人们的意图
在Facebook上个性化体验最重要的一部分是为人们推荐相关内容。要做到这一点,必须将指定文本对应到一个具体的主题,这就需要提供大量的标签数据。

采用手工方式很难生成这些数据集,于是我们开始尝试使用公共Facebook页面采用半监督的方式生成这样的数据集。很容易想象,这些页面上都是和特定主题相关的帖子。例如,在Steelers页面上的帖子都包含了与Steelers足球队相关的文字。通过这些内容对我们称作PageSpace的通用兴趣分析器,使用DeepText作为底层技术。反过来,这些工作能够进一步分改进Facebook其它功能的文本解析系统,从而提高用户体验。

同步理解文本与可视化信息
通常,人们会同步发布图片或视频来描述文字内容。其中的一些场景,需要结合文字和可视化信息理解人们的意图。例如,一个朋友会发布一个自己宝宝的图片,配上“Day 25”这样的文字。图片与文字清晰地表明,这是一条有关家庭的消息。我们与Facebook的视觉内容处理小组共同构建深度学习架构,可以结合文字与可视化输入来理解人们的意图。

新的深层神经网络架构
我们会继续开发并研究新的深层神经网络架构。双向复发性神经网络(BRNNs)展示了令人振奋的结果。BRNNs旨在通过递归发现单词之间,通过卷积发现位置不变的语义之间上下文依赖关系。我们观察到,BRNNs比常规的卷积或复发性神经网络做分类时错误率更低。某些情况下,错误率能够降低到20%。

将深度学习技术应用到文本解析的过程能够持续改进Facebook产品的用户体验,反之亦然。Facebook上非结构化数据提供了一个独一无二的机会,用多种不同语言对文本解析系统进行自动训练,使得自然语言处理技术的发展能更进一步。

视频:https://code.facebook.com/Engineering/videos/10154132635127200/

原文:Introducing DeepText: Facebook’s text understanding engine
作者:Ahmad Abdulkader, Aparna Lakshmiratan, Joy Zhang
译者:赖信涛,责编:魏伟
0
0
评论 共 0 条 请登录后发表评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

  • Facebook新引擎DeepText(文本解析引擎),让机器像人类一样去理解

    DeepText:Facebook的文本解析引擎 Facebook已经开发出了一种引擎,这种引擎能够使我们更好地理解帖子的内容。该引擎被称为DeepText,它通过利用深层神经网络架构去理解那些分享的文章内容。 这种技术得益于...

  • 人工智能的动作来看这四家:百度、谷歌、微软、Facebook

    人工智能的动作来看这四家:百度、谷歌、微软、Facebook 人工智能已经成了兵家必争之地,但说句实在话,也都是准备的姿势。不过,瞭望未来的AI大战,积极的人才、设施、技术储备都是刚需。近日,美国《财富》杂志...

  • 百度/谷歌/微软/Facebook 人工智能发展方向

    人工智能的动作来看这四家:百度、谷歌、微软、Facebook人工智能已经成了兵家必争之地,但说句实在话,也都是准备的姿势。不过,瞭望未来的AI大战,积极的人才、设施、技术储备都是刚需。近日,美国《财富》杂志...

  • Facebook开源NLP建模框架PyText,从论文到产品部署只需数天

    选自code.fb作者:AHMED ALY HEGAZY、CHRISTOPHER DEWAN机器之心编译参与:淑婷、张倩Facebook AI Research(FAIR...

  • 2016年人工智能产业梳理:一朝引爆,稳步前进(上篇)

    已经开源的有微软的DMTK(分布式机器学习工具包)、OpenAI的AI训练平台Universe、亚马逊的“御用”的深度学习平台“多语言机器学习资料库”MXNet等,未开源的像Facebook的基于深度学习的文本解析引擎Deeptext等。...

  • 走近人工智能

    ‍ ---------------------- 人工智能的动作来看这四家:百度、谷歌、微软、Facebook 人工智能已经成了兵家必争之地,但说句实在话,也都是准备的姿势。不过,瞭望未来的AI大战,积极的人才、...

  • 基于知识图谱的智能问答

    基于以上高质量海量的对话数据,Facebook 基于深度学习技术推出了一个用于自然语言处理的框架叫 DeepText,用于自然语言表示学习和各种分类等任务。有名的 Fast Text 也包含在内。Facebook 更是基于Deep Text 推出了...

  • 基于知识图谱的智能问答方案

    而利用知识图谱的推理功能,我们还可以获得动态的结果,在Wolfram|Alpha知识计算引擎中,我可以输入我们的数学题目,引擎可以直接给出答案,而这些答案显然并不是预先写好的。而在企业智能应用中,因为有了知识图谱...

  • 第11讲:深入理解指针(1).pdf

    第11讲:深入理解指针(1)

  • springboot整合 freemarker方法

    springboot整合 freemarker方法

  • 第14讲:深入理解指针(4).pdf

    第14讲:深入理解指针(4)

  • 同行者4.1.2语音助手

    《同行者4.1.2语音助手:车机版安装详解》 在现代科技日新月异的时代,智能车载设备已经成为了汽车生活的重要组成部分。"同行者4.1.2"便是这样一款专为车机设计的语音助手,旨在提供更为便捷、安全的驾驶体验。该版本针对掌讯全系列设备进行了兼容优化,让车主能够轻松实现语音控制,减少驾驶过程中的手动操作,提升行车安全性。 我们来了解下"同行者4.1.2"的核心功能。这款语音助手集成了智能语音识别技术,用户可以通过简单的语音指令完成导航、音乐播放、电话拨打等一系列操作,有效避免了因操作手机或车机带来的分心。此外,其强大的语义理解和自学习能力,使得它能逐步适应用户的口音和习惯,提供更个性化的服务。 在安装过程中,用户需要注意的是,"同行者4.1.2"包含了四个核心组件,分别是: 1. TXZCore.apk:这是同行者语音助手的基础框架,包含了语音识别和处理的核心算法,是整个应用运行的基础。 2. com.txznet.comm.base.BaseApplication.apk:这个文件可能包含了应用的公共模块和基础服务,为其他组件提供支持。 3. TXZsetting.apk:这

  • 市场拓展主管绩效考核表.xls

    市场拓展主管绩效考核表

  • “线上购车3D全方位体验:汽车模型展示与个性化定制功能”,three.js案例- 线上购车3d展示(源码) 包含内容:1.汽车模型展示;2.汽车肤;3.轮毂部件更;4.开关车门动画;5.汽车尺寸测量

    “线上购车3D全方位体验:汽车模型展示与个性化定制功能”,three.js案例- 线上购车3d展示(源码) 包含内容:1.汽车模型展示;2.汽车肤;3.轮毂部件更;4.开关车门动画;5.汽车尺寸测量;6.自动驾驶;7.镜面倒影;8.hdr运用;9.移动端适配; 本为html+css+three.js源码 ,核心关键词:three.js案例; 线上购车3D展示; 汽车模型展示; 汽车换肤; 轮毂部件更换; 开关车门动画; 汽车尺寸测量; 自动驾驶; 镜面倒影; HDR运用; 移动端适配; HTML+CSS+three.js源码。,"Three.js源码:线上购车3D展示案例,含汽车模型、换肤、轮毂更换等九大功能"

  • (数据权威)中国城市_县域统计面板数据二合一

    数据名称:2000-2022年各县市区主要社会经济发展指标面板数据 数据类型:dta格式 数据来源:中国县域统计

  • 120页-环卫车项目初步方案.pdf

    一、智慧环卫管理平台的建设背景与目标 智慧环卫管理平台的建设源于对环卫管理全面升级的需求。当前,城管局已拥有139辆配备车载GPS系统、摄像头和油耗传感器的环卫车辆,但环卫人员尚未配备智能移动终端,公厕也缺乏信息化系统和智能终端设备。为了提升环卫作业效率、实现精细化管理并节省开支,智慧环卫管理平台应运而生。该平台旨在通过信息化技术和软硬件设备,如车载智能终端和环卫手机App,实时了解环卫人员、车辆的工作状态、信息和历史记录,使环卫作业管理透明化、精细化。同时,平台还期望通过数据模型搭建和数据研读,实现更合理的环卫动态资源配置,为环卫工作的科学、健康、持续发展提供决策支持。 二、智慧环卫管理平台的建设内容与功能 智慧环卫管理平台的建设内容包括运行机制体制建设、业务流程设计、智慧公厕系统建设、网络建设、主机和储存平台需求、平台运维管理体系、硬件标准规范体系以及考核评价体系等多个方面。其中,智慧公厕系统建设尤为关键,它能实时监控公厕运行状态,保障公厕的清洁和正常运行。平台建设还充分利用了现有的电子政务网络资源,并考虑了有线和无线网络的需求。在功能上,平台通过普查、整合等手段全面收集环卫车辆、企业、人员、设施、设备等数据,建立智慧环卫基础数据库。利用智能传感、卫星定位等技术实现环卫作业的在线监管和远程监控,实现对道路、公共场所等的作业状况和卫生状况的全面监管。此外,平台还建立了环卫作业网格化管理责任机制,实现从作业过程到结果的全面监管,科学评价区域、部门、单位和人员的作业效果。 三、智慧环卫管理平台的效益与风险规避 智慧环卫管理平台的建设将带来显著的环境、经济和管理效益。环境方面,它将有力推进环境卫生监管服务工作,改善环境卫生状况,为人民群众创造更加清洁、卫生的工作和生活环境。经济方面,通过智慧化监管,大大降低了传统管理手段的成本,提高了监管的准确性和效率。管理方面,平台能够追踪溯源市民反映的问题,如公厕异味、渣土车辆抛洒等,并找到相应的责任单位进行处置,防止类似事件再次发生。同时,平台还拥有强大的预警机制功能,能够在很多环卫问题尚未出现前进行处置。然而,平台建设也面临一定的风险,如部门协调、配合问题,建设单位选择风险以及不可预测的自然灾害等。为了规避这些风险,需要加强领导、统一思想,选择优秀的系统集成商承接项目建设,并做好计算机和应用系统的培训工作。同时,也要注意标准制定工作和相关法律法规的制定工作,以保证系统建设完成后能够真正为环卫管理工作带来便利。

  • 36 -企业管理主管绩效考核表1.xlsx

    36 -企业管理主管绩效考核表1

  • 1.1 -1.4 工程代码

    1.1 -1.4 工程代码

  • USDT合约,USDT智能合约

    USDT合约,USDT智能合约

Global site tag (gtag.js) - Google Analytics