快捷搜索:

【澳门新葡8455手机版】2018丨解读微软亚洲研究院

日期:2019-06-25编辑作者:澳门新葡8455手机版

原标题:NIPS 2018丨解读微软亚洲研究院10篇入选论文

近日,由国际计算语言学协会ACL(The Association for Computational Linguistics)举办的WMT 2019 国际机器翻译比赛的客观评测结果揭晓,微软亚洲研究院机器学习组在参加的11项机器翻译任务中,有7项获得了第一名,另外4项获得第二名。

这几天,比国庆火车票还一票难求的NIPS 2018出最终结果了!作为机器学习领域的顶级会议,今年NIPS 之火爆达到了惊人的程度,投稿数量上升至史无前例的4856 篇,比去年增加了约50%,接受率保持着与去年持平的20.8%,共接受论文1011 篇,其中168 篇Spotlight(3.5%),30 篇Oral(0.6%)。

澳门新葡8455手机版 1

澳门新葡8455手机版 2

图片来自大赛网站,横向为源语种,纵向为目标语种

今年,微软亚洲研究院共有10篇论文入选,研究主题涵盖词向量、机器翻译、神经网络优化、社群探索等等。我们在第一时间为大家梳理了这10篇论文的概要。关于论文的详细内容,我们也会在之后陆续推出。

7项任务获第一,4项任务获第二

Community Exploration: From Offline Optimization to Online Learning

WMT的全称为 Conference on Machine Translation (

Xiaowei Chen, Weiran Huang, John Lui, and Wei Chen

在本届WMT 2019大赛中(

假象一个社会场景:作为刚入校的大学生,你想在新学校里通过参加学生活动,在最短的时间内认识尽可能多的朋友。但你参加活动的时间和精力有限,规模不同的社群活动使你结交朋友的几率不同,但你还不了解社群的规模,需要参加活动得到这些信息。怎么样才能最有效地安排参与活动的策略呢?

结果显示,此次大赛的亚军团队在3项任务中获得了第一,季军团队则有两项获得第一,来自微软亚洲研究院的神经网络机器翻译算法的表现遥遥领先于其他参赛队伍。

这个问题可以在在线广告分配、社会调查等很多问题中找到实际的应用场景。在我们的论文中,我们把这一问题抽象定义为社群探索(community exploration)问题:有m个社群,每次你访问一个社群,并在这次访问中以等概率随机遇到一个社群成员;如果你总共有K次访问机会,你该如何将这K次访问分配给m个社群,使得你在这K次访问中遇到的不同人的总人数最多?根据你是否预知每个社群的人数,该问题分为已知社群人数的离线优化问题和未知社群人数的在线学习问题。根据你是事先决定 次访问的分配方案,还是每访问一次后根据反馈调整策略,问题又进一步分为非自适应性和自适应性的问题。我们对这些问题进行了系统性的研究,在离线优化方面,我们证明了贪心算法在非自适应性和自适应性情形下都能给出最优解。在在线学习方面,我们给出了基于置信上界(UCB)的在线学习算法,并给出了算法遗憾度(regret)的分析。

机器翻译算法改进

Dialog-to-Action: Conversational Question Answering Over a Large-Scale Knowledge Base

2018年3月,由微软亚洲研究院与微软雷德蒙研究院共同研发的机器翻译系统便在WMT 2017大会上发布的通用新闻报道测试 newstest2017 机器翻译系统融合了微软亚洲研究院机器学习组的最近研究成果——对偶学习(Dual Learning)和推敲网络(Deliberation Networks),以及自然语言计算组的最新技术——联合训练(Joint Training)和一致性规范(Agreement Regularization)。

Daya Guo, Duyu Tang, Nan Duan, Ming Zhou, Jian Yin

在WMT 2019的比赛中,微软亚洲研究院机器学习组再次将多个创新的算法运用在了机器翻译的任务中,从学习机制、预训练、网络架构优化、数据增强等方面,提升了机器翻译结果的质量。

对话中的多轮问答(conversational question answering)和语义分析(semantic parsing)是自然语言处理领域的两个核心问题,对语音助手、聊天机器人和搜索引擎都至关重要。在本文中,我们提出了基于知识图谱的对话式语义分析模型,该模型可以有效地处理多轮问答中的上下文指代和省略现象,合理利用对话历史理解当前问题的语义,并推断出其对应的逻辑表达(logical form)。具体来说,输入用户当前的问题及对话历史,该模型会以包含多种逻辑操作(如查找、比较、计数、复制历史逻辑表达等)的语法为基础,使用自顶向下的方式预测出当前问题的逻辑表达。我们在包含20万轮对话的CSQA数据集上进行实验,使用“问题-答案”对作为有指导信息训练模型,结果表明该模型的精度显著优于对比基线算法,并且可以有效地利用历史问题的语义解析结果推断当前问题的逻辑表达。

此次使用的创新算法包括:

Frequency-Agnostic Word Representation

• MADL:Multi-agent dual learning,多体对偶学习

Chengyue Gong, Di He, Xu Tan, Tao Qin, Liwei Wang, Tie-Yan Liu

• MASS:Masked sequence to sequence pre-training,屏蔽序列到序列的预训练

词向量(word embedding)是自然语言处理任务中不可或缺的组成部分。通常人们认为词向量包含丰富的语义信息,语义相似的词具有相似的词向量。然而我们在多种任务中发现事实并非如此。我们发现低频词的词向量编码了更多的词频信息而非语义信息:在词向量空间中,绝大部分低频词的周围聚集了与其含义截然不同的低频词,而那些真正与其语义相似的高频词与这些低频词的距离反而相差甚远。于是,这种编码了词频信息的词向量对于语义分析任务并不完美。

• NAO:Automatic neural architecture optimization,自动神经网络架构优化

为了消除词表征中的词频信息,我们设计了一个基于对抗神经网络的训练算法。实验表明,基于该算法,新的模型在语义相似度、语言模型、机器翻译、文本分类的十项任务中都取得了更好结果,特别是在语言模型以及机器翻译的四项任务中达到世界最佳。

• SCA:Soft contextual data augmentation,软性上下文数据增强

Frequency-Domain Dynamic Pruning for Convolutional Neural Networks

其中,关于NAO的论文已被NIPS 2018收录,关于MADL的论文已被ICLR 2019收录,关于MASS的论文则被ICML 2019收录。

Zhenhua Liu, Jizheng Xu, Xiulian Peng, Ruiqin Xiong

新的学习机制:MADL多体对偶学习

与传统方法相比,卷积神经网络大幅提高了计算机视觉应用的性能,但需要极大的计算资源和存储要求。裁剪网络系数是减少存储、简化计算的一种有效方法。考虑到卷积神经网络中,卷积滤波器会有很大的空间冗余,我们提出在频率域进行网络系数的动态裁剪的方法,针对每次训练迭代和不同的频带,用动态的阈值来指导裁剪。实验结果表明,频域动态裁剪显著优于传统的空域裁剪方法。特别是对于ResNet-110,在不牺牲网络性能甚至有所提高的情况下,我们的方法可以达到8倍的系数压缩和8.9倍的计算加速。

在机器翻译中,训练数据的数据量越大、质量越高,其训练的翻译结果越好。基于对偶学习,创新的MADL算法利用正向与反向翻译的多个模型对单语数据进行前向和后向翻译并打分,然后将得分最高的数据放置到训练数据中从而获得更多高质量的数据,或者将单语数据的前向后向重建误差加入到损失函数里来增强学习过程。MADL不局限于某个语种,可以在任何源语种和目标语种之间提供这样的对偶学习能力。

Layer-Wise Coordination between Encoder and Decoder for Neural Machine Translation

更好的预训练:MASS屏蔽序列到序列的预训练

Tianyu He, Xu Tan, Yingce Xia, Di He, Tao Qin, Zhibo Chen, Tie-Yan Liu

MASS是针对序列生成设计的预训练算法,比BERT以及GPT/2更加通用。BERT模型通常是屏蔽掉句子中的一个单词,然后通过分类来预测这个词;GPT模型是给定前面的词,通过分类生成后面的词,直至一句话或整篇文档;两者都是预训练一个编码器。而翻译则是基于编码器-解码器-注意力框架,因此BERT和GPT/2并不能很好地适用于翻译任务。但MASS则能将句子中的部分连续片断随机屏蔽,然后训练一个编码器-解码器-注意力模型预测生成该片断,从而利用海量单语数据预训练然后初始化翻译模型。因此,MASS比BERT和GPT/2都更适用于机器翻译这个应用场景。实验证明,MASS屏蔽翻译句子中50%的片断效果最好。

神经机器翻译近年来取得的重要进展,依赖于模型结构的逐渐发展演化。在本文中,我们为神经机器翻译提出了逐层协调的概念,用来显式地协调编码器和解码器隐层向量的学习,这种协调是逐层从低级别的向量表示到高级别的向量表示学习。同时,我们通过共享编码器和解码器每层的模型参数,来约束并且协调训练过程。实验表明,结合目前最好的Transformer模型,我们的逐层协调机制在3个IWSLT和2个WMT翻译数据集上取得了较大的精度提升,在WMT16 英语-罗马尼亚、WMT14 英语-德语翻译任务上超过了目前最好的Transformer基准模型。

网络架构优化: NAO自动神经网络架构优化

Learning to Teach with Dynamic Loss Functions

NAO是从神经网络结构优化的角度去提升机器翻译水平。不同的网络结构通常对于翻译结果有着较大影响,NAO把离散的网络结构嵌入到连续的向量空间,从而通过连续优化找到更好的网络结构。与固定的Transformer相比,NAO可以找到更多样的网络结构,和Transformer形成互补优势,使得机器翻译多模型集成的结果更佳。

本文由澳门新葡8455手机版发布于澳门新葡8455手机版,转载请注明出处:【澳门新葡8455手机版】2018丨解读微软亚洲研究院

关键词:

南洋理工科物艺术学家把量子门,加州Davis分校物

原标题:量子计算新突破!耶鲁科学家把量子门“传送”了 原标题:耶鲁科学家成功在两量子比特间“传送”量子门...

详细>>

专注量子点材料的,潮流家电网

原标题:纳晶科学技术:专注量子点材质的“拓荒者” 111月十八日,一而再了两年的量子点展现本领大研究,终于迎...

详细>>

澳门新葡8455手机版加快无人开车反应速度,有助

原标题:新加坡国立研究开发新型AI录像头 有助加速无人开车车反应速度 据韩媒报纸发表,俄亥俄州立大学新研究开...

详细>>

可再生能源与氢能技术,北欧合作项目推荐

原标题:【北欧合作项目推荐】芬兰燃料电池技术及新型混合式热交换器寻求合作 据北京市科委双新处消息:通知对...

详细>>