快捷搜索:

苹果通过定制模型识别地名,就能够校正确地识

日期:2019-06-19编辑作者:澳门新葡8455手机版

原标题:干货 | Siri 语音识别的小心机:你在哪里,就能更准确地识别那附近的地址

苹果详细介绍了如何应对提高 Siri 识别当地兴趣点名称能力的挑战。

AI 科技评论按:这篇文章来自苹果机器学习日记(Apple Machine Learning Journal)。与其他科技巨头人工智能实验室博客的论文解读、技术成果分享不同,苹果的机器学习日记虽然也是介绍他们对机器学习相关技术的心得体会,但侧重点在于技术产品的实现过程、技术资源用户体验之间的取舍,更像是「产品经理的 AI app 研发日记」。过往内容可以参见 如何设计能在Apple Watch上实时运行的中文手写识别系统,苹果揭秘「Hey Siri」的开发细节,为了让iPhone实时运行人脸检测算法,苹果原来做了这么多努力。

在《机器学习期刊》(Machine Learning Journal)的一篇新文章中,苹果详细介绍了如何应对提高 Siri 识别当地兴趣点名称能力的挑战。

在最新一期中,苹果介绍了如何让 Siri 根据用户所在地的不同,准确识别出用户提到的所在地周围的地点。 AI 科技评论编译如下。

澳门新葡8455手机版 1

澳门新葡8455手机版 2

简而言之,苹果表示,它已经建立了定制的语言模型 Geo-LM,将用户的地理定位知识融入其中,提高了 Siri 自动语音识别系统的准确性。这些模型使 Siri 能够更好地评估用户的语音内容。

近年来,由于深度学习技术的广泛应用,自动语音识别(ASR)系统的准确率有了显著的提高。然而,人们目前主要是在通用语音的识别方面取得了性能的提升,但准确地识别有具体名字的实体(例如,小型本地商户)仍然是一个性能瓶颈。

苹果表示,该公司为美国人口普查局(U.S. Census Bureau)定义的 169 个统计区域设置了 Geo-LM 系统,占美国总人口的80%。苹果还在全球范围内建立了一个单独的 Geo-LM 系统,以覆盖所有不受统计区域覆盖的区域。

本文描述了我们是如何应对这一挑战的,通过将用户地理位置信息融入语音识别系统提升 Siri 识别本地 POI 信息点(point of interest,兴趣点)名称的能力。能够将用户的位置信息考虑在内的自定义语言模型被称为基于地理位置的语言模型(Geo-LMs)。这些模型不仅可以利用声学模型和通用语言模型(例如标准的语音识别系统)提供的信息,还可以使用用户周围的环境中的POI信息点的信息,更好地估计用户想要的单词序列。

澳门新葡8455手机版 ,当用户查询 Siri 时,系统会根据用户的当前位置使用 Geo-LM 系统。如果用户不在统计区域,或者 Siri 无法访问位置服务,系统就会默认使用全球 Geo-LM 系统。

引言

苹果论文的技术性很高,而且相当详尽,但愿这种方式真的能够帮助 Siri 更好地识别不同地方的兴趣点名称,甚至能够根据用户的地理位置更好地区分爱荷华州和堪萨斯州的 Tom 餐厅。

一般来说,虚拟助理都能够正确地识别和理解像星巴克这样的知名企业和连锁商店的名字,但是很难辨认出用户查询的数以百万计的小型本地 POI (兴趣点)的名字。在自动语音识别系统中,人们公认的一个性能瓶颈是:准确有具体名字的的实体(例如,小型本地商户),而这正是频率分布的长尾(少量、多种类的需求)。

在测试中,苹果公司发现,这些定制的语言模型可以将 Siri 的错误率降低 41.9% 至 48.4%,这些错误率分布在美国八个主要城市:波士顿、芝加哥、洛杉矶、明尼阿波利斯、纽约、费城、西雅图和旧金山,但不包括像沃尔玛这样的大型连锁店。

我们决定通过将用户地理位置信息融合到语音识别系统中来提高 Siri 识别本地 POI 的名称的能力。

根据研究公司 Loup Ventures 最近的一项研究,Siri 在整体准确度上仍落后于 Google Assistant,希望这些改进真的能提高 Siri 识别本地地的能力。

自动语音识别系统同城由两个主要部分组成:

  • 一个声学模型,用于捕捉语音的声学特征和语言学单位序列之间的关系,如语音和单词之间的关系
  • 一个语言模型(LM),它决定了某个特定的单词序列出现在一种特定的语言中的先验概率

我们可以找出造成这种困难(准确识别具名实体)的两个因素:

  • 系统通常不知道如何表示用户可能怎么样发出模糊的实体名称

实体名称可能只在语言模型的训练数据中出现一次,或者根本没有出现。想象你生活中各种各样的公司的名称,你就能理解为什么说这是一个巨大的挑战了。

第二个因素导致了构成本地企业名称的单词序列会被通用语言模型分配到一个非常低的先验概率,从而使得一个公司的名称不太可能被语音识别器正确地选到。(比如雷锋网楼下的「时令果町」,日常的中文使用中是不会出现这样的组合的)

我们在本文中提出的方法架设用户更偏向于用移动设备搜索附近的本地 POI,而不是使用 Mac,因此我们在这里使用移动设备的地理位置信息来提高 POI 的识别性能。这有助于我们更好地估计用户想要的单词序列。通过将用户的地理位置信息融合到Siri的自动语音识别系统中,我们已经能够显著地提高本地 POI 识别和理解的准确率。

Siri 如何使用基于地理位置的语言模型(Geo-LMs)?

我们定义了一组覆盖美国大部分地区的地理区域(Geo regions),并且为每个区域构建了一个基于地理位置的语言模型(Geo-LMs)。当用户提出查询请求时,他们会得到一个根据用户目前的位置信息定制的系统,这个系统带有一个基于地理位置的语言模型。如果用户在任何定义的地理区域之外,或者如果 Siri 无法访问定位服务,系统就会使用一个默认的全局 Geo-LM。接着,被选取的 Geo-LM 会与声学模型结合起来对自动语音识别系统进行解码。图1 显示了系统整体的工作流程。

澳门新葡8455手机版 3

图1.系统概览

地理区域

我们根据美国人口普查局的综合统计区域(CSAs)[1]来定义地理区域。从通勤模式来看,CSA 包含了经济上和社会上相连的邻近大都市区域。169 个 CSA 覆盖了美国 80% 的人口。我们为每个 CSA 建立一个专用的 Geo-LM,其中包含一个全局 Geo-LM,覆盖所有 CSA 未定义的区域。

为了高效地搜索用户所处的 CSA,我们存储了一个来自美国人口普查局[2]提供的栅格化地图边界(或形状文件)的纬度和经度查找表。在运行时,查找地理位置的计算复杂度为O(1)。

算法

Siri 的自动语音识别系统使用了一种基于加权有限状态机(WFST)的解码器,该解码器由 Paulik 首次提出[3]。该解码器采用差分语言模型原理,这与[4,5]中描述的框架相类似。

我们实现了一种类语言模型,在这个模型中,我们用类内语法动态地替换类非终结符。图2 对这个概念进行了说明。我们使用了一个主语言模型,将其用于通用识别,并且为预定义的类别引入了终结符标签,例如地理区域。对于每一个类,Slot 语言模型都是由与类相关的实体名称构建的,并且用于表示类内语法。接着,使用主语言模型和 slot 语言模型构建基于地理位置的语言模型,其实现过程如下节所述。

澳门新葡8455手机版 4

图2 类语言模型的通用框架

构建基于地理位置的语言模型

直接构建基于地理位置的语言模型(Geo-LM)的方法是为每个地理区域构建一个语言模型,每一个模型都是通过插入通用语言模型和从带有地理信息的训练文本中训练出的特定地理位置的语言模型得到的。这样做的问题是,通用语言模型通常都很大,因为它覆盖了很多的领域。生成的基于地理位置的语言模型积累出的模型大小往往太大,无法在运行时直接装载到内存中。另一方面,POI名称可以构建紧凑的语言模型,它的大小可能是一个完整的通用语言模型的千分之一到十分之一;基于以上分析,我们提出了类语言模型框架。

在我们的类语言模型框架中,主语言模型如其它的类语言模型一样被训练,训练使用的文本来自于所有模型支持的领域。为了提升对非终结符标签的支持,最初我们依赖于使用通过基于特定地理位置的模版认为创建的训练文本,例如「指向CS-POI」,其中「CS-POI」为类标签。这样的人造文本能够帮助引导模型初始化对非终结符的识别。在部署好基于地理位置的语言模型后,我们的自动语音识别系统的输出将具有特殊的标记,例如:在通过类语言模型框架识别的地理实体周围会有「CS-POI」标记。新的基于地理位置的语言模型的输出将使我们能够不断为主语言模型中的非终结符提供训练文本。

在基于地理位置的语言模型中,Slot 语言模型是用特定类的实体(POI)训练的。在我们提出的系统中,为每个地理区域都构建了一个slot语言模型。每个slot语言模型的训练文本由相应区域的本地POI的名称组成。

图3 展示了一个基于加权有限自动机的类语言模型的小例子,其中包含了一个代表三个带有先验概率的简单模板的主语言模型(某条记录相对于其它的选项出现的概率):

先验概率=0.5: 指向CS-POI

先验概率=0.3: 地点正好为CS-POI

先验概率=0.2:寻找最近的CS-POI

该模型也囊孔了一个slot语言模型,它仅仅包含三个带有先验概率的POI:

先验概率=0.4: 哈佛大学

先验概率=0.4: TD 花园

先验概率=0.2:Vidodivino

澳门新葡8455手机版 5

图3. 基于加权有限自动机的类语言模型的简单示例

本文由澳门新葡8455手机版发布于澳门新葡8455手机版,转载请注明出处:苹果通过定制模型识别地名,就能够校正确地识

关键词:

摩天和压低的地点乃至是,Bengio团队公布最新A

原标题:视角 |全球AI顶会研究人员的男女比例是7:1,最高和最低的地方居然是… Yoshua Bengio 创立的人工智能公司 ...

详细>>

加州圣巴巴拉分校最新问答数据集CoQA

原标题:财富 | 让AI学会刨根问底和释放自己,南洋理工科最新问答数据集CoQA Recent Trends in Deep Learning Based Natural Lan...

详细>>

澳门新葡8455手机版日本下周将开展太空电梯实验

原标题:日本下周将开展太空电梯实验 原标题:日本测试“太空电梯” 太空旅行有多远? 周三 · 太空探索 / 周三...

详细>>

黑寡妇星云与索隆魔眼,太空十大奇异天体

原标题:宇宙中的三个令人不安开掘:黑寡妇星云与索隆魔眼 高空十大诡异天体:黑寡妇星云形似蜘蛛 香江时间八月...

详细>>