“视听关联”深度学习系统:嘿 Siri,帮我在合照中找到班花

“视听关系”深度深造零碎:嘿 Siri,帮我在合照中找到班花

“视听关系”深度深造零碎:嘿 Siri,帮我在合照中找到班花

 · 
2018-09-20
新模子能够

呐喊通过白话描绘来选出图象中的对应工具。

编者按:本文由「图普科技」编译自

MIT的计算机科学家开发了一套新的零碎,能够

呐喊根据对图象的口头描绘辨认
出图象中对应的物体。只需一张图象和一段音频阐明

顺叙,该模子就能够

呐喊实时标注出描绘的物体在图象中的相干
地位。

与当前的语音辨认
技术不合1,该模子不需要对其训练的示例举行手动转录和注释。相反,它间接从录下来的语音片断
深造单词,从原始图象中深造工具,并将它们相互关系起来。

该模子目前只能辨认
几百个单词和几百种工具范例。然而研讨人员希望在未来的某天,这类将语音辨认
和工具辨认
联合起来的技术能够节约大批的野生休息光阴,并给语音和图象辨认
领域带来新的可能。

比方,Siri和Google Voice等语音辨认
零碎需要转录数千小时的语音录音。通过这些数据,零碎学会将特定语音旌旗灯号与单词举行映照。但当出现新术语时,这类方法就难以收效了,必须重新训练零碎。

 “咱们希望以更自然的一种体式格局举行语音辨认
,充分利用人类能够使用,但机械深造算法通常无法访问的其他旌旗灯号和信息。咱们的想法是以类似于陪孩子走遍世界并向他叙说你所看到内容的体式格局来训练模子,“David Harwath说道,他是计算机科学与野生智能实验室(CSAIL)以及白话零碎团队的一名研讨员。Harwath与他人共同撰写了一篇描绘该模子的论文,并在比来的欧洲计算机视觉会议上举行了展现

在这篇论文中,研讨人员在一张有着一位金发蓝眼的年轻女孩的图片上验证了他们的模子,该女孩穿着一件蓝色的连衣裙,背景是有着白色屋顶的白色灯塔。该模子学会了将图象中的像素区域与“女孩”,“金发”,“蓝眼睛”,“蓝色号衣”,“白灯屋”和“白色屋顶”等词相对应。当播放一段音频阐明

顺叙时,模子会在语音描绘的同时突出显现图象中的对应工具。

一个颇具近景的应用是让模子在不需要双语注释器的情形下,深造不合1言语之间的翻译。据估计,全球约有7,000种言语,但只有100种具有足够举行语音辨认
的转录数据。然而,让咱们设想一下两个言语不合1的说话者描绘同一张图象的情境。在这类情形下,如果模子学会了言语A中对应图象中工具的语音旌旗灯号,也学会了言语B中对应该工具的语音旌旗灯号,那么,咱们能够假设这两个旌旗灯号等于两种言语的翻译。

 “这类模子有可能能够

呐喊以巴别鱼式的机制工作,”Harwath说道。巴别鱼是《银河系漫游指南》中虚拟的有生命力的“耳机”,能够

呐喊为佩戴者翻译不合1的言语。

“视听关系”深度深造零碎:嘿 Siri,帮我在合照中找到班花

巴别鱼

视听关系

Harwath,Glass和Torralba早期开发了一种模子,能够

呐喊将语音与主题相干
图象组相干
系,此次的工作是在此基础上的拓展。在之前的研讨中,他们将来自分类数据库的场景图象放在Mechanical Turk众包平台上,而后让人们像对孩子说话那样对这些图象举行描绘,约莫10秒钟。他们终究
汇集了20多万对图象和音频阐明

顺叙,分为数百种不合1的场景种别,如海滩,商场,都会街道和寝室。

而后,他们设计了一个由两个独立的卷积神经网络(CNN)组成的模子,别离处理图象和频谱图,频谱图是音频旌旗灯号随光阴变化的视觉默示。模子的最高一层计算两个神经网络的输出,并将语音模式与图象数据举行映照。

比方,研讨人员会给模子提供准确婚配的音频阐明

顺叙A和图象A。而后,他们会给模子提供婚配不准确的图象A和随机音频阐明

顺叙B。在将数千个错误阐明

顺叙与图象A举行比较之后,模子学会了与图象A对应的语音旌旗灯号,并将这些旌旗灯号与语音阐明

顺叙中的词语相干
系。正如在2016年的一项研讨中所述,该模子学会了遴选出与单词“水”相对应的语音旌旗灯号,并搜索出与之对应包含有水体的照片。

 “但它并不克不及保证,‘这是某人在说一个指向特定像素区域的特定词时想表白的意义,’” Harwath说道。

树立婚配映照

在新论文中,研讨人员对模子举行了优化,将特定单词与特定的像素块相干
系。研讨人员在同一个数据库上新增了400,000个图象-阐明

顺叙对,对模子举行了训练。他们用1000个随机对举行了测试。

在训练中,一样给模子提供了准确和不准确的图象和音频阐明

顺叙。但这一次,分析图象的CNN将图象分辩为由像素块组成的单位网格。分析音频的CNN将频谱图分红片断
,比方一秒的片断
,以捕获每一或两个字。

有了准确的图象和音频阐明

顺叙对后,模子会将网格的第一个单位格与第一个音频片断
婚配,而后将该相同的单位格与第二个音频片断
婚配,依此类推,直到所有网格单位格和音频片断
都举行过婚配。对于每个单位和音频段,它会提供相似性分数,这取决于语音旌旗灯号与工具的对应程度。

然而,难点在于,在训练期间,模子无法访问语音和图象之间任何真实的校准信息。 “该论文的最大贡献在于,”Harwath说,“证明了这些跨模态(如音频和视觉)的对齐能够通过简单地教诲神经网络哪些图象和音频阐明

顺叙能够配对而哪些不克不及而主动推断。”

作者将语音阐明

顺叙的波形图与图象像素块之间的主动深造关系称为“婚配图”。在对数千个图象-阐明

顺叙对举行训练之后,神经网络将这些对齐的规模缩小到默示该婚配图中特定工具的特定单词。

“这有点像大爆炸,物质完全分散出去,而后又聚合成行星和恒星,” Harwath说。 “起头时各种预测都有,然而,当你举行训练时,它们会聚合成一个对列,代表白话和视觉工具之间有意义的语义基础。