客观日本

东芝的AI技术,让终端识别说话者

2020年03月10日 信息通信

因原子能发电投资失败而元气大伤沉寂多日的东芝,2020年2月20日宣布在世界上首次开发出了“可在终端上检测关键字和识别说话者的人工智能(AI)”。

这个技术属于声音认证的范畴。人类当从某处听到别人的声音时,即使看不到那个人的身影,也能明白“那个声音是某某人的”。人的声音,包含起因于声带和口腔等发声器官的形状的身体特征。每个人说话方式都有习惯性特征。从声音中提取这种与个人相关的特征,识别说话人的技术就是声音认证。声音认证,在技术上被称为说话者识别(Speaker Recognition),或者说话者对照(Speaker verification),在很多情况下,是指将一对声音进行比较来推断它们是否是同一个人的技术。

日本厂家的新闻发布往往喜欢用“世界首发”这个词。那么,我们一起来看看东芝的这个“世界首发”含金量多少,“在终端上检测关键字和识别说话者的AI”有什么应用场景。

对于一般消费者而言,更熟悉语音识别AI,譬如亚马逊的Amazon Echo,谷歌的Google Home Hub,微软的Microsoft Cortana,以及苹果的Apple HomePod等智能音箱。但是,这些智能音箱的一个特点是在线辅助。因为AI语音识别与翻译需要庞大的计算,所以一般是利用智能手机这样的高性能机器,或者将类似智能音箱的设备通过网络在云端计算。

东芝的AI技术,让终端识别说话者

而东芝的是在处理能力有限的终端上也能高速动作的语音关键字检测技术,被称为说话人识别人工智能(AI)。按其官网解释,如果将该技术搭载在家电上,即使家电不联网,也可以通过3次说话就能将说话者登录。说话者可以通过语音操作,变更家电的操作。

东芝的AI技术,让终端识别说话者

图片出自东芝发布网页

日常生活中,有许多不联网的家电,要在这些终端上轻松使用语音识别功能,就需要在其中嵌入中高速运行的AI。

东芝解释说,这项技术有两个特点。

其一,是灵活使用关键字检测中的信息。当输入声音时,在关键字检测的神经网络中一边吸收周围噪声等的影响一边进行声音处理。利用神经网络的“中间输出”,在说话者识别时也能够抑制周边的杂音的影响,大幅削减说话者识别的声音处理的时间。从而在有限的功能上实现了高速动作。

其二,是利用神经网络的数据扩展方法。即用较少的数据进行学习的方法。即使说话者的发言数少也能够对其学习,实现了注册说话者时必要的发言数的削减。

东芝将该技术与一般的“i-vector”技术进行比较的结果是,前者的精度为89%,高于后者的71%。

i-vector是在1990年代GMM−UBM基础之上经过改良的Joint Factor Analysis(JEA)模型。 使用从多数说话者的语音作成的音韵(各种元音、辅音)的标准模型,提取出标准模型和输入语音的差分作为特征量。因为单纯地取得所有的差分就会变成涉及到10万维的巨大的特征量,所以i-vector的关键之处就是利用因子分析将其压缩到400维左右的紧凑特征量。

近年来,在图像识别和语音识别领域,应用深度学习来提高精度的尝试很多。在声音认证领域,从2014年左右开始,关于深层学习的研究活跃起来,一个被称为深层说话者嵌入(Deep speaker embedding)的概念被业界注视。首先,训练由特征提取部和识别部构成的深层神经网络,使其能够从语音中正确推断说话者。这样形成的神经网络的特征提取部,成为只从语音中提取对说话者的识别有用的信息的优秀的特征提取器。

那么,这种技术有什么应用场景呢?因为每个人的语音都有独特的生物特征,所以,通过声音认证技术就可以实现个性化服务,典型的商务应用场景如下。

电子商务: 近年来,小额的信用卡付款大多采用无签收方式。因为省略繁琐的手续,减少购买行为的障碍,会给卖方和买方都带来好处。可以说在当今的流通业界,除了安全、安心之外,还需要便利性。语音是人们在日常交流中使用的简单的媒介,使用语音的生物测定为用户提供了简便、轻松的本人确认手段。声音认证是适用于电子商务和电话/网上银行等商务交易中的本人确认的认证手段。

呼叫中心业务: 随着企业客户意向的提高,提高呼叫中心服务质量成为各个行业的需求。其中,比较迫切的课题是,简化频繁打电话的重要顾客的本人确认手续,尽早确定投诉多的顾客等等。声音认证是在看不见对方的电话中使用的唯一的生物认证,可以通过自然的对话来识别客户,因此对呼叫中心的业务支援非常有效。

犯罪搜查: 近年来,为了打击以电话诈骗,采取了各种各样的对策。但是,这种犯罪却巧妙化、组织化,丝毫没有减弱。声音认证,作为追踪犯罪分子的脚印,支援搜查的分析工具受到重视。另外,电话和社交网络服务(SNS)等作为监视犯罪组织动向的手段也是很重要的途径。以声音为线索的分析,比近年来在街头迅速普及的监视摄像头更能发现看不见的线索,以期为抑制犯罪做出贡献。

供稿 戴维
编辑修改 JST客观日本编辑部