大阪大学三浦典之教授等组成的研究团队开发出了一款人工智能(AI)应用程序,能根据摄像头拍摄的口部视频来推测并读取所说内容。这款程序以因喉癌等疾病手术而失去声音的人为对象群体而设计,还可根据预先录制的本人的声音进行模拟发音。
大阪大学开发的应用程序可根据说话的口型推测并播放所说内容
喉头对发声起重要作用,接受了喉头切除手术的患者会失声。为了交流,虽然他们可以通过佩戴颈部设备或通过在颈部的开孔发声的“替代声音”方式,或在智能手机上输出合成声音。然而,这些方法存在给患者身体带来负担或让人感到不便的问题。
英语有20个左右元音,因此便于通过口型分辨发声内容,目前已有根据口部视频高精度推测英语发音内容的应用程序。而日语只有5个元音,类似技术的实现困难较高。
2009年,神奈川工业大学等机构着眼于日语元音前后文字结构,开发了一种对口部形状进行详细分类的“口型代码”。此次,研究团队利用AI结合了根据口周视频推测口型代码,并通过另一种AI将这些代码转换为文字,开发了可推测发音内容的应用程序。
研究团队整合了市面上销售的可以自由合成个人声音的系统。用户只需录制5分钟左右的音频,程序便能合成以本人的声音逐次播放所说的内容。
研究团队称,要实现这项技术的实际应用,仍需要提升AI性能以扩充词汇量等改进工作。大阪大学的三浦教授表示:“我们希望尽快开展实证实验,力争在数年内实现应用。”
原文:《日本经济新闻》、2024/10/29
翻译:JST客观日本编辑部