科学研究 - 大阪大学开发出供失声者使用的AI应用程序，可根据嘴唇运动推测发声内容

大阪大学三浦典之教授等组成的研究团队开发出了一款人工智能（AI）应用程序，能根据摄像头拍摄的口部视频来推测并读取所说内容。这款程序以因喉癌等疾病手术而失去声音的人为对象群体而设计，还可根据预先录制的本人的声音进行模拟发音。

大阪大学开发的应用程序可根据说话的口型推测并播放所说内容

喉头对发声起重要作用，接受了喉头切除手术的患者会失声。为了交流，虽然他们可以通过佩戴颈部设备或通过在颈部的开孔发声的“替代声音”方式，或在智能手机上输出合成声音。然而，这些方法存在给患者身体带来负担或让人感到不便的问题。

英语有20个左右元音，因此便于通过口型分辨发声内容，目前已有根据口部视频高精度推测英语发音内容的应用程序。而日语只有5个元音，类似技术的实现困难较高。

2009年，神奈川工业大学等机构着眼于日语元音前后文字结构，开发了一种对口部形状进行详细分类的“口型代码”。此次，研究团队利用AI结合了根据口周视频推测口型代码，并通过另一种AI将这些代码转换为文字，开发了可推测发音内容的应用程序。

研究团队整合了市面上销售的可以自由合成个人声音的系统。用户只需录制5分钟左右的音频，程序便能合成以本人的声音逐次播放所说的内容。

研究团队称，要实现这项技术的实际应用，仍需要提升AI性能以扩充词汇量等改进工作。大阪大学的三浦教授表示：“我们希望尽快开展实证实验，力争在数年内实现应用。”

原文：《日本经济新闻》、2024/10/29
翻译：JST客观日本编辑部

大阪大学开发出供失声者使用的AI应用程序，可根据嘴唇运动推测发声内容