客观日本

产综研开发擅长日语语音的AI模型,且能够情感识别

2025年05月01日 信息通信

日本国立开发法人产业技术综合研究所(AIST,以下简称“产综研”)公开了一套用于开发语音识别、情感识别的人工智能(AI)基础模型。该模型针对日语设计,使用该模型后,仅需少量数据即可开发出高性能语音AI。预计该模型有望应用于老年人的语音、方言等AI学习数据较少的领域。

title

AI模型的构建使用了产综研的超级计算机“ABCI2.0”(供图:产综研)

开发能够从语音中提取文本数据、判别情感的AI,需要语音与原始文件配对的数据。提升AI性能的通常需要海量数据。与英语等语言相比,使用人数较少的日语在数据准备上存在难度。

此次研究团队利用6万小时的日语语音数据,构建了专门针对日语语音的基础模型。开发的基础模型分为特性不同的两类,因有望成为日语语音AI的“孕育母体”,故根据日本神话中登场的女神名字,分别命名为“伊邪那美”和“栉名田”。

使用该基础模型开发语音AI并评估其对喜悦、愤怒、悲伤、平静四种情感的识别性能后发现,结果正确率超过80%。而未使用基础模型开发的语音AI正确率约为70%。若要实现同等性能,使用基础模型仅需100小时的语音与文件配对的数据,而从零开始开发则需要约2000小时的数据。

开发出来的基础模型可在日语语音AI制作中发挥作用。产综研研究团队负责人深山觉表示:“开发新型语音AI时,必须准备相当数量的语音与文字转录配对数据。使用本模型能够减少所需的数据量。”

研究团队认为,即便在老年人语音这类声音与文件配对数据较少或方言这类使用者较少的领域,该模型也能推动高性能语音AI的开发。

原文:《日本经济新闻》、2025/4/15
翻译:JST客观日本编辑部