客观日本

日本的同传AI达到专家级水平,目标是实现讲话同时实时处理

2021年01月20日 信息通信

日本正在推进利用人工智能(AI)技术实现日语同声传译的研究,计划2025年实现。目前语音识别精度已经足够高,今后打算提高翻译精度和速度。全球有很多与日语有相同特征的语言,实现日语的同声传译有望在国际上广泛发挥作用。

演讲者用英语做了约1分钟的演讲,他身后的画面上显示了AI进行的日语同声传译。这是日本信息通信研究机构(NICT)2020年11月举行的发布会上的一个场景。虽然从演讲者讲完到生成译文用了约10秒钟的时间,但几乎没出现翻译错误。

同声传译一般是对发言者所说的内容进行语音识别,然后利用基于AI等的翻译软件将其转换成其他语言。现有的服务大多是在发言者讲话结束后开始翻译。快节奏的对话很难翻译,传达相同的内容需要的时间是母语人士之间交流时的2倍,因此很难用于商业用途,需要开发新技术来解决这个问题。

title

现在的同声传译翻译精度已经提高,但存在时间差问题(图片由NICT提供)

NICT通过截至2019年度的国家研究项目,实现了足够高的语音识别性能。从2020年度开始打算同时提高翻译精度和速度。虽然在发布会上存在10秒的时间差,但最终有望缩短到与同声传译人员相当的2~3秒。

NICT要开发的是在讲话过程中也能进行翻译的AI,其关键是对会话句子进行分段的预处理技术。

翻译软件由对会话句子进行分段的预处理和翻译分段句子的翻译引擎两部分组成。现有技术只有整句分段才能准确地进行翻译,因此速度比较慢。如果能在一句话说完之前就开始翻译,则可以缩短时间差。

NICT在预处理中使用了名为“分块(Chunk)”的方法,即把意思分成几块,由此进行比以句子为单位时更加精细的翻译。同声传译人员也是利用这种方法,可以保持翻译精度并缩短时间差。

开发要利用大量的数据。NICT将在2021年度末之前通过同声传译人员等收集会话意思的分块位置及其译文数据。预定2022年度开发按意思进行分块翻译的AI。

与把英语翻译成日语相比,把日语翻译成英语的同声传译难度更高。因为对会话句子进行分段的预处理比较难。

在日语中,动词和表示否定等意思的重要词汇出现在句子的末尾,因此翻译时需要进行预读。而在英语等语言中,这些词汇一般出现在句子的前半句,所以更容易翻译。日语还经常省略主语,AI翻译时要补充主语,因此容易出现错误。

为了防止误译,需要采用纠错技术。比如,如果提前让AI学习关于演讲内容的数据,就可以预读会话内容,从而更准确地进行同声传译。

翻译引擎也在不断改良。不仅是日英和英日,无论哪种翻译,采用的技术都会影响翻译精度。如果翻译引擎的性能不高,那么预处理速度再快、修正功能再好也没有用。

NICT的翻译引擎除市售的便携式翻译机外,还被松下、NTT DoCoMo和NEC等的语音翻译服务采用。NICT的隅田英一郎研究员信心十足地表示:“英日翻译精度按英语能力考试(托业)换算的话大约为900分。”

提高精度方面备受期待的是在美国特斯拉首席执行官(CEO)伊隆·马斯克等人的支援下开展研究的企业——Open AI于2020年6月发布的语言AI“GPT-3”。GPT-3可以输出近似于人类的自然文章。

GPT-3通过巨大的“大脑”学习了大量文件,获得了非常高的能力。开发使用的数据相当于数千亿个单词。如果能在翻译引擎中应用GPT-3的机制,则有望大幅提高性能。

全球的IT巨头围绕同声传译展开了激烈的竞争,但NICT也有胜算。隅田研究员指出:“美国微软、中国百度和美国谷歌也是以句子为单位进行分段,分块的方法还没有取得成果。彼此之间没有差距”。各公司大力开发的美中同声传译也与NICT一样,存在10秒左右的延时。

如果能实现将日语翻译为主要语言的同声传译,将在国际上占优势。

英语、中文和法语等使用人数较多的语言都是名词后面紧跟动词的类型,约占全球语言的40%。实际上,全球的语言有一半都跟日语一样,是动词在句末的类型。相同类型的语言之间容易进行同声传译。如果能开发出连接不同类型语言的优秀同声传译技术,则有望应用于90%的语言。

日文:大越优树,《日本经济新闻》,2021年1月11日
中文:JST客观日本编辑部