客观日本

NTT实现全球首款可与驾驶员自然交谈路边场景的对话AI

2022年06月27日 信息通信

NTT实现了一种在汽车行驶过程中,可以与驾驶员就车窗外不断变化的风景进行聊天的对话式AI。该AI并不是简单地回答驾驶员提出的问题,而是能自然地回应驾驶员所述内容,并适时提供驾驶员可能感兴趣的信息,可以作为一种新型驾驶伙伴。NTT在通信科学基础研究所在6月2日和3日在线举行的Open House 2022上公开了这项研发成果。

title

位于副驾驶席一侧的对话AI机器人与驾驶员聊天(供图:NTT)

传统的对话系统大多只能输入从说话者的话中获得的文本信息,无法获取周围的实时图像信息和位置信息等。NTT此次开发的对话AI以NTT构筑的深度学习为基础,在大规模对话模型中追加了驾驶过程中的对话数据和周边信息数据,从而实现了按照外部可见的风景和相关信息进行的更加自然的对话。

例如,经过咖啡店时,对话AI会主动说:“这是一家很有格调的咖啡店哟”,如果驾驶员回应说:“啊,还真是呢”,对话AI就会继续说:“一边看海一边喝咖啡,多浪漫啊”。如果驾驶员回应说:“你很会讲话啊”,对话AI就会说:“啊哈哈,是这样的吗?”。NTT称这是世界上第一个对话系统,它与传统的对话系统完全不同,可以用知识和共鸣来回应对话,就像伙伴一样。

为实现这种新型对话AI,NTT使用了世界最大规模的对话数据进行深度学习。这种大规模对话模型是利用从SNS收集的21亿个对话数据构建的,具有极高的性能,用于学习的对话数据量为目前全球最大规模。与基于规则和主谓宾关系等统计信息的传统对话模型有着根本的不同,实现了对复杂上下文的理解和自然的对话。

该对话模型只对输入的文本信息进行处理,因此虽然文本对话实现了非常自然的闲聊,但很难结合周围的实际情况进行对话。于是,NTT开发了将图像中的物体信息和周围地点信息输入大规模对话模型的技术,由此大规模对话模型可以输出反映这些信息的对话。通过学习驾驶对话数据,实现了可基于周围的风景图像和地点信息的对话。

另外,由于驾驶过程中位置会连续不断地变化,因此对话AI需要了解驾驶员谈论的是哪里的图像和地点信息,并在适当的时机与新输入的信息进行互动。

为此,NTT开发了根据对话上下文推测谈论的图像,以及针对外部输入的图像推测对话的话题增强技术,通过将这些信息适当地纳入到时序控制中,满足了对AI的要求,实现了可以结合风景和周围信息聊天的对话AI。

NTT的目标是实现日常的驾驶伙伴,为实现自然的日常对话、防止驾车时打瞌睡和分心,以及实现可以自由使用对话进行搜索的语音导航等功能,还将通过实际车辆和VR等推进验证实验。

原文:《科学新闻》
翻译编辑:JST客观日本编辑部