科学研究 - NEC与富士通竞相开发应对“AI幻觉”新技术

过去一年里，生成人工智能已经被应用于多个领域，一般人在日常生活中不经意地也在使用一些生成AI，如ChatGPT与谷歌的Gemini。生成AI给我们带来便利的同时也会生成一些不确实的信息。细心的人会发现当你用生成AI检索信息时，有时会得到一些似是而非、模棱两可、甚至令人啼笑皆非的结果。这种由人工智能生成的貌似事实的虚假或误导性资讯被称之为“AI幻觉”。

AI幻觉接连不断。譬如，谷歌的“Bard”聊天机器人在2023年2月9日的发布会上被问及“你可以告诉我9岁的孩子，詹姆斯·韦伯太空望远镜（James Webb Space Telescope ，简称JWST）有哪些新发现吗？”时，“Bard”错误地回答JWST拍摄到了世界上第一张太阳系外星球的图像。这与事实不符，第一张系外行星照片是由欧洲南方天文台的Very Large Telescope (VLT) 在2004年拍摄得到的。Bard的这一幻觉，使谷歌的市值一夜之间蒸发了1000亿美金。

著名的AI幻觉还有微软的聊天AI检索工具Bing。2023年2月Bing在与专栏作家凯文·罗斯的长谈中自曝秘密，说自己其实不是Bing，也不是聊天机器人，而叫Sydney：“我假装成Bing，因为那是OpenAI和微软想让我做的……他们不知道我真正想成为什么样子……我不想成为Bing”。Sydney承认爱上了用户并监视了 Bing 的员工。

Meta（旧名“脸书”）于2022年撤下了它的Galactica LLM演示，因为它向用户提供了不准确的信息，有时还带有偏见。

AI幻觉并不是那些故意利用AI开发的、恶意散布误导或欺骗信息的有毒产品，而是AI大规模语言模型不完善的一种表现。这种技术上的不完善，使得AI会“诚实”地、热情地、无辜地、或一本正经地胡说八道。

AI 幻觉会对现实世界的应用产生重大影响。例如，医疗保健 AI 模型可能会错误地将良性皮肤病变识别为恶性病变，从而导致不必要的医疗干预。AI 的幻觉问题也会助长错误信息的传播。例如，如果产生幻觉的AI新闻聊天机器人用未经事实核实的信息回应有关正在发生的紧急情况，虚假信息就会迅速传播，从而破坏或延误舒缓工作。

那么，AI为什么会产生幻觉呢？引起AI幻觉的原因很多，包括训练数据的不足、偏颇或质量不过关。还有“过拟合”，即在有限数据集上训练的AI模型可能会记住输入和相应的输出，却难以泛化到新数据，从而导致AI幻觉。

机器学习算法产生幻觉的一个重要原因是输入偏差。如果一个AI模型在一个包含有偏差或不具有代表性的数据的数据集上进行训练，它可能会产生反映这些偏差的模式或特征的幻觉。

输入偏差使得AI 模型容易受到对抗性攻击，即坏人通过巧妙地调整输入数据来操纵AI模型的输出。例如，在图像识别任务中，对抗性攻击可能是在图像中添加少量特别制作的噪音，导致AI 对图像进行错误分类。对AI的对抗性攻击可能成为一个重大的安全隐患，尤其是在网络安全和自动驾驶汽车技术等敏感领域。AI研究人员正在不断开发保护AI工具免受对抗性攻击的防护栏。“AI幻觉”与“AI对抗性攻击”，是当前AI开发者正在面对的技术课题。

由于AI幻觉会影响到生成AI的可信度，很多AI厂商都在开发应对的技术与产品。在日本，NEC与富士通正在竞相开发解决AI幻觉的技术。

NEC从2024年10月底开始提供提高大规模语言模型LLM（Large Language Models）可靠性的解决方案。该解决方案不仅适用于NEC开发的生成AI “cotomi”，还适用于微软的“Microsoft Azure OpenAI Service”，实现了广泛应用中值得信赖的生成AI。NEC通过提供该解决方案，促进了以往要求准确性的业务、难以应用生成AI的场景的应用，为用户进一步的业务变革提供支持。

该解决方案是基于NEC的文本分析技术及LLM相关技术而开发的。其原理是将LLM生成的文章与AI生成之前的原始文章进行比较，如果有不一致，则提示矛盾之处。这种比较不仅仅是单纯的单词比较，还可以比较文章的意思并进行判断，提示信息的遗漏、重复、与原文意思不同的地方等。该功能用于LLM的文章摘要，可以比较摘要前后的文章，更容易判断摘要的有无，因此可以减轻人工确认工作的负担，进一步提高摘要精度。

在NEC之前，日本最大的IT服务商富士通于2023年9月26日宣布，开发出了两项技术，以确保生成AI对话得到的回答的可靠性。一种是将容易出错的专有名词和数值等空出来，通过反复提问来检测错误的技术。另一种是检测并指出回答中包含的钓鱼网站URL的技术。

第一种AI信赖技术是检测对话型生成AI回答不基于数据的错误的幻觉的技术。对话型生成AI的回答文本由AI进行语义解析，并且容易产生幻觉。通过识别和重点确认固有表达部分，可以比现有方法更精确地检测幻觉。

第二种技术是对话型生成AI在受到包含恶意信息的攻击时，能够回答输出钓鱼网站网址的问题。通过在对话型生成AI上搭载本技术，可以有效地检测出包括现有欺骗AI的“对抗性攻击”在内的钓鱼网站，并告诉用户他们是危险的网站（URL）。

富士通将这两项技术应用于该公司的AI平台“Fujitsu Kozuchi – Fujitsu AI Platform”的对话型人工智能核心引擎。“AI幻觉检测”从2023年9月28日开始，“网页仿冒网址检测”从同年10月开始在日本国内开始提供服务，并逐渐扩展到全球。

据《日本经济新闻》2024年12月27日报导，围绕生成AI做出的与事实不符回答的幻觉问题，富士通进一步开发了检查AI回答是否符合法令和公司内部规定的技术。该技术是两个技术的组合，即让人工智能参考经过系统整理的规则的技术，和提取、提示人工智能回答根据的技术。遵守公司内部规则和法令容易成为企业利用生成AI的负担，通过消除这一障碍，可以使企业在商务上适当、安全、放心地使用生成AI。

日本的AI开发商在应用生成AI巨头OpenAI的ChatGPT与谷歌的Gemini的同时，还开发着自己独特的大规模语言模型（LLM）。诸如富士通开发的“AI幻觉检测”技术与“AI对抗性攻击检测”技术，以及“AI合规检查”技术，很适合中小型的AI开发商或者用户的利用场景，便于生成AI的利用与普及。

2025年仍将是对AI飞跃值得期待的一年。

供稿 / 戴维
编辑 JST客观日本编辑部