科学研究 - 国立情报学研究所开发出完全开源且性能超过GPT-3.5的大规模语言模型

日本国立情报学研究所大语言模型研发中心（LLMC）于2024年12月24日宣布，该机构利用2.1万亿词条训练数据，全新训练了一个参数规模与GPT-3的1720亿参数相当的新型大规模语言模型“llm-jp-3-172b-instruct3”（https://llm-jp.nii.ac.jp/release），并已正式对外公开。

大规模语言模型“llm-jp-3-172b-instruct3”网页截图

该模型包括训练数据在内的所有内容均全部开放，是目前全球规模最大的完全开源语言模型。在衡量语言模型日语理解能力的基准测试“llm-jp-eval”和用于NEDO项目GENIAC的“llm-leaderboard”评估中，该模型的性能均超过了GPT-3.5。

LLMC基于在数据利用了“社会创建平台”mdx上完成的130亿规模的语言模型训练，以及通过产综研第二次大规模语言模型构建支援计划，使用AI桥接云（AI Bridging Cloud Infrastructure，简称ABCI）进行的参数规模达1750亿的模型训练试验成果，从而开发出了该模型。

在开发过程中，首先利用由GENIAC项目支持的云计算资源（Google Cloud Japan）对约0.4万亿个标记数据进行了初步训练。之后，又利用通过文部科学省补助金采购的云计算资源（Sakura Internet），进一步完成了约2.1万亿个标记的数据训练与优化。

用于训练的语料库包括约5920亿个日语词条。内容来源包括从整个Web存档CC（Common Crawl）数据中提取和过滤的日语文本、根据日本国立国会图书馆互联网资料收集保存事业（WARP）中抓取的网页数据、以及日语维基百科和科研经费数据库的各研究项目概要文本。

此外，还使用了约9500亿个英语词条（如Dolma等）、约10亿个中文和韩语词条，以及1140亿个编程代码词条。总计训练数据量约1.7万亿标记，额外对日语语料库中的约0.4万亿标记进行了两轮训练。

所开发的模型约有1720亿个参数，模型结构基于Llama2。为优化性能，使用了日语指令数据和13种英文指令数据的日文翻译数据进行调整。

在“llm-jp-eval v1.4.1”基准测试中，该模型取得了0.613的分数，超过了GPT-3.5的0.590。此外，在“llm-leaderboard”评估中，也取得了0.669的分数，同样超过了GPT-3.5的0.653。

虽然在现有技术条件下，该模型已尽可能地进行了安全性优化，但从技术上完全保证模型的安全性仍存在困难，因此模型有可能在特定输入下输出不合适的内容。

对此，LLMC计划利用本次公开的模型及未来构建的模型，推进大规模语言模型透明性和可靠性相关的研究开发。

原文：《科学新闻》
翻译：JST客观日本编辑部

国立情报学研究所开发出完全开源且性能超过GPT-3.5的大规模语言模型

相关阅读

NEC与富士通竞相开发应对“AI幻觉”新技术

九州大学开发出AI计算过程可视化的新方法，有助于解决“黑箱问题”

“游戏有改善心理健康和提升生活满意度的效果”——日本大学等利用新冠疫情开展研究

全球数字政府排名：日本第11，新加坡时隔7年重返榜首

国际交流

专题报道

链接集