智源研究院发布首个中英双语开源商用大模型“悟道·天鹰”，首发大模型测评体系“天秤FlagEval”

2025-06-07 11:37:21 | 来源: AICG工具箱

6月9日报道 | 6月9日的智源大会上推出悟道·天鹰与天秤FlagEval，推动了大模型在产业落地和技术创新，智源研究院发布了首个支持中英双语知识开源商用许可的大模型与首创”能力-任务-指标”三维测评的平台这两大重磅产品。

“悟道·天鹰”Aquila模型系列中包含具备中英双语知识、支持商用许可协议、支持国内数据合规要求的开源语言大模型。悟道·天鹰（Aquila）系列模型包括 Aquila基础模型（7B、33B），AquilaChat对话模型（7B、33B）以及 AquilaCode “文本-代码”生成模型。

开源地址：https://github.com/FlagAI-Open/FlagAI/tree/master/examples/Aquila

大会上强调了AquilaChat对话模型四个技能：

智能对话

写作功能

可拓展特殊指令规范

指令分解能力

智源研究院副院长兼总工程师林咏华告诉媒体，一个消费级显卡就能运行Aquila-7B模型：如果是FP16精度，Aquila-7B模型可以在20GB显存的显卡上运作起来，换成低精度的模型，则可以用更小的显存。

“我们的发布只是一个起点。”她说道，智源今天打造了一整套“大模型进化流水线”，基于此，智源会让大模型在更多数据、更多能力的增加之下，源源不断地成长。

智源研究院首创“可持续、自动化评测辅助模型训练”的新范式，将大模型训练与评测结合，利用阶段性的自动化评测结果，指导后续训练的方向、选择更优路径，大幅提升模型训练的效果，实现了“大模型进化流水线”，悟道 · 天鹰Aquila语言大模型系列后续也将持续迭代、持续开源。

FlagEval（天秤）大语言模型评测体系及开放平台

目前，传统评测方法已经远远无法满足大模型评测的需求。因此，打造一套“自动化评测+人工主观评测”的大模型全面评价系统，已是基础大模型创新的重要壁垒之一。

智源推出的天秤（FlagEval）大模型评测体系及开放平台，协助相关研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评测的效率和客观性。

FlagEval构建了“能力-任务-指标”三维评测框架，深度测试基础模型的认知能力边界颗粒，并可视化呈现评测结果。

同时FlagEval开放评测平台现已开放，支持英伟达、寒武纪、昆仑芯、等多种芯片评测，以及PyTorch、MindSpore以及多种深度学习框架。

测试平台链接：http://flageval.baai.ac.cn

作为打造中国A人工智能三步走战略重要的一环节，天秤FlagEval评测体系与多所大学联合定期发布权威评测榜单。期待国家在语言、视觉，多模态大模型上继续突破。

热门榜单

热门资讯