夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 232|回复: 5

[数码资讯] 华为盘古 718B 模型最新成绩:开源第二

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:782
发表于 2025-9-30 09:03 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
高手如云,高手如云,但华为依旧“杀”出了一片天。

就在最新一期的 SuperCLUE 中文大模型通用基准测评中,各个 AI 大模型玩家的成绩新鲜出炉。

从大家最为关心的开源、国产两个维度来看,前三名排名分别为:

DeepSeek-V3.1-Terminus-Thinking

openPangu-Ultra-MoE-718B

Qwen3-235B-A22B-Thinking-2507



(注:SuperCLUE 是一个综合性的大模型评测基准,本次通过对数学推理、科学推理、代码生成、智能体 Agent、幻觉控制、精确指令遵循六个维度的核心能力进行评估,共计 1260 道题目。)

那么华为这个拥有 7180 亿参数体量的 MoE 大模型,究竟凭什么脱颖而出?

在我们与 openPangu 核心成员深入交流之后,发现他们的训练哲学并非是大力出奇迹,与之恰恰相反 —— 不靠堆数据,靠会思考。



这又是什么意思呢?接下来,我们就来一同细看。

数量给质量让路
我们都知道,训练数据的质量直接影响大模型的最终能力。

因此,openPangu 团队在后训练数据构建中遵循了三个核心原则:质量优先、多样性覆盖、复杂度适配。

并且为此建立了一套覆盖“数据生成-科学筛选-精准增强”的全流程方案。



▲ 通用后训练数据构建框架
质量优先:团队建立了指令数据质量评估体系,结合规则、模型和人工三重审核机制,以确保低质量样本的有效清理。

多样性覆盖:从领域和任务类型两个维度进行设计,并通过去重和压缩选样算法,在保证数据覆盖广度的同时避免冗余。

复杂度适配:为避免模型仅在简单任务上过拟合,团队通过推理步骤、概念抽象度、计算复杂度等指标对任务难度进行量化,并利用自迭代拒绝采样策略,重点进行中高难度任务的训练。

这种对数据质量的严格把控,正是提升模型在复杂场景下推理能力的关键因素之一。

三阶段预训练策略
除了数据质量之外,模型的基础能力与预训练阶段是息息相关。

整体来看,团队将 openPangu-718B 的预训练过程被设计为三个阶段:通用(General)、推理(Reasoning)和退火(Annealing)。

首先是通用阶段,这个阶段的目标是为模型构建广泛的世界知识。模型通过学习大规模的文本和代码数据,形成对世界的基本认知。

其次是推理阶段,专注于提升模型的逻辑推理能力。团队显著增加了泛数学、STEM(科学、技术、工程和数学)及代码数据的训练比重,并重点引入了高难度的多步骤推理题库。

为提升多步推理的准确性并减少幻觉,团队为这部分数据制作了详细的思维链(CoT),以引导模型学习解决问题的逻辑路径。

最后是退火阶段,此阶段旨在增强模型应用知识和推理技能的能力。训练文本的上下文长度被阶梯式地提升至 8K、32K 和 128K,同时增加了指令类数据的占比。

此外,该阶段还引入了多种 Agent 类型的数据,为模型学习使用外部工具(Tool-use)建立基础。

缓解幻觉有妙招
幻觉可以说是大型语言模型普遍面临的一大挑战,为缓解这个此问题,团队引入了“批判内化”(Critique Internalization)机制。

这个机制的核心思想是,不仅让模型学习正确的示范(传统 SFT 模式),更要让模型学习如何评判一个解答的优劣。

不同于传统的批判微调(CFT)只依赖固定的人类反馈数据来训练模型,批判内化策略在初始模型训练完成后,利用拒绝采样阶段引入额外的自我批判信号,引导模型在生成答案时基于不同任务的行为准则 Guideline,主动审视自己的推理过程。

通过这种训练,模型能够将批判性思维融入自身推理过程。在生成回答时,它能更好地审视自身的逻辑链条,检查是否存在逻辑跳跃、信息遗漏或偏离指令等问题。

实验结果表明,该机制有效缓解了模型幻觉,并提升了指令遵从性和价值观对齐的表现。同时,这种针对性的反思也使得模型的输出更为精炼和可靠。

Agent 能力也进化了
为了提升模型使用工具的能力,团队采用了升级版的工具数据合成框架 ——ToolACE。

这个框架通过一系列关键技术,生成了大量高质量、高复杂度的多轮多工具调用数据用于训练。



领域工具组合:将现实场景中相互关联的工具(如日历查询和航班预订)进行组合,并提供工具依赖图和领域规则,使模型学习在复杂任务中如何协同使用多个工具。

交互式目标轨迹生成:采用“计划-执行”分离策略,先由 AI 规划出解决任务的工具调用序列,再通过与模拟环境的交互执行该序列,生成完整的工具使用轨迹。

多智能体对话生成:利用多个 AI 智能体模拟用户与助手的互动,将工具调用过程转化为自然的对话脚本,并引入随机打断、反问澄清等复杂交互情况,以提升数据的真实性。

多维校验与错例迭代:对生成的数据进行多维度质量检查,包括内容满足度、状态变化正确性、工具调用效率等。低分数据将被分析错误原因,并用于迭代优化生成策略。
  • 打卡等级:已臻大成
  • 打卡总天数:472
发表于 2025-9-30 09:07 | 显示全部楼层
看看
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:481
发表于 2025-9-30 10:11 | 显示全部楼层
谢谢楼主分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:785
发表于 2025-9-30 10:36 | 显示全部楼层
感谢分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:771
发表于 2025-9-30 10:58 | 显示全部楼层
谢谢分享。
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:189
发表于 2025-9-30 12:03 | 显示全部楼层
不管你信不信,反正我是信了。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-4-20 02:16 , Processed in 0.610201 second(s), 4 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表