找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 91|回复: 7

盘古大模型被曝“套壳续训”?

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-7-10 08:30 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
最近这件事闹得沸沸扬扬的,在Github上有一个话题:在Pangu Ultra的测试结果中有100%正确率的这种测试集结果是非常离谱的。


具体的讨论贴可以看github这里:
https://github.com/HW-whistleblower/True-Story-of-Pangu/issues/317
1.webp



其实如果有微调过大模型的人都知道,想要在一个测试集上达到100%的分数基本上是不可能的。


因为本身大模型就会存在幻觉现象,而且ARCE这个测试集有7000多条的数据,大模型基本上不可能每一条都能够答对,只能是无限趋近于100%的准确率。


那盘古大模型为什么能取得这么高的分数呢?从Github上爆料上来看,在测试过程中只取了部分的测试集,也就是从ARCE这个数据集上抽取了100条,然后进行测试。把子集的结果当成了整个测试集的结果。
2.webp



同时最近也有一篇小作文“盘古之殇”发在github上爆火,引发了很多人的思考
3.webp



但是文中还是有一些疑点。比如文章中写到:
当时使用的tokenizer编码效率极低,每个单个的符号,数字,空格,乃至汉字都会占用一个token
tokenizer应该是很成熟和通用的一个技术了,而作者团队在更换小模型之前还是用绝对编码,这个不符合现有大模型技术的逻辑。毕竟位置编码现在大部分都用了Rope,不应该还会使用比较落后的绝对编码进行训练。


还有这一段话
切换绝对位置编码到rope,去掉bias,切换为rmsnorm
直到 2024 年中才将 绝对位置编码 → RoPE、Bias → 无偏卷积、LayerNorm → RMSNorm 等改动列为“重大突破”,但是实则业界 2022 年起已是默认配置。作为大模型训练团队不应该连这么热门的技术都不知道的  


当然最后他们两个团队的赛马问题,加速了数据、算力、人力的内耗:
4.webp







整体事件回顾一下:在6月30日华为发布了新的盘古大模型,但是随后HonestAGI团队发布一项名为“模型指纹”,指责盘古大模型抄袭。


那么盘古大模型到底是hw自研的还是基于Qwen、DeepSeek继续训练而来的呢?这个其实真的不好说,从匿名团队 HonestAGI 在 GitHub 发布“模型指纹”报告,称盘古与阿里 Qwen-2.5 14B 权重极度相似,涉嫌“套壳续训”。


它这里面用到的相似度计算核心思路在于:用每层 Q/K/V/O 投影矩阵 σ 值组成 1 D 特征向量,计算皮尔逊相关系数。方法实现简单、易复现。


从它论文中贴图来看,其QKV的具体参数和qwen的相似度都很吻合,而且盘古大模型的参数层数基本和Qwen2.5相似,都是40+层。所以作者认为盘古基本就是Qwen2.5的套壳产品。
5.webp



这次的这个小作文可能从另一个角度上验证了盘古大模型确实存在“套壳续训”的嫌疑。


因为如果你从实际工程角度来看:


第一,一个团队在没有完整数据清洗流程、算力投入和工程积累的情况下,直接训练出一个性能媲美国际顶尖模型的结果,本身就是极低概率事件;


第二,如文章中提到,他们在2024年中才开始将RoPE、RMSNorm这些2022年就已成为业界标准配置的技术引入到模型中,这说明团队在大模型领域的技术积累确实存在空白,甚至连Transformer主干架构的更新都没有跟上。


更重要的是,如果真的有完全自研的大模型,最关键的体现应该是“架构创新”和“训练策略创新”,而不是在模型发布后还被质疑基础模块配置落后。这从侧面也解释了为什么会出现“在测试集上100%正确率”这种完全不符合常理的结果——要么就是测试集规模被有意缩小,要么就是模型和测试集存在高度重叠,换句话说,就是测试集泄露。


当然,目前盘古团队对于这次指控并没有公开、详细的技术澄清,仅仅一句“我们是自研”无法说服专业人士。随着模型指纹检测方法的成熟,未来如果继续有团队尝试“借壳”并声称完全自研,那么类似的技术质疑只会越来越多,也会推动行业的透明化与规范化。
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-7-10 13:00 | 显示全部楼层
很神奇的就是目前任何热点都没有主流媒体的身影
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-7-10 13:03 | 显示全部楼层
最主要的是一旁看华为笑话的美国人一直没有发声。
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-7-10 13:09 | 显示全部楼层
只要是华为的模型,他就是百分百正确率,可以突破理论的限制
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-7-10 16:40 | 显示全部楼层
小作文又来了,上一篇没24小时就删了,咋滴?怕点击量上来成被告啊?这一篇撑多久?
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:410
发表于 2025-7-10 17:21 | 显示全部楼层
王云鹤将会是华为的耻辱,立此为证!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-7-10 18:39 | 显示全部楼层
知道为什么阿里巴巴默不作声吗?如果不知道,至少应该知道开源代码和闭源代码的区别吧?
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2025-7-10 19:53 | 显示全部楼层
华为实力不如阿里
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2025-7-17 23:10 , Processed in 0.196163 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表