2025年6月30日,华为正式宣布开源盘古7B参数的稠密模型、盘古Pro MoE 72B混合专家模型和基于昇腾的模型推理技术。随后一项由@HonestAGI 发布于GitHub的针对盘古大模型的研究引发业界热议,该研究的作者认为,华为推出的盘古大模型(Pangu Pro MoE)与阿里巴巴发布的通义千问Qwen-2.5 14B模型在参数结构上存在高相似度。
HonestAGI 通过测试比较称,Pangu Pro MoE模型与Qwen-2.5 14B模型在注意力参数分布上的平均相关性高达0.927,远超其他模型对比的正常范围(业内同类模型对比通常不超过0.7)。
由于深度学习模型的训练具有高度随机性,涉及复杂的数据采样、权重初始化及优化路径。两个模型在众多注意力参数上呈现近乎一致的分布,其自然发生的概率极低。因此,这种极高的相似度,立即引发其涉嫌“抄袭”的质疑。
随后,有自称是盘古大模型团队的人在GitHub上进行了回应,否认抄袭指控,并且认为该作者的评估方法不科学。
该用户表示,使用论文中描述的方法,评估了以下模型比较:
pangu-72b-a16b vs. Qwen2.5-14b = 0.92
baichuan2-13b vs. Qwen1.5-14b = 0.87
baichuan2-13b vs. pangu-72b-a16b = 0.84
baichuan2-13b vs. Qwen2.5-14b = 0.86
可以看到不同其他相近参数规模的模型在该评估方法下也得到了与Qwen-2.5 14B模型高度相似的结果。这表明该论文和指标缺乏实际意义。盘古团队进一步重申没有抄袭。
对于该回应,HonestAGI 表示,其无法信服盘古大模型团队的说法。HonestAGI 称,“盘古仍然显示出最高的相似度,对吧?我们很高兴看到您成功复现了我们的结果!事实上,任何分类问题都有一个阈值来识别决策边界(例如,本例中疑似值为0.9)。这主要是一个用于初步比较的工具,而盘古‘不幸地’在我们开始进一步调查之前触发了这个警告信号。我们并非仅仅基于注意力参数就做出判断。这只是动机。……”
随后,HonestAGI 还提供了 Qwen 和 Hunyuan A13B 之间的比,结果显示二者在不同层级上展现出截然不同的内部模式,这表明它们拥有截然不同的架构和学习到的表征。显然,HonestAGI提供该对比数据是想说明其测试方法没有问题。
不过,目前HonestAGI似乎已经下线了之前关于盘古大模型的研究报告。但是,HonestAGI 在最新的回应中表示,“我们计划在论文最终定稿并提交所有代码后,将其提交给同行评审会议(可能是 ICLR 或之后的会议?)。”
另外,值得注意但是,通过查询盘古大模型团队官方发布在国内代码托管平台Gitcode(类似国外的Github)的“盘古Pro”大模型代码,可以发现其“'Open Source Software Notice”当中的赫然出现了关于“transformers”组件的版权声明“Copyright notice:Copyright 2024 The Qwen team, Alibaba Group and the HuggingFace Team. All rights reserved.” 显然这段说明的意思是,其所用到的“transformers”组件的版权所有人是Qwen团队、阿里巴巴集团和HuggingFace团队。