在技术快速迭代的时代,如何建立更加科学、透明的模型评估机制,如何在激烈竞争中保持技术诚信,如何在开源合作与商业利益间找到平衡,这些都是行业必须直面的课题。
整整一个周末,围绕着“华为大模型抄袭”的话题持续不断地跃入大众的视野。
事件的主角是华为于6月30日正式开源的盘古大模型(Pangu Pro MoE),起因则是由HonestyAGI在GitHub中发布的一项研究,通过论文式的推理证明盘古大模型抄袭了阿里巴巴的通义千问Qwen-2.5 14B模型。
在这项研究中,HonestAGI提出了通过分析模型注意力参数的标准差模式来识别“模型指纹” (LLM-Fingerprint)的方法,并基于此对华为Pangu Pro MoE模型的来源进行了分析。
研究中的关键发现,便是华为Pangu Pro MoE模型与Qwen-2.5 14B的标准差模式相关性高达0.927,这就表明其可能基于Qwen-2.5“升级改造”而非从头训练。
除此之外,HonestAGI还发现盘古大模型官方在GitCode中发布的代码中,还异常地包含了Qwen 2024的许可证。其意在指出,盘古大模型团队所用到的“transformers”组件的版权归属于Qwen团队、阿里巴巴集团和HuggingFace团队。
而且若是对比着来看两篇技术报告,虽然他们均采用MoE架构优化计算效率,结合大规模预训练与多阶段微调提升能力,且关注长上下文和多任务泛化;但Pangu Pro MoE是以“硬件-架构协同设计”为核心,而Qwen2则是以“模型通用性与多语言能力”为核心;前者聚焦负载均衡与Ascend硬件适配,后者侧重专家设计与模型规模扩展。