马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
有国外博主在研究了 DeepSeek v4 和 Kimi k2 技术文档后,发现前者使用了 Muon 优化器,并结合 Kimi 的配方来扩展其用于 LLM 训练。
同时,Kimi K2(及K2.6)又采用了 DeepSeek-V3 的架构技术(超稀疏 MoE + MLA)。
他感慨称,“开源 AI 实验室正在相互叠加彼此的研究成果,这正是它应该的样子”。
对此,美国某AI公司联合创始人转评称,这就是中国的模式,值得称赞。
同时,他吐槽之前倡导公益起家的OpenAI ,及谷歌都公布技术论文,而现在全部走向闭源,纷纷把自己变成了“黑盒”公司,让人失望。
确实如他所言,中国 AI 公司大都在走开源方向,一方面在全球 AI 生态中影响力越来越大,更重要的是,国内 AI 大模型公司间协同发展的趋势也开始形成。
这里的“协同”并不是公司层面的合作,而是开发者在实际使用中形成的分工——通过像 Dify、n8n 这样的编排工具,把不同模型嵌入同一流程。
比如 Kimi 系列长上下文能力较强, DeepSeek 代码、数学推理等结构化任务上投入更多,二者并不冲突,反而天然适合在工作流中组合使用。
一个负责长文本理解与信息整合,一个负责精确执行与生成。
这种现象背后,是国内 AI 生态一个非常现实的结构:基础设施、模型能力和应用层之间高度耦合。
云厂商如阿里巴巴、字节同时提供算力与模型服务;主流模型如DeepSeek 等直接开放权重或技术细节,让 导致架构(MoE)、训练技巧快速扩散; 创业公司在这些基础上构建差异化能力,而开源社区进一步放大技术扩散。
结果就是,MoE等架构设计、训练方法(如指令微调、对齐流程)和工程优化,会形成快速传播。
如MiniMax abab 系列公开提到 MoE 架构,长 文本能力也成为国内 AI 大模型的“标配竞争项”,大家 开始优化 attention 机制,而不是单纯堆参数。
当然,这种协同主要还是在模型架构、推理优化方法等可见层,而不是在数据构成与对齐策略等底层。
相比而言,美国则是另一番景象。
以 OpenAI 和 Anthropic 为例,两者在模型设计理念与安全策略上存在明显分歧,且分别绑定不同的云与资本体系(微软、Google、Amazon)。
这种结构导致技术路线更趋向封闭:关键方法不公开,数据体系不共享,模型能力通过 API 形成壁垒。
竞争的核心则在于“谁能构建更强的独立体系”,寡头间竞争,而不是“体系之间如何协同”。
这种协同性,更极致的一个表现就是华为与 DeepSeek v4的芯模协同优化。
DeepSeek v4 也是全球首个在官方技术报告中,将华为昇腾NPU与英伟达GPU并列写入硬件验证清单的世界级开源大模型。
报告明确指出,“我们在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度专家并行(EP)方案”,标志着模型从设计阶段就纳入了国产算力的适配目标。
这意味着,二者完成了从底层算子到上层模型的深度适配,实现了DeepSeek-V4在华为昇腾平台上从训练到推理的全栈部署,而不仅依赖英伟达硬件。
在这个层面上,模型公司与芯片公司的关系更接近“共同完成一个系统工程”,是“共研”特征的协同。
造成这种差异的根本原因,更多应该源于各自面临的系统条件。
美国拥有相对充足且成熟的算力与资本体系,使单一公司可以支撑完整闭环,更容易走向封闭竞争。
相比之下,中国的算力供给、芯片生态与应用市场之间存在更强的相互依赖关系,任何一环都很难完全独立运作,这就自然推动了跨主体的协同。
中国 AI 的“协同生态”,可能不是一个理想化的选择,而是一种工程上的必然结果,从而也就形成了一个更像“系统工程”的发展路径。
在这样的体系里,技术进步往往不是某一家公司的单点突破,而是多个环节同时推进的结果,包括接下来在市场应用端能反催生出来的无限可能。 |