不止华为芯模协同,DeepSeek V4 还反映了这个“中国AI模式”

咖啡豆 · 发表于 2026-4-26 09:03

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

有国外博主在研究了 DeepSeek v4 和 Kimi k2 技术文档后，发现前者使用了 Muon 优化器，并结合 Kimi 的配方来扩展其用于 LLM 训练。
同时，Kimi K2（及K2.6）又采用了 DeepSeek-V3 的架构技术（超稀疏 MoE + MLA）。

他感慨称，“开源 AI 实验室正在相互叠加彼此的研究成果，这正是它应该的样子”。
对此，美国某AI公司联合创始人转评称，这就是中国的模式，值得称赞。

同时，他吐槽之前倡导公益起家的OpenAI ，及谷歌都公布技术论文，而现在全部走向闭源，纷纷把自己变成了“黑盒”公司，让人失望。

确实如他所言，中国 AI 公司大都在走开源方向，一方面在全球 AI 生态中影响力越来越大，更重要的是，国内 AI 大模型公司间协同发展的趋势也开始形成。
这里的“协同”并不是公司层面的合作，而是开发者在实际使用中形成的分工——通过像 Dify、n8n 这样的编排工具，把不同模型嵌入同一流程。

比如 Kimi 系列长上下文能力较强， DeepSeek 代码、数学推理等结构化任务上投入更多，二者并不冲突，反而天然适合在工作流中组合使用。

一个负责长文本理解与信息整合，一个负责精确执行与生成。

这种现象背后，是国内 AI 生态一个非常现实的结构：基础设施、模型能力和应用层之间高度耦合。

云厂商如阿里巴巴、字节同时提供算力与模型服务；主流

模型如DeepSeek 等直接开放权重或技术细节，让

导致架构（MoE）、训练技巧快速扩散；

创业公司在这些基础上构建差异化能力，而开源社区进一步放大技术扩散。

结果就是，MoE等架构设计、训练方法（如指令微调、对齐流程）和工程优化，会形成快速传播。

如

MiniMax abab 系列公开提到 MoE 架构，长

文本能力也成为国内 AI 大模型的“标配竞争项”，大家

开始优化 attention 机制，而不是单纯堆参数。

当然，这种协同主要还是在模型架构、推理优化方法等可见层，而不是在数据构成与对齐策略等底层。

相比而言，美国则是另一番景象。

以 OpenAI 和 Anthropic 为例，两者在模型设计理念与安全策略上存在明显分歧，且分别绑定不同的云与资本体系（微软、Google、Amazon）。

这种结构导致技术路线更趋向封闭：关键方法不公开，数据体系不共享，模型能力通过 API 形成壁垒。

竞争的核心则在于“谁能构建更强的独立体系”，寡头间竞争，而不是“体系之间如何协同”。

这种协同性，更极致的一个表现就是华为与 DeepSeek v4的芯模协同优化。
DeepSeek v4 也是全球首个在官方技术报告中，将华为昇腾NPU与英伟达GPU并列写入硬件验证清单的世界级开源大模型。

报告明确指出，“我们在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度专家并行（EP）方案”，标志着模型从设计阶段就纳入了国产算力的适配目标。
这意味着，二者完成了从底层算子到上层模型的深度适配，实现了DeepSeek-V4在华为昇腾平台上从训练到推理的全栈部署，而不仅依赖英伟达硬件。

在这个层面上，模型公司与芯片公司的关系更接近“共同完成一个系统工程”，是“共研”特征的协同。

造成这种差异的根本原因，更多应该源于各自面临的系统条件。

美国拥有相对充足且成熟的算力与资本体系，使单一公司可以支撑完整闭环，更容易走向封闭竞争。

相比之下，中国的算力供给、芯片生态与应用市场之间存在更强的相互依赖关系，任何一环都很难完全独立运作，这就自然推动了跨主体的协同。

中国 AI 的“协同生态”，可能不是一个理想化的选择，而是一种工程上的必然结果，从而也就形成了一个更像“系统工程”的发展路径。

在这样的体系里，技术进步往往不是某一家公司的单点突破，而是多个环节同时推进的结果，包括接下来在市场应用端能反催生出来的无限可能。

tdh0011 · 发表于 2026-4-26 14:10

牛X，支持...

账号		自动登录	找回密码
密码			注册

[科技新闻] 不止华为芯模协同,DeepSeek V4 还反映了这个“中国AI模式”

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。