夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 59|回复: 0

[科技新闻] 开源双子星的接力跑:追平美国只差3个月?

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-4-27 21:03 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
 作者声明:该图片由AI生成
1.webp


作者 | 方堃
编辑 | 虞尘


DeepSeek V4终于来了。上周,DeepSeek V4和Kimi 2.6两个万亿参数的开源模型前后脚首发,引发全球关注。
过去一年,DeepSeek V4和Kimi向世界证明了一件事:芯片算力的多寡,无法从第一性上垄断大模型的技术创新;而接下来,DeepSeek和Kimi要向世界证明另一件事:不仅是英伟达,国产算力也能撑起最好用的大模型。
2024年,当OpenAI正式发布o1完整版时,中国大模型被认为至少落后美国两到三年;但仅仅3个月后,DeepSeek‑R1与Kimi K1.5问世,成为全球最早复现o1能力的两家公司;此后,DeepSeek与月之暗面,联手把中国大模型带到了一个前所未有的位置——从追赶到全面领先美国开源模型,并不断迫近美国顶尖闭源模型的水平。
2.webp




在DeepSeek V4预览版发布的官方推文中,DeepSeek团队对比了美国顶尖闭源模型的能力,认为真实差距已拉近到3-6个月。DeepSeek V4整体优于 GPT-5.2、Gemini 3.0 Pro,但略落后 GPT-5.4、Gemini 3.1 Pro。具体而言:
1、在知识与综合推理上仍有差距,HLE(复杂推理),V4落后 Gemini-3.1-Pro、Claude Opus 4.6-Max;2、长文本阅读理解优于 Gemini,但明显不如 Claude;3、多模态(图像/视频)尚未大规模上线,落后 GPT-5/Gemini一代;4、极端复杂 Agent 任务仍有距离,超长时程、多步骤、跨工具的闭环 Agent 能力,弱于 Opus 4.6 思考模式。
对于中国大模型产业而言,3-6个月的差距,不再是代差、鸿沟或者不可逾越的壁垒,而是一场可以靠分工、协同、效率和生态逐渐抹平的距离。


无论是技术还是算力,都不应该成为垄断和阻挡AGI普惠大众的门槛。


01
 “五次撞车”








在中国人工智能行业,DeepSeek与Kimi的"撞车"成为奇妙默契。
所谓"撞车",是指两家公司在技术路线、产品发布节奏、甚至战略方向上的惊人重合。从K1.5 vs R1的思维链较量,到MoBA vs NSA的注意力机制探索,再到kimi数学推理模型 vs Prover V2的垂直突破,以及K2.5 vs OCR-2的多模态竞争——而DeepSeek V4与Kimi k2.6已经是两家公司的第五次正面"撞车"。
如果是两次、三次,或许还可以用巧合来解释。但当"撞车"达到第五次,两家公司都在万亿参数开源模型、长上下文技术、底层架构创新等关键领域持续同步推进时,这背后折射的已不再是巧合,而是技术路径的收敛。
二者都从底层原理、Scaling Law、AGI 终极路径出发,就必然在同一个技术节点相遇。这种 “撞车式接力”,让中国开源的迭代速度翻倍,抹平与硅谷顶尖模型的时间差。
3.webp




DeepSeek创始人梁文锋与Kimi创始人杨植麟,一次又一次在技术高峰上相遇,说明中国顶尖AI人才对下一代技术方向有着高度一致的判断。
中国不仅限于"应用大国"的狭隘定义,也能撑起下个时代的"技术基础设施"。


02
 “技术共生”
4.png




开源大模型的双子星格局,是中国AI产业在极端竞争环境下的一次"适应性进化"。DeepSeek和Kimi的互相成就,并不是设计出来的剧本,而是商业碰撞后的自然结果。
但真正值得研究的,不是DeepSeek与Kimi之间的竞争,而是它们之间悄然发生的技术共生。
DeepSeek以开源开放姿态输出底层架构,成为Kimi跨越式升级的关键底座。
而DeepSeek-V4则反过来学习了Kimi K2首次大规模应用的二阶优化器Muon,替代了行业通用的AdamW,训练更稳、收敛更快、算力利用率更高,让 V4 在百万上下文、训练稳定性、效率上实现关键一跃。
这种你中有我、我中有你的技术交叉,也是中国AI产业在全球竞争格局中新的底气。
5.webp




通常,头部AI公司之间更多是技术壁垒的构筑和专利护城河的挖掘。OpenAI与Anthropic、Google与Meta,彼此之间泾渭分明,技术路线各自为战。
但DeepSeek与Kimi却走出了一条截然不同的路——它们选择了开源,选择了共享,选择在底层技术上互相借力。
这种"互利互惠"的技术生态,正在成为中国AI的独特竞争力。这并非简单“借鉴”,而是技术范式层面的相互验证。换句话说,两家公司在用彼此作为“实验对照组”,加速验证哪些路径更接近AGI。
当然,DeepSeek与Kimi都有自己坚持的技术路线。比如,下一代的Kimi模型将继续深耕长上下文,但方向与DeepSeek有所不同——DeepSeek探索的是"稀疏注意力",而Kimi探索的是"线性注意力"。
不过,两条路径殊途同归,都在试图突破Transformer架构在长序列上的效率瓶颈。类似的案例还包括:Kimi的"注意力残差"与DeepSeek的mHC残差连接,虽然名称不同,却都在尝试解决Transformer架构中的信息衰减难题;Kimi的Mooncake推理架构与DeepSeek的缓存技术,虽然路径各异,却都指向了同一个目标——让大模型跑得更快、更省、更稳。


03
 “算力独立”
6.png




当硅谷选择将最强大的能力关在闭源API 之后,DeepSeek与Kimi却将万亿参数的庞然大物开放给了全世界。
这种开源选择具有深远的战略意义。一方面,它打破了美国闭源模型对全球开发者的垄断性绑定;另一方面,它为中国的技术生态赢得了全球声誉。
在OpenRouter的调用量统计中,DeepSeek与Kimi稳居中国模型的TOP2,被海外开发者视为最具竞争力的开源选择。Cursor套壳了Kimi,日本乐天Rakuten AI 3.0套壳了DeepSeek——这种被"套壳"的现象,恰恰说明两家公司的模型能力已经得到了国际市场的充分认可。
在英伟达GTC大会上,黄仁勋亲自用这两家中国开源模型来Benchmark展示下一代芯片的性能。而在Meta新模型Muse Spark发布的官方Blog中,用来做对比的也恰恰是DeepSeek与Kimi。当中国的开源模型成为全球巨头技术对标的标准,这本身就是中国AI实力最有力的证明。
技术竞争之外,另一条暗线同样关键:算力独立。
在全球半导体供应链高度紧张的背景下,这一点尤为重要。过去,大模型的性能几乎完全依赖英伟达的GPU生态;而现在,中国模型正在尝试“去CUDA依赖”。
在国产芯片适配方面,两家公司都在为摆脱英伟达"卡脖子"作出切实努力。DeepSeek V4已经实现了用华为芯片做推理,而Kimi的新技术也已支持国产芯片混合推理。
在中美科技竞争日趋激烈的背景下,这种对国产算力生态的主动适配,不仅是商业,更是技术主权的考量。
梁文锋与杨植麟,两位广东籍创业者,先后出席了总理座谈会,无疑是对两家公司技术成就的国家认证。
当中美AI竞争进入“开源vs闭源”的新阶段,DeepSeek与Kimi更像是同一阵营中的不同分支——在内部竞争中提升效率,在外部竞争中形成合力。
五次撞车,不是资源浪费,而是路径的交叉验证和并行探索。在AGI尚未到来的今天,这种竞合关系可能正是最有效的进化方式。最后谁赢了谁其实并不重要,当两条路径不断交汇,新的技术范式,也一定会诞生。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-4-28 03:58 , Processed in 0.159108 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表