DeepSeek悄悄更新神秘代码，新模型细节曝光

kingfirefly · 发表于 2026-1-21 09:00

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有账号？注册

×

在 DeepSeek-R1 发布一周年之际，官方 GitHub 代码库意外曝光了代号为「MODEL1」的全新模型线索。
在代码逻辑结构中，「MODEL1」是作为与「V32」（即 DeepSeek-V3.2）并列的独立分支出现的，这一细节意味着「MODEL1」并不共享 V3 系列的参数配置或基础架构，而是一个全新的、独立的技术路径。
🤯 结合之前的爆料和泄露的代码片段，我们梳理了「MODEL1」可能存在的技术特征：
·代码显示其采用了与现行模型完全不同的 KV Cache 布局策略，并在稀疏性（Sparsity）处理上引入了新机制。
·在 FP8 解码路径上有多处针对性的内存优化调整，预示着新模型在推理效率和显存占用上可能有更好的表现。
·此前爆料称，V4 的代码表现已超越 Claude 和 GPT 系列，并且具备处理复杂项目架构和大规模代码库的工程化能力。
·业界普遍推测，DeepSeek 近期发表的两篇重磅论文——关于优化残差链接的「mHC」以及 AI 记忆模块「Engram」，极有可能被整合进「MODEL1」的架构中，从而解决长上下文记忆和计算效率的核心痛点。
📅 此前有传闻称，DeepSeek 计划在 2 月中旬（春节前后）发布下一代旗舰模型 V4。此次 GitHub 代码的提前部署，在时间线上与该传闻高度吻合。如果属实，这将是继 R1 之后，DeepSeek 推出的第二个重要模型。
值得一提的是，全球最大的 AI 开源社区 Hugging Face 最近也专门发文复盘了 R1 发布这一年的影响，核心观点就是「中国 AI 真的站起来了」。
他们认为 R1 的出现是个分水岭，证明了哪怕算力受限，靠开源也能实现技术上的弯道超车，让中国 AI 产业从封闭走向了开源爆发。在他们看来，R1 的真正价值在于降低了门槛：
·技术上：公开推理细节，让高级能力可复用。
·应用上：宽松协议（MIT）让模型迅速融入商业落地。
·心理上：建立了中国 AI 从「追随」到「引领」的自信。
2025 年，中国开源模型的下载量在全球都占据了主导地位，不仅国内的大厂和创业公司都在全面拥抱开源，甚至国外现在很多所谓的新模型，实际上都建立在中国开源模型的基础之上。
附上博客地址：https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment

superzhzh · 发表于 2026-1-21 10:18

MODEL1会先于V4发布吗？

kingfirefly · 发表于 2026-1-21 10:18

MODEL1独立分支就像另起炉灶造新车，KV Cache新布局和FP8优化如同换上新发动机，这技术迭代要是成了，国产AI生态得大洗牌

账号		自动登录	找回密码
密码			注册

[综艺大观] DeepSeek悄悄更新神秘代码，新模型细节曝光

马上注册，查看更多内容，享用更多功能，让你轻松玩转社区。

浏览过的版块