找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 75|回复: 2

[综艺大观] DeepSeek悄悄更新神秘代码,新模型细节曝光

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-21 09:00 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
在 DeepSeek-R1 发布一周年之际,官方 GitHub 代码库意外曝光了代号为「MODEL1」的全新模型线索。
在代码逻辑结构中,「MODEL1」是作为与「V32」(即 DeepSeek-V3.2)并列的独立分支出现的,这一细节意味着「MODEL1」并不共享 V3 系列的参数配置或基础架构,而是一个全新的、独立的技术路径。
🤯 结合之前的爆料和泄露的代码片段,我们梳理了「MODEL1」可能存在的技术特征:
·代码显示其采用了与现行模型完全不同的 KV Cache 布局策略,并在稀疏性(Sparsity)处理上引入了新机制。
·在 FP8 解码路径上有多处针对性的内存优化调整,预示着新模型在推理效率和显存占用上可能有更好的表现。
·此前爆料称,V4 的代码表现已超越 Claude 和 GPT 系列,并且具备处理复杂项目架构和大规模代码库的工程化能力。
·业界普遍推测,DeepSeek 近期发表的两篇重磅论文——关于优化残差链接的 「mHC」 以及 AI 记忆模块 「Engram」,极有可能被整合进「MODEL1」的架构中,从而解决长上下文记忆和计算效率的核心痛点。
📅 此前有传闻称,DeepSeek 计划在 2 月中旬(春节前后) 发布下一代旗舰模型 V4。此次 GitHub 代码的提前部署,在时间线上与该传闻高度吻合。如果属实,这将是继 R1 之后,DeepSeek 推出的第二个重要模型。
值得一提的是,全球最大的 AI 开源社区 Hugging Face 最近也专门发文复盘了 R1 发布这一年的影响,核心观点就是「中国 AI 真的站起来了」。
他们认为 R1 的出现是个分水岭,证明了哪怕算力受限,靠开源也能实现技术上的弯道超车,让中国 AI 产业从封闭走向了开源爆发。在他们看来,R1 的真正价值在于降低了门槛:
·技术上: 公开推理细节,让高级能力可复用。
·应用上: 宽松协议(MIT)让模型迅速融入商业落地。
·心理上: 建立了中国 AI 从「追随」到「引领」的自信。
2025 年,中国开源模型的下载量在全球都占据了主导地位,不仅国内的大厂和创业公司都在全面拥抱开源,甚至国外现在很多所谓的新模型,实际上都建立在中国开源模型的基础之上。
附上博客地址:https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment
1.webp


2.webp


3.webp


4.webp


5.webp


6.webp
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-21 10:18 | 显示全部楼层
MODEL1会先于V4发布吗?
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
 楼主| 发表于 2026-1-21 10:18 | 显示全部楼层
MODEL1独立分支就像另起炉灶造新车,KV Cache新布局和FP8优化如同换上新发动机,这技术迭代要是成了,国产AI生态得大洗牌
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-1-22 02:13 , Processed in 0.140363 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表