夜间模式 切换到宽版

 找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 59|回复: 8

[科技新闻] “鲸鱼开眼”?DeepSeek灰度上线“识图模式”

[复制链接]
  • 打卡等级:功行圆满
  • 打卡总天数:793
发表于 2026-4-29 18:20 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
文丨晓静
编辑|徐青阳
“Soon, we see you.”
DeepSeek 多模态团队负责人陈小康在 X 平台发出这样一句话。配图中,DeepSeek 标志性的蓝色鲸鱼,一只眼睛被黑色眼罩蒙住,另一只摘下了眼罩。
1.webp


4月29日,DeepSeek 正在网页端和 App 端灰度测试“识图模式”,与“快速模式”“专家模式”并列,用户进入后可上传图片,并让 DeepSeek 对图片内容进行理解、描述和分析。部分用户已经可以正常使用,另一些用户表示虽然能看到入口,但会收到“识图模式暂不可用,请稍后再试”的提示。
2.webp


但更准确地说,这次灰度上线的是多模态理解能力,而不是完整意义上的多模态生成能力。所谓“多模态”,并不一定意味着同时具备识图、生图、语音、视频等全部能力。只要模型能够处理不止一种输入模态,例如文本与图片,就可以被称为多模态能力。
但从腾讯科技体验来看,DeepSeek 这次开放的主要是图片理解,也就是“看图、读图、分析图”,尚未看到图像生成、视频理解或跨模态生成能力上线。
3.webp

Deepseek识图能力测试

4.webp

实测Deepseek还不具备图片生成能力

从产品界面看,“识图模式”并不是简单附加在输入框中的图片上传功能,而是被放在与“快速模式”“专家模式”同一级的产品入口中。用户进入后,页面会显示“使用识图模式开始对话”,输入框旁也出现图片上传按钮。这说明 DeepSeek 正在将视觉理解作为一个独立模式进行灰度,并不是仅作为文本模型的辅助功能。
但现阶段,“识图模式”的产品定位更接近视觉问答、图片理解和截图分析,而非类似文生图、图生图的视频或图像生成工具。
事实上,DeepSeek 并不是第一次做多模态。
早在 2024 年,DeepSeek 就发布过 DeepSeek-VL 系列模型,主打真实世界视觉语言理解,覆盖图表、网页、公式、科学文献、自然图片等场景。此后,DeepSeek 又推出过 Janus 系列,尝试将多模态理解和视觉生成放在统一框架下;Janus-Pro 也曾被视为 DeepSeek 在图像生成方向的一次重要尝试。此外,DeepSeek 还发布过 DeepSeek-OCR,强调从大语言模型角度重新理解视觉编码器的作用,面向文档、截图和结构化信息识别。
从技术路径看,“识图”通常不是简单 OCR。OCR 主要解决的是图片中文字的识别,比如截图、票据、文档和表格;视觉语言模型则要进一步理解图片内容,包括物体关系、图表含义、页面结构、场景描述和用户意图。
对于 DeepSeek 这次灰度的“识图模式”而言,底层看起来可能更像是结合 OCR 与文本推理模型完成图片分析。
但目前,DeepSeek 官方尚未披露“识图模式”的底层模型名称、参数规模、训练方式和开放计划。DeepSeek API 文档目前仍主要显示 V4 Preview、V4-Pro、V4-Flash、1M 上下文和工具调用等能力,并未出现 Vision、Image Input 或识图相关接口。这意味着,至少在 API 层面,DeepSeek 多模态能力尚未正式开放。
但这一步对 DeepSeek 仍然重要。过去一年,DeepSeek 的核心标签主要集中在推理能力、开源、低成本和长上下文。无论是 R1 还是 V4 Preview,DeepSeek 更突出的都是文本推理和 Agent 场景能力。“识图模式”的出现,意味着 DeepSeek 可能即将在多模态能力上发力。
  • 打卡等级:功行圆满
  • 打卡总天数:793
发表于 2026-4-29 18:53 | 显示全部楼层
DeepSeek这次灰度测试的识图模式看起来挺有意思的,不过很好奇它和现有的OCR技术相比,在识别复杂场景图片时的准确度能提升多少?
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:793
发表于 2026-4-29 19:58 | 显示全部楼层
其它AI不都可以识图吗,豆包识图出图P图啥都可以。
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:793
发表于 2026-4-29 20:01 | 显示全部楼层
现在才开始识图?都别人 1 年前玩剩下的了
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:793
 楼主| 发表于 2026-4-29 20:48 | 显示全部楼层
识图能力是人形机器人理解世界的最重要能力之一
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:793
发表于 2026-4-29 20:52 | 显示全部楼层
国产人工智能DeepSeek 越来越聪明了[强],说话也好听,能提供情绪价值
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:793
发表于 2026-4-29 21:28 | 显示全部楼层
感觉有点落后只能出来文字,不能图片和视频
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:793
发表于 2026-4-29 22:50 | 显示全部楼层
这个功能豆包和元宝不是早就有了吗@元宝
回复 支持 反对

使用道具 举报

  • 打卡等级:功行圆满
  • 打卡总天数:793
发表于 2026-4-29 23:04 | 显示全部楼层
@元宝 deepseek的员工为什么能在X发帖?他们不在大陆吗?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-4-30 08:55 , Processed in 0.190147 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表