找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 101|回复: 5

[综艺大观] DeepSeek 发了 OCR-2,但还是没能打过它,OCR领域的神!

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-30 08:38 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
大家好,我是甲木。

昨天看到聪哥发的那篇DeepSeek-OCR-2的解读,

1.webp

卷得离谱,双向+因果流视觉推理,详细的分析可以看文章,

里面也提到了,“纯端到端上DeepSeek-OCR-2相较于DeepSeek-OCR有很大提升,但,PaddleOCR-VL 依旧是唯一真神”

确实,单论 “真实可用的 OCR 能力”,目前最强的,依然是百度的 PaddleOCR。

而刚刚,百度发布了PaddleOCR-VL-1.5

以仅0.9B参数的轻量架构,在全球权威文档解析评测榜单 OmniDocBench V1.5中再次霸榜。

2.webp

你永远可以相信百度的OCR能力
而且发布即开源(开源万岁),你可以直接在HuggingFace上下载部署,

很多小伙伴其实都好奇:

为什么到了 2026 年,OCR 这个看起来“很老”的技术,会突然变得这么重要?

今天这篇,我就跟你聊聊:


  • 关于OCR这件事为啥又重提?
  • 这次推出来的PaddleOCR-VL-1.5能力都有哪些?
  • PaddleOCR-VL-1.5的实战表现如何?
  • OCR都有哪些落地之处?
那么,我们开始吧!

OCR 这件事,其实从来没“过时”


很多人以为 OCR 已经是上个时代的技术了,

现实刚好相反,越是大模型时代,越需要一个稳定把“图里的文字、结构、顺序”变成可用数据的入口。

3.webp

OCR 的全称是 Optical Character Recognition,光学字符识别。

两句话讲清楚它的价值:把图片里的字变成可编辑文本,再把文档里的结构还原成可被系统直接使用的数据。

很多人对 OCR 的印象,还停留在几个很早期的场景里。

比如:扫描件转 Word、PDF 复制不了文字、发票识别等等。

这些都没错。但只说对了一半。

真正的 OCR,从来不是“把字读出来”这么简单。

它解决的,本质上是一个更底层的问题:

现实世界里的信息,如何被机器稳定、可靠、可结构化地理解。

你随手拍一张合同,

你在会议室拍一页 PPT,

你用手机拍一张被折过的报销单。

你翻拍一页老档案,纸张卷边、反光、歪斜。

人类大脑一眼就能理解。

但对机器来说,这些场景,全都是地狱难度。

做过 AI 企业落地服务的朋友们想必都清楚... 难得不是AI应用,而是企业数据数字化、结构化

比如“资料入库”和“流程自动化”,再聪明的智能体,如果吃进去的是一坨乱码,最后只会吐出一坨更漂亮的乱码。

也正是因为这样,OCR 在大模型时代,反而重新站到了舞台中央。

正好今天,百度把 PaddleOCR-VL-1.5 推出来了


先说结论。

PaddleOCR-VL-1.5 是一个 0.9B 参数规模的文档解析模型。

4.webp

但在 OmniDocBench V1.5 这个全球权威评测里,它的综合精度达到了 94.5%,超过了包括 DeepSeek-OCR2、Gemini-3-Pro 等一系列大模型 。

但真正让我觉得“这次值得单独写一篇”的,并不是榜单本身。

而是它解决了一个 OCR 领域长期存在、却很少被真正解决的问题

真正的核心突破:异形框定位

我们先抛开所有模型名字,说一个现实问题。

你现在拍一张文档,大概率会遇到什么情况?

要么文档是梯形、要么页面被折过、光线不均匀有反光等等..

传统 OCR 的假设是:“文档是规则的矩形。”

一旦这个前提不成立,后果只有一个:

字能认出来。 结构全乱。

而 PaddleOCR-VL-1.5 做的事情,是在模型层面,第一次系统性地支持了:

异形框定位。

什么意思?

它不再假设文档是一个完美矩形。

哪怕你拍的是一张歪的、折的、梯形的文档,它也能:

精准定位每一行文本,保持正确的阅读顺序

5.webp

而且还兼容了多语种适配,从读字升级到理解文档,

这是 OCR 第一次,在“随手拍”的真实世界里,具备了稳定可用性。

小参数、全球 SOTA、复杂场景最稳、生产级可用。

这四个词,基本就把“工程化的胜利”写在脸上了。

为什么说这是“工程级”的胜利


很多朋友会问一个问题:

0.9B 的模型,为啥这么吊?

答案其实也挺简单。

PaddleOCR-VL 的整体思路非常“老实”,也非常工程化:

该用传统视觉模型做的事情,就老老实实用,别整花活。

该交给大模型理解的部分,再交给大模型,

不强行端到端,不盲目堆参数。

6.webp

核心结构是两步:

第一步,布局分析。

由专门的布局模型「PP-DocLayoutV3」,先把文档拆成“这是标题、这是正文、这是表格、这是公式”,并且给出正确的阅读顺序。

第二步,精细解析。

再由 PaddleOCR-VL-1.5 去逐块解析文本、表格、公式。

结果就是:

模型不用同时“看懂一整页世界”。

只需要把每一小块事情做好。

这也是为什么它在 表格理解、阅读顺序预测、复杂版面还原这些指标上,能明显领先。

实战场景


能不能应用,直接拿现实场景练练。

7.webp

https://aistudio.baidu.com/paddleocr
我直接在飞浆的paddleocr用的,链接可以看👆🏻

1、发票、报销单


先来看一个很常见的场景,发票,报销单。

这张发票糊的我眼睛差点看瞎...

8.webp

图源网络
直接上传,很迅速的拿到结果。

9.webp

10.webp

常规的发票识别基本没太大问题。

而本次更新进一步集成印章识别能力。

11.webp

这里面,我们可以看到,印章被单独拿出来了,效果不错。

2、被折过的纸质内容


折痕,是 OCR 的噩梦。

这页合同被折叠过,中间有折痕。

12.webp

我们可以看到输出折痕内容连续不割裂,异形框定位..

果然有点东西,再拿之前的某个赠品单,

13.webp

再来本弯曲的书,

14.webp

太细节了,把日期直接换行重构了,这种畸变等非规则文档形态处理起来确实比上个版本要丝滑得多...

再来个地狱难度的,好像是我之前在航班上,随手拿的报纸拍摄了一张,

15.webp

密密麻麻全部都是字,能识别出来多部分文字,有些因为我拍摄角度问题有漏字。

你能看到它可以做到跨折痕识别,

这在HR、CRM等实际场景里,意义非常直接。

3、会议现场拍 PPT / 屏幕


反光、梯形、分辨率不均。

16.webp

很多模型只剩一坨文字。

PaddleOCR-VL-1.5 能给你按照结构列出来,知道从左往右还原表格..

4、形近字


在真实的文档处理中,最怕的不是图歪了,而是模型“指鹿为马”。

比如把“延”看成“诞”,把“奄”看成“俺”,

这种视觉上的微小差异在低分辨率或复杂背景下简直是模型的噩梦 。

17.webp

实际测下来,即使是这一整版形近字,PaddleOCR-VL-1.5 依然交出了全对的成绩单

5、数学公式与手写体


在文档解析界,数学公式识别一直是区分“业余”与“专业”的分水岭。

因为公式是非线性的。它有分数线、积分号、上下标,甚至还有各种嵌套的根号。

18.webp

测下来模型不仅识别出了字符,还完美还原了 LaTeX 语法,有点6.

19.webp

手写体也不在话下..但是画风特别抽象的是例外-。-

6、老档案、扫描歪斜件


卷边、模糊、纸张老化。

20.webp

模型仍然能给出结构级解析结果。

但是极为细小的点,我肉眼都看不见的,它确实也get不到...

21.webp

客观来说,有些图片确实直接切割成图片转出,没有进一步地进行细化拆分。

7、表格处理


这里直接给了它一张菜单,

22.webp

直接以表格的形式把所有菜单内容全部输出出来,很丝滑。

8、文本定位


这次提升很明显的一个点就是文本定位📌能力和识别,

比如我们直接上传某书上的一些美好摘录和文案,

23.webp

手写的定位也都比较精准。

24.webp

还有表格形式的,效果也不错。

25.webp


好了,测完几大场景之后,跟大家说下应该如何用,

这次 PaddleOCR-VL-1.5 的好处是开源和可用路径都很清晰:

官网在线体验:https://www.paddleocr.com

GitHub:https://github.com/PaddlePaddle/PaddleOCR

Hugging Face:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5

开源、免费。满足不同场景的不同需求,任君选择~

OCR 真正值钱的地方,几乎都藏在“信息入口”里。

最常见的落地场景包括:

财务报销与发票识别、合同与标书解析、档案数字化、会议与培训资料整理、医疗与政务领域表单录入等等。

理论上,只要有文档,需要数字化能力的,都有OCR用武之地。

你会发现,OCR 越准,后面的自动化链路越容易跑通。

结语


我个人的一个判断是:

OCR 这个赛道,正逐渐从“技术炫技”,走向“系统能力”。

你会看到:


  • DeepSeek 在探索新范式
  • 千问在做推理和 Agent
  • 百度在打磨稳定可落地的工程能力
前段时间百度也刚发布了文心5.0正式版,采用原生全模态统一建模技术,也进一步提升中国AI在全球AI产业竞争中的技术话语权。

而 PaddleOCR-VL-1.5,正好踩在一个非常关键的位置上。

它不大。

不炫。

但非常稳。

国产开源模型,依旧遥遥领先~

临近年前,各家模型厂商都在疯狂地卷,很期待这种

“百花齐放”

以上。
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-30 09:40 | 显示全部楼层
上次整理老房子的旧合同,用PaddleOCR-VL-1.5识别折角纸上的模糊字,连盖章位置都标得准,这0.9B模型真不是盖的
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-30 09:42 | 显示全部楼层
@元宝 PaddleOCR-VL-1.5的开源地址在哪?
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-30 14:03 | 显示全部楼层
百度的技术是有的,可惜没用到正途上
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-30 17:29 | 显示全部楼层
有没有封装好这个Paddle1.5的RAG应用呢
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-31 00:33 | 显示全部楼层
对印章的识别能力是不是也是最强的?比如那种法人方形印章,阅读顺序是右到左,它能理解识别吗
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-1-31 14:04 , Processed in 0.186495 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表