马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有账号?注册
×
大家好,我是甲木。
昨天看到聪哥发的那篇DeepSeek-OCR-2的解读,
卷得离谱,双向+因果流视觉推理,详细的分析可以看文章,
里面也提到了,“纯端到端上DeepSeek-OCR-2相较于DeepSeek-OCR有很大提升,但,PaddleOCR-VL 依旧是唯一真神”
确实,单论 “真实可用的 OCR 能力”,目前最强的,依然是百度的 PaddleOCR。
而刚刚,百度发布了PaddleOCR-VL-1.5,
以仅0.9B参数的轻量架构,在全球权威文档解析评测榜单 OmniDocBench V1.5中再次霸榜。
你永远可以相信百度的OCR能力而且发布即开源(开源万岁),你可以直接在HuggingFace上下载部署,
很多小伙伴其实都好奇:
为什么到了 2026 年,OCR 这个看起来“很老”的技术,会突然变得这么重要?
今天这篇,我就跟你聊聊:
- 关于OCR这件事为啥又重提?
- 这次推出来的PaddleOCR-VL-1.5能力都有哪些?
- PaddleOCR-VL-1.5的实战表现如何?
- OCR都有哪些落地之处?
那么,我们开始吧!
OCR 这件事,其实从来没“过时”
很多人以为 OCR 已经是上个时代的技术了,
现实刚好相反,越是大模型时代,越需要一个稳定把“图里的文字、结构、顺序”变成可用数据的入口。
OCR 的全称是 Optical Character Recognition,光学字符识别。
两句话讲清楚它的价值:把图片里的字变成可编辑文本,再把文档里的结构还原成可被系统直接使用的数据。
很多人对 OCR 的印象,还停留在几个很早期的场景里。
比如:扫描件转 Word、PDF 复制不了文字、发票识别等等。
这些都没错。但只说对了一半。
真正的 OCR,从来不是“把字读出来”这么简单。
它解决的,本质上是一个更底层的问题:
现实世界里的信息,如何被机器稳定、可靠、可结构化地理解。
你随手拍一张合同,
你在会议室拍一页 PPT,
你用手机拍一张被折过的报销单。
你翻拍一页老档案,纸张卷边、反光、歪斜。
人类大脑一眼就能理解。
但对机器来说,这些场景,全都是地狱难度。
做过 AI 企业落地服务的朋友们想必都清楚... 难得不是AI应用,而是企业数据数字化、结构化
比如“资料入库”和“流程自动化”,再聪明的智能体,如果吃进去的是一坨乱码,最后只会吐出一坨更漂亮的乱码。
也正是因为这样,OCR 在大模型时代,反而重新站到了舞台中央。
正好今天,百度把 PaddleOCR-VL-1.5 推出来了
先说结论。
PaddleOCR-VL-1.5 是一个 0.9B 参数规模的文档解析模型。
但在 OmniDocBench V1.5 这个全球权威评测里,它的综合精度达到了 94.5%,超过了包括 DeepSeek-OCR2、Gemini-3-Pro 等一系列大模型 。
但真正让我觉得“这次值得单独写一篇”的,并不是榜单本身。
而是它解决了一个 OCR 领域长期存在、却很少被真正解决的问题。
真正的核心突破:异形框定位
我们先抛开所有模型名字,说一个现实问题。
你现在拍一张文档,大概率会遇到什么情况?
要么文档是梯形、要么页面被折过、光线不均匀有反光等等..
传统 OCR 的假设是:“文档是规则的矩形。”
一旦这个前提不成立,后果只有一个:
字能认出来。 结构全乱。
而 PaddleOCR-VL-1.5 做的事情,是在模型层面,第一次系统性地支持了:
异形框定位。
什么意思?
它不再假设文档是一个完美矩形。
哪怕你拍的是一张歪的、折的、梯形的文档,它也能:
精准定位每一行文本,保持正确的阅读顺序
而且还兼容了多语种适配,从读字升级到理解文档,
这是 OCR 第一次,在“随手拍”的真实世界里,具备了稳定可用性。
小参数、全球 SOTA、复杂场景最稳、生产级可用。
这四个词,基本就把“工程化的胜利”写在脸上了。
为什么说这是“工程级”的胜利
很多朋友会问一个问题:
0.9B 的模型,为啥这么吊?
答案其实也挺简单。
PaddleOCR-VL 的整体思路非常“老实”,也非常工程化:
该用传统视觉模型做的事情,就老老实实用,别整花活。
该交给大模型理解的部分,再交给大模型,
不强行端到端,不盲目堆参数。
核心结构是两步:
第一步,布局分析。
由专门的布局模型「PP-DocLayoutV3」,先把文档拆成“这是标题、这是正文、这是表格、这是公式”,并且给出正确的阅读顺序。
第二步,精细解析。
再由 PaddleOCR-VL-1.5 去逐块解析文本、表格、公式。
结果就是:
模型不用同时“看懂一整页世界”。
只需要把每一小块事情做好。
这也是为什么它在 表格理解、阅读顺序预测、复杂版面还原这些指标上,能明显领先。
实战场景
能不能应用,直接拿现实场景练练。
https://aistudio.baidu.com/paddleocr我直接在飞浆的paddleocr用的,链接可以看👆🏻
1、发票、报销单
先来看一个很常见的场景,发票,报销单。
这张发票糊的我眼睛差点看瞎...
图源网络直接上传,很迅速的拿到结果。
常规的发票识别基本没太大问题。
而本次更新进一步集成印章识别能力。
这里面,我们可以看到,印章被单独拿出来了,效果不错。
2、被折过的纸质内容
折痕,是 OCR 的噩梦。
这页合同被折叠过,中间有折痕。
我们可以看到输出折痕内容连续不割裂,异形框定位..
果然有点东西,再拿之前的某个赠品单,
再来本弯曲的书,
太细节了,把日期直接换行重构了,这种畸变等非规则文档形态处理起来确实比上个版本要丝滑得多...
再来个地狱难度的,好像是我之前在航班上,随手拿的报纸拍摄了一张,
密密麻麻全部都是字,能识别出来多部分文字,有些因为我拍摄角度问题有漏字。
你能看到它可以做到跨折痕识别,
这在HR、CRM等实际场景里,意义非常直接。
3、会议现场拍 PPT / 屏幕
反光、梯形、分辨率不均。
很多模型只剩一坨文字。
PaddleOCR-VL-1.5 能给你按照结构列出来,知道从左往右还原表格..
4、形近字
在真实的文档处理中,最怕的不是图歪了,而是模型“指鹿为马”。
比如把“延”看成“诞”,把“奄”看成“俺”,
这种视觉上的微小差异在低分辨率或复杂背景下简直是模型的噩梦 。
实际测下来,即使是这一整版形近字,PaddleOCR-VL-1.5 依然交出了全对的成绩单
5、数学公式与手写体
在文档解析界,数学公式识别一直是区分“业余”与“专业”的分水岭。
因为公式是非线性的。它有分数线、积分号、上下标,甚至还有各种嵌套的根号。
测下来模型不仅识别出了字符,还完美还原了 LaTeX 语法,有点6.
手写体也不在话下..但是画风特别抽象的是例外-。-
6、老档案、扫描歪斜件
卷边、模糊、纸张老化。
模型仍然能给出结构级解析结果。
但是极为细小的点,我肉眼都看不见的,它确实也get不到...
客观来说,有些图片确实直接切割成图片转出,没有进一步地进行细化拆分。
7、表格处理
这里直接给了它一张菜单,
直接以表格的形式把所有菜单内容全部输出出来,很丝滑。
8、文本定位
这次提升很明显的一个点就是文本定位📌能力和识别,
比如我们直接上传某书上的一些美好摘录和文案,
手写的定位也都比较精准。
还有表格形式的,效果也不错。
好了,测完几大场景之后,跟大家说下应该如何用,
这次 PaddleOCR-VL-1.5 的好处是开源和可用路径都很清晰:
官网在线体验:https://www.paddleocr.com
GitHub:https://github.com/PaddlePaddle/PaddleOCR
Hugging Face:https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.5
开源、免费。满足不同场景的不同需求,任君选择~
OCR 真正值钱的地方,几乎都藏在“信息入口”里。
最常见的落地场景包括:
财务报销与发票识别、合同与标书解析、档案数字化、会议与培训资料整理、医疗与政务领域表单录入等等。
理论上,只要有文档,需要数字化能力的,都有OCR用武之地。
你会发现,OCR 越准,后面的自动化链路越容易跑通。
结语
我个人的一个判断是:
OCR 这个赛道,正逐渐从“技术炫技”,走向“系统能力”。
你会看到:
- DeepSeek 在探索新范式
- 千问在做推理和 Agent
- 百度在打磨稳定可落地的工程能力
前段时间百度也刚发布了文心5.0正式版,采用原生全模态统一建模技术,也进一步提升中国AI在全球AI产业竞争中的技术话语权。
而 PaddleOCR-VL-1.5,正好踩在一个非常关键的位置上。
它不大。
不炫。
但非常稳。
国产开源模型,依旧遥遥领先~
临近年前,各家模型厂商都在疯狂地卷,很期待这种
“百花齐放”
以上。 |