【百度发布新一代OCR模型PaddleOCR-VL-1.5，全球首次实现“异形框

科技狐说 2026-01-29 21:49:23

【百度发布新一代OCR模型PaddleOCR-VL-1.5，全球首次实现“异形框定位”】 1月29日，百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型以仅0.9B参数的轻量架构，在全球权威评测OmniDocBench V1.5中取得综合性能第一，整体精度达到94.5%，超越包括Gemini 3 Pro、DeepSeekOCR、Qwen3-VL等在内的国内外主流大模型。此次发布的模型基于文心大模型开发，是其技术体系在文档智能领域的一次重要延伸，也是国产AI模型在一月密集发力、持续迭代的典型代表。 PaddleOCR-VL-1.5最引人注目的突破在于全球首次实现了OCR领域的“异形框定位”能力。这意味着模型能够精准识别并解析在真实场景中常见的倾斜、弯折、拍照畸变等非常规文档形态，从根本上解决了传统OCR系统“认得字、理不清结构”的长期痛点。无论是手机随手拍摄的歪斜合同，还是被折过的报销单据，该模型均可实现表格、文本块等文档结构的准确还原，使OCR技术真正适用于移动化、碎片化的日常办公与业务流程。这一突破具有明确的产业意义。长期以来，OCR技术的落地受限于对扫描件等规整文档的依赖，大量真实场景中的非标文档仍需人工介入处理。PaddleOCR-VL-1.5的系统性优化，尤其在扫描、弯折、光照变化、屏幕拍摄、倾斜五大真实场景中均取得领先性能，为其在金融票据处理、政务档案数字化、企业合规审查等领域的规模化应用铺平了道路。值得一提的是，2026年开年以来，中国AI企业呈现出显著的“密集发力”态势。从月初文心大模型5.0正式版的迭代，到月中千问、DeepSeek等公司在长文本与推理能力上的升级，再到月末百度与深度求索几乎同期推出新一代OCR模型，这一系列动作表明，中国AI竞争已深入至垂直场景的攻坚与系统化能力构建阶段。各厂商正依托自身技术体系，在特定赛道形成差异化优势，共同推动国产AI从技术突破迈向产业深水区。目前，PaddleOCR-VL-1.5已全面开源，开发者可通过GitHub、Hugging Face等平台获取模型，也可通过PaddleOCR官网或百度智能云千帆平台进行体验与调用。随着文档理解技术逐步走向稳定、可靠与易用，AI正进一步融入核心生产力环节，推动各行各业智能化转型进入新阶段。

0 阅读：12