【百度发布新一代OCR模型PaddleOCR-VL-1.5,全球首次实现“异形框

科技狐说 2026-01-29 21:49:23

【百度发布新一代OCR模型PaddleOCR-VL-1.5,全球首次实现“异形框定位”】 1月29日,百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型以仅0.9B参数的轻量架构,在全球权威评测OmniDocBench V1.5中取得综合性能第一,整体精度达到94.5%,超越包括Gemini 3 Pro、DeepSeekOCR、Qwen3-VL等在内的国内外主流大模型。此次发布的模型基于文心大模型开发,是其技术体系在文档智能领域的一次重要延伸,也是国产AI模型在一月密集发力、持续迭代的典型代表。 PaddleOCR-VL-1.5最引人注目的突破在于全球首次实现了OCR领域的“异形框定位”能力。 这意味着模型能够精准识别并解析在真实场景中常见的倾斜、弯折、拍照畸变等非常规文档形态,从根本上解决了传统OCR系统“认得字、理不清结构”的长期痛点。无论是手机随手拍摄的歪斜合同,还是被折过的报销单据,该模型均可实现表格、文本块等文档结构的准确还原,使OCR技术真正适用于移动化、碎片化的日常办公与业务流程。 这一突破具有明确的产业意义。长期以来,OCR技术的落地受限于对扫描件等规整文档的依赖,大量真实场景中的非标文档仍需人工介入处理。PaddleOCR-VL-1.5的系统性优化,尤其在扫描、弯折、光照变化、屏幕拍摄、倾斜五大真实场景中均取得领先性能,为其在金融票据处理、政务档案数字化、企业合规审查等领域的规模化应用铺平了道路。 值得一提的是,2026年开年以来,中国AI企业呈现出显著的“密集发力”态势。从月初文心大模型5.0正式版的迭代,到月中千问、DeepSeek等公司在长文本与推理能力上的升级,再到月末百度与深度求索几乎同期推出新一代OCR模型,这一系列动作表明,中国AI竞争已深入至垂直场景的攻坚与系统化能力构建阶段。各厂商正依托自身技术体系,在特定赛道形成差异化优势,共同推动国产AI从技术突破迈向产业深水区。 目前,PaddleOCR-VL-1.5已全面开源,开发者可通过GitHub、Hugging Face等平台获取模型,也可通过PaddleOCR官网或百度智能云千帆平台进行体验与调用。随着文档理解技术逐步走向稳定、可靠与易用,AI正进一步融入核心生产力环节,推动各行各业智能化转型进入新阶段。

0 阅读:12
科技狐说

科技狐说

感谢大家的关注