🔍DeepSeek-OCR 2:视觉因果流 🤖 我们提出 DeepSeek-OCR 2,旨在探索一种新型编码器 ——DeepEncoder V2 的可行性,该编码器能够根据图像语义动态重新排序视觉令牌。 📚 传统视觉语言模型(VLMs)在将视觉令牌输入大型语言模型(LLMs)时,总是采用固定的光栅扫描顺序(从左上到右下)和固定位置编码进行处理。 ❌ 然而,这与人类视觉感知相悖,人类视觉遵循由内在逻辑结构驱动的灵活且语义连贯的扫描模式,尤其对于布局复杂的图像,人类视觉会呈现出具有因果关联性的顺序处理特征。 💡 受这一认知机制启发,DeepEncoder V2 被设计为赋予编码器因果推理能力,使其能够在基于 LLM 进行内容解读之前,智能地重新排序视觉令牌。 🔍 本研究探索了一种新型范式:是否可以通过两级级联的一维因果推理结构有效实现二维图像理解,从而提供一种有望实现真正二维推理的新架构方案。 💻 代码和模型权重已公开,可通过-ai/DeepSeek-OCR-2获取。 [红包]同为股份:公司关于AI视觉ISP技术的产品也已经有成熟产品线投放市场 [红包]星宸科技:公司核心研发团队具有丰富的SoC芯片设计经验,核心IP均为自研,已形成AI、ISP、音频、视频、显示、感知等核心IP [红包]富满微:公司长期深耕视觉领域,是以视频为中心的芯片和完整解决方案提供商致力于为客户提供高性能视频编解码IPC以及NVR SoC芯片、图像信号处理器ISP芯片
🔍DeepSeek-OCR2:视觉因果流 🤖我们提出DeepSeek-
纯真灵魂
2026-01-28 09:34:15
0
阅读:0