DeepSeek发布OCR新模型DeepSeek-OCR 2

2026-01-28 17:22:31 | 棠糖 | 1468

1月28日，据报道，深度求索（DeepSeek）团队发布了论文《DeepSeek-OCR 2: Visual Causal Flow》并开源了同名模型DeepSeek-OCR 2。这一模型是对去年10月20日发布的DeepSeek-OCR模型的升级。

3个月时间，从DeepSeek-OCR到DeepSeek-OCR 2，论文提到在权威的综合性文档理解基准OmniDocBench v1.5上，DeepSeek-OCR 2取得了91.09% 的分数，较其前代大幅提升3.73%。其核心创新在于提出了“Visual Causal Flow” （“视觉因果流”）这一全新的编码范式。

传统的OCR（光学字符识别）技术，往往采取一种近似“机械扫描”的策略：将图像切割成网格，然后按照从左到右、从上到下的固定顺序识别文字。这种方式在处理简单文档时有效，但一旦面对充满表格、多栏排版、数学公式或复杂图示的学术论文、报告时，其输出的文本往往逻辑混乱，丢失了内容之间内在的语义关联。

DeepSeek-OCR 2的研究不再满足于让模型“看见”文字，而是致力于让它像人类一样，先“理解”文档的视觉结构与内容逻辑，再“讲述”出文本。DeepEncoder V2被设计用于赋予编码器因果推理能力，使其能够在大语言模型进行内容解读之前，智能地对视觉标记进行重排。

DeepEncoder V2像一位拥有全局观的阅读者。它的工作流程分为三步，实现了认知上的飞跃：首先，全局观察：模型通过双向注意力机制，无遗漏地“瞥见”整页文档的所有视觉信息。接着，逻辑推理：模型的核心组件——“因果流查询”开始工作。它不再受制于空间顺序，而是根据内容的语义重要性、排版结构和逻辑关系，动态地推理出一个最合理的“阅读顺序”。例如，它会先读完一个文本栏，再跳转到旁边的图表标题，然后处理下方的表格，最后识别侧边栏的注释。最后，有序压缩：模型按照这个自我推理出的逻辑顺序，将高维的视觉信息压缩、重排为一串低维的、富含语义的“视觉标记”。

这一过程的核心是将空间优先的编码转变为语义优先的编码。论文指出，这种“因果流”机制使模型输出的视觉序列本身就携带了强烈的顺序因果性，为后续的语言解码器提供了结构清晰、逻辑通顺的“思考蓝图”。

DeepSeek-OCR 2的价值远不止于一个更强大的OCR工具。它作为高质量文本数据的生产引擎，可以为大语言模型的训练提供海量、精准的文本语料。更重要的是，它所验证的“让模型自主决定信息处理顺序”的“因果流”思想，为下一代多模态人工智能架构指明了方向。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。