Loading... # DeepSeek-OCR 2 发布:视觉因果流技术突破,OCR 识别性能提升 3.73% # 一、新闻概述 ## 1. 标题 DeepSeek-OCR 2 正式发布:视觉因果流技术突破,识别性能提升 3.73% ## 2. 发布时间 2026 年 1 月 27 日 ## 3. 来源 DeepSeek 官方 GitHub 仓库、技术媒体 # 二、核心内容 ## 1. 事件摘要 ### A. 主要内容 DeepSeek 正式发布并开源了新一代文档识别模型 DeepSeek-OCR 2,引入创新的视觉因果流技术,实现了 OCR 领域的技术突破。 ### B. 核心亮点 - 视觉因果流技术突破,让 AI 像人一样理解阅读顺序 - 综合字符准确率达到 91.09%,相比上一代提升 3.73% - 阅读顺序相关编辑距离准确率大幅提升 - 30 亿参数的专家混合模型解码器 - 支持 100+ 种语言的近乎无损文字识别 ## 2. 关键信息 ### A. 版本号 DeepSeek-OCR 2 ### B. 重要数据 - 综合字符准确率:91.09% - 性能提升:3.73% - 参数规模:30 亿(MoE 解码器) - 视觉 Token 上限:256-1120 个 - 压缩率:10 倍压缩率,97% 信息保真度 - 语言支持:100+ 种语言 ### C. 涉及产品 DeepSeek-OCR-2 模型、技术论文《DeepSeek-OCR 2: Visual Causal Flow》、GitHub 开源代码库 ## 3. 背景介绍 ### A. 前置版本 DeepSeek-OCR 1.0 于 2025 年 10 月发布,首次引入光学压缩技术,实现了 10 倍压缩率和 95% 以上的准确率。 ### B. 相关上下文 DeepSeek-OCR 2 是在视觉语言模型架构上的重大创新,解决了传统 OCR 按固定顺序扫描的局限性,首次赋予 AI 类人的阅读顺序理解能力。 # 三、详细报道 ## 1. 主要内容 ### A. 技术突破 - 视觉因果流(Visual Causal Flow):通过 DeepEncoder V2 编码器实现视觉 Token 的动态重排 - 突破传统从左至右、从上至下的固定扫描模式 - 让 AI 根据图像含义动态重排图像各部分,实现真正的语义理解 - 版式与图示的智能理解能力 ### B. 技术改进 - DeepEncoder V2 编码器效果得到验证 - 结合多模态技术与 RAG 能力 - 解决分栏串读、公式识别等难题 - 支持结构化提取,不再是简单的文本识别 ### C. 开源资源 - GitHub 代码仓库完全开源 - 技术论文《DeepSeek-OCR 2: Visual Causal Flow》同步发布 - Apache-2.0 商业友好型许可证 ## 2. 技术细节 ### A. 视觉因果流架构 ```mermaid graph TB Input[输入文档图像] --> Encoder[DeepEncoder V2 编码器] Encoder --> Tokens[生成视觉 Token] Tokens --> Reorder[动态重排模块] Reorder --> Semantic[语义理解] Semantic --> Decoder[30 亿参数 MoE 解码器] Decoder --> Output[结构化输出] Output --> Format1[Markdown 格式] Output --> Format2[JSON 格式] Output --> Format3[纯文本] style Reorder fill:#f9f,stroke:#333,stroke-width:2px style Semantic fill:#f9f,stroke:#333,stroke-width:2px ```  ### B. 性能指标 - 整体得分:91.09%(相比 DeepSeek-OCR 提升 3.73%) - 编辑距离准确率(阅读顺序相关):大幅提升 - 压缩比:10 倍压缩率,97% 信息保真度 - 视觉 Token 数量:256-1120 个(相比上一代显著降低) ### C. 兼容性说明 - 支持动态分辨率:默认(0-6)×768×768 + 1×1024×1024 - 显存要求:单卡≥7 GB - 环境要求:CUDA 11.8+、Torch 2.6.0 - 注意:NVIDIA 50 系列(如 RTX 5090)暂不完全适配 vLLM ## 3. 数据与事实 ### A. 性能对比 | 指标 | DeepSeek-OCR | DeepSeek-OCR 2 | 提升 | |------|--------------|----------------|------| | 综合字符准确率 | 87.36% | 91.09% | +3.73% | | 视觉 Token 数量 | 更高 | 256-1120 | 显著降低 | | 阅读顺序理解 | 机械扫描 | 语义理解 | 质的飞跃 | ### B. 技术对比 - vs 传统 OCR:从固定扫描到语义推理的范式转变 - vs DeepSeek-OCR 1.0:阅读顺序识别能力大幅提升 - vs GOT-OCR2.0、MinerU2.0:在 OmniDocBench 上超越 ### C. 场景表现 - 报纸类文档:由于版面密集、文字量大,当前 Token 上限可能仍有不足 - 复杂文档:版式理解和图示解析能力显著增强 - 多语言场景:支持 100+ 种语言的近乎无损识别 # 四、影响分析 ## 1. 行业影响 ### A. 技术趋势 - OCR 领域从传统固定扫描向语义理解转变 - 视觉语言模型架构成为新的研究方向 - 大模型与 OCR 技术的深度融合 ### B. 竞争格局 - DeepSeek-OCR 2 在架构上有显著创新 - 首个赋予 AI 类人阅读顺序理解能力的模型 - 为视觉语言模型架构提供了新的探索方向 ## 2. 用户影响 ### A. 现有用户 - 升级建议:等待 2.1 或后续版本(针对报纸等复杂场景优化) - 部署成本:显存要求≥7 GB,环境要求 CUDA 11.8+ ### B. 潜在用户 - 研究机构:可作为新型 VLM 架构进行探索性研究 - 企业用户:可作为生成高质量预训练数据的实用工具 - 开发者:完全开源,商业友好,可自由集成和二次开发 ### C. 迁移成本 - API 兼容:与上一代基本兼容 - 部署方案:提供 vLLM 和 Transformers 两种推理方式 - 学习曲线:需要理解视觉因果流的新概念 ## 3. 技术趋势 ### A. 技术方向 - 视觉编码从静态到动态的转变 - 多模态技术与 RAG 能力的结合 - 大模型在 OCR 领域的深度应用 ### B. 生态影响 - 开源社区:Apache-2.0 许可证促进二次创新 - 学术研究:为视觉语言模型研究提供新思路 - 产业应用:可大幅降低文档智能化处理成本 # 五、各方反应 ## 1. 官方回应 DeepSeek 研究团队表示,视觉因果流技术是 OCR 领域的重要突破,标志着 AI 在理解复杂文档结构方面具备了类人能力。 ## 2. 业内评价 ### A. 专家观点 - 架构创新显著,视觉因果流技术具有前瞻性 - 在某些复杂场景(如报纸)仍有优化空间 - 为视觉语言模型架构提供了新的研究方向 ### B. 社区反馈 - GitHub 社区:开源发布引发广泛关注 - 技术媒体:被誉为 OCR 领域的范式转变 - 研究社区:对视觉因果流概念表示浓厚兴趣 ## 3. 用户反馈 ### A. 正面评价 - 识别准确率显著提升 - 阅读顺序理解能力突破 - 完全开源,商业友好 ### B. 关注点 - 报纸等密集文档场景性能有待提升 - 部分硬件(如 RTX 5090)适配问题 - Token 上限在某些复杂场景下可能不足 ### C. 中立观察 - 作为 2.0 版本,技术突破值得肯定 - 期待后续版本针对复杂场景的优化 - 开源策略有利于生态发展 # 六、相关链接 ## 1. 官方资源 - GitHub 仓库:https://github.com/deepseek-ai/DeepSeek-OCR-2 - Hugging Face 模型:deepseek-ai/DeepSeek-OCR-2 - 技术论文:《DeepSeek-OCR 2: Visual Causal Flow》 ## 2. 部署教程 - 阿里云部署最佳实践 - 10 分钟上手教程 - 本地部署方案详解 ## 3. 技术分析 - 视觉因果流技术深度解析 - DeepSeek-OCR 架构演进 - OmniDocBench 评测基准分析 *** ## 参考资料 1. [DeepSeek-OCR 2 开源:视觉因果流技术突破](https://unifuncs.com/s/sb8VSATL) - 技术媒体 2. [DeepSeek-OCR 2 发布:让 AI 像人一样读懂复杂文档](https://www.ithome.com/0/916/812.htm) - IT之家 3. [DeepSeek-OCR-2 GitHub Repository](https://github.com/deepseek-ai/DeepSeek-OCR-2) - 官方仓库 4. [DeepSeek-OCR 深度解读—— 用光学压缩给 LLM 长文本](https://zhuanlan.zhihu.com/p/1982768313571485591) - 知乎 5. [DeepSeek-OCR:基于光学压缩的上下文处理](https://cloud.tencent.com/developer/article/2612011) - 腾讯云开发者 6. [DeepSeek-OCR 2 来了,让 AI 也能像人一样,带着逻辑去看图](https://www.53ai.com/news/MultimodalLargeModel/2026012756398.html) - 人工智能资讯 7. [DeepSeek-OCR 如何使用?分步教程指南](https://apifox.com/apiskills/hwo-to-use-deepseek-ocr/) - Apifox 8. [阿里云 - DeepSeek-OCR 模型部署最佳实践](https://help.aliyun.com/zh/functioncompute/fc/deepseek-ocr-model-deployment-best-practices) - 阿里云文档 9. [刚刚,DeepSeek 又探索新架构了,开源 OCR 2](https://zhuanlan.zhihu.com/p/1999493991792670317) - 知乎 10. [深度精读 DeepSeek OCR 论文:初窥世界模型轮廓](https://eu.36kr.com/zh/p/3526804758550915) - 36kr 最后修改:2026 年 01 月 27 日 © 允许规范转载 赞 如果觉得我的文章对你有用,请随意赞赏