🐳DeepSeek-OCR 2:如何运行与微调指南

关于如何在本地运行和微调 DeepSeek-OCR-2 的指南。

DeepSeek-OCR 2 是 DeepSeek 于 2026 年 1 月 27 日发布的用于最先进视觉与文档理解的 3B 参数新模型。该模型侧重于图像到文本的转换,并具有更强的视觉推理能力,而不仅仅是文本提取。

DeepSeek-OCR 2 引入了 DeepEncoder V2,使模型能够以与人类相同的逻辑顺序“看见”图像。

不同于传统以固定网格(左上→右下)扫描图像的视觉大模型,DeepEncoder V2 先构建全局理解,然后学习类似人类的阅读顺序,知道先关注什么、接着关注什么,以此类推。这通过更好地遵循列顺序、将标签与数值关联、连贯地读取表格以及处理混合文本与结构,提升了复杂布局下的 OCR 效果。

您现在可以通过我们的 Unsloth 在 DeepSeek-OCR 2 上进行微调,方法为 免费微调笔记本arrow-up-right. 我们展示了 88.6% 的提升 在语言理解方面。

运行 DeepSeek-OCR 2微调 DeepSeek-OCR 2

🖥️ 运行 DeepSeek-OCR 2

为了运行该模型,与第一个模型一样,DeepSeek-OCR 2 经过修改以支持在最新 transformers 上进行推理与训练(准确率无变化)。您可以在 此处arrow-up-right.

要在以下平台运行该模型 transformersUnsloth,下面是推荐设置:

⚙️ 推荐设置

DeepSeek 推荐以下设置:

  • Temperature = 0.0

  • max_tokens = 8192

  • ngram_size = 30

  • window_size = 90

支持模式 - 动态分辨率:

  • 默认: (0-6)×768×768 + 1×1024×1024 — (0-6)×144 + 256 个视觉标记

提示示例:

使用 Visual Causal Flow 将任何文档转换为 markdown。

🦥 Unsloth:运行 DeepSeek-OCR 2 教程

  1. 获取最新的 unsloth 通过 pip install --upgrade unsloth 。如果您已经安装了 Unsloth,请通过以下命令更新: pip install --upgrade --force-reinstall --no-deps --no-cache-dir unsloth unsloth_zoo

  2. 然后使用以下代码运行 DeepSeek-OCR 2:

🤗 Transformers:运行 DeepSeek-OCR 2 教程

在 NVIDIA GPUs 上使用 Huggingface transformers 的推理。测试要求在 python 3.12.9 + CUDA11.8 环境下:

🦥 微调 DeepSeek-OCR 2

Unsloth 现在支持对 DeepSeek-OCR 2 的微调。与第一个模型一样,您需要使用我们的 自定义上传arrow-up-right 以使其在 transformers 上工作(准确率无变化)。与第一个模型相同,Unsloth 在训练 DeepSeek-OCR-2 时速度提升 1.4 倍,显存减少 40%,上下文长度提高 5 倍且无准确率下降。 您现在可以通过我们的免费 Colab 笔记本微调 DeepSeek-OCR 2。

下面列出了在波斯语上的 CER(字符错误率)准确率改进:

每样本 CER(10 个样本)

索引
OCR1 之前
OCR1 之后
OCR2 之前
OCR2 之后

1520

1.0000

0.8000

10.4000

1.0000

1521

0.0000

0.0000

2.6809

0.0213

1522

2.0833

0.5833

4.4167

1.0000

1523

0.2258

0.0645

0.8710

0.0968

1524

0.0882

0.1176

2.7647

0.0882

1525

0.1111

0.1111

0.9444

0.2222

1526

2.8571

0.8571

4.2857

0.7143

1527

3.5000

1.5000

13.2500

1.0000

1528

2.7500

1.5000

1.0000

1.0000

1529

2.2500

0.8750

1.2500

0.8750

平均 CER(10 个样本)

  • OCR1: 之前 1.4866,之后 0.6409 (-57%)

  • OCR2: 之前 4.1863,之后 0.6018 (-86%)

📊 基准测试

DeepSeek-OCR 2 模型的基准来自官方研究论文。

表 1: 在 OmniDocBench v1.5 上对文档阅读的综合评估。V-token𝑚𝑎𝑥 表示本基准中每页使用的最大视觉标记数。R-order 表示阅读顺序。除 DeepSeek OCR 与 DeepSeek OCR 2 外,本表中的所有其他模型结果均来自 OmniDocBench 仓库。

表 2: OmniDocBench v1.5 中不同文档元素类别的编辑距离。 V-token𝑚𝑎𝑥 表示最低的最大视觉标记数。

在 OmniDocBench 上优于 Gemini-3 Pro

最后更新于

这有帮助吗?