🐳DeepSeek-OCR 2：运行与微调指南

关于如何在本地运行和微调 DeepSeek-OCR-2 的指南。

DeepSeek-OCR 2 是 DeepSeek 于 2026 年 1 月 27 日发布的用于最先进视觉与文档理解的 3B 参数新模型。该模型侧重于图像到文本的转换，并具有更强的视觉推理能力，而不仅仅是文本提取。

DeepSeek-OCR 2 引入了 DeepEncoder V2，使模型能够以与人类相同的逻辑顺序“看见”图像。

不同于传统以固定网格（左上→右下）扫描图像的视觉大模型，DeepEncoder V2 先构建全局理解，然后学习类似人类的阅读顺序，知道先关注什么、接着关注什么，以此类推。这通过更好地遵循列顺序、将标签与数值关联、连贯地读取表格以及处理混合文本与结构，提升了复杂布局下的 OCR 效果。

您现在可以通过我们的 Unsloth 在 DeepSeek-OCR 2 上进行微调，方法为 免费微调笔记本. 我们展示了 88.6% 的提升在语言理解方面。

运行 DeepSeek-OCR 2 微调 DeepSeek-OCR 2

🖥️ 运行 DeepSeek-OCR 2

为了运行该模型，与第一个模型一样，DeepSeek-OCR 2 经过修改以支持在最新 transformers 上进行推理与训练（准确率无变化）。您可以在此处.

要在以下平台运行该模型 transformers 或 Unsloth，下面是推荐设置：

⚙️ 推荐设置

DeepSeek 推荐以下设置：

Temperature = 0.0
max_tokens = 8192
ngram_size = 30
window_size = 90

支持模式 - 动态分辨率：

默认： (0-6)×768×768 + 1×1024×1024 — (0-6)×144 + 256 个视觉标记

提示示例：

# document: <image>\n<|grounding|>将文档转换为 markdown。
# other image: <image>\n<|grounding|>对该图像进行 OCR。
# without layouts: <image>\n自由 OCR。
# figures in document: <image>\n解析该图表。
# general: <image>\n详细描述此图像。
# rec: <image>\n在图像中定位 <|ref|>xxxx<|/ref|>。

🦥 Unsloth：运行 DeepSeek-OCR 2 教程

获取最新的 unsloth 通过 pip install --upgrade unsloth 。如果您已经安装了 Unsloth，请通过以下命令更新： pip install --upgrade --force-reinstall --no-deps --no-cache-dir unsloth unsloth_zoo
然后使用以下代码运行 DeepSeek-OCR 2：

from unsloth import FastVisionModel
import torch
from transformers import AutoModel
import os
os.environ["UNSLOTH_WARN_UNINITIALIZED"] = '0'

from huggingface_hub import snapshot_download
snapshot_download("unsloth/DeepSeek-OCR-2", local_dir = "deepseek_ocr")
model, tokenizer = FastVisionModel.from_pretrained(
    "./deepseek_ocr",
    load_in_4bit = False, # 使用 4bit 可降低内存占用。16bit LoRA 请设为 False。
    auto_model = AutoModel,
    trust_remote_code = True,
    unsloth_force_compile = True,
    use_gradient_checkpointing = "unsloth", # 对于长上下文使用 True 或 "unsloth"
)

prompt = "<image>\nFree OCR. "
image_file = 'your_image.jpg'
output_path = 'your/output/dir'
res = model.infer(tokenizer, prompt=prompt, image_file=image_file, output_path = output_path, base_size = 1024, image_size = 640, crop_mode=True, save_results = True, test_compress = False)

🤗 Transformers：运行 DeepSeek-OCR 2 教程

在 NVIDIA GPUs 上使用 Huggingface transformers 的推理。测试要求在 python 3.12.9 + CUDA11.8 环境下：

torch==2.6.0
transformers==4.46.3
tokenizers==0.20.3
einops
addict 
easydict
pip install flash-attn==2.7.3 --no-build-isolation

from transformers import AutoModel, AutoTokenizer
import torch
import os
os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'unsloth/DeepSeek-OCR-2'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, _attn_implementation='flash_attention_2', trust_remote_code=True, use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)

# prompt = "<image>\nFree OCR. "
prompt = "<image>\n<|grounding|>将文档转换为 markdown。 "
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

res = model.infer(tokenizer, prompt=prompt, image_file=image_file, output_path = output_path, base_size = 1024, image_size = 768, crop_mode=True, save_results = True)

🦥 微调 DeepSeek-OCR 2

Unsloth 现在支持对 DeepSeek-OCR 2 的微调。与第一个模型一样，您需要使用我们的自定义上传以使其在 transformers 上工作（准确率无变化）。与第一个模型相同，Unsloth 在训练 DeepSeek-OCR-2 时速度提升 1.4 倍，显存减少 40%，上下文长度提高 5 倍且无准确率下降。您现在可以通过我们的免费 Colab 笔记本微调 DeepSeek-OCR 2。

DeepSeek-OCR 2：仅微调笔记本

下面列出了在波斯语上的 CER（字符错误率）准确率改进：

每样本 CER（10 个样本）

索引

OCR1 之前

OCR1 之后

OCR2 之前

OCR2 之后

1520

1.0000

0.8000

10.4000

1.0000

1521

0.0000

2.6809

0.0213

1522

2.0833

0.5833

4.4167

1.0000

1523

0.2258

0.0645

0.8710

0.0968

1524

0.0882

0.1176

2.7647

0.0882

1525

0.1111

0.9444

0.2222

1526

2.8571

0.8571

4.2857

0.7143

1527

3.5000

1.5000

13.2500

1.0000

1528

2.7500

1.5000

1.0000

1529

2.2500

0.8750

1.2500

0.8750

平均 CER（10 个样本）

OCR1： 之前 1.4866，之后 0.6409 (-57%)
OCR2： 之前 4.1863，之后 0.6018 (-86%)

📊 基准测试

DeepSeek-OCR 2 模型的基准来自官方研究论文。

表 1： 在 OmniDocBench v1.5 上对文档阅读的综合评估。V-token𝑚𝑎𝑥 表示本基准中每页使用的最大视觉标记数。R-order 表示阅读顺序。除 DeepSeek OCR 与 DeepSeek OCR 2 外，本表中的所有其他模型结果均来自 OmniDocBench 仓库。

表 2： OmniDocBench v1.5 中不同文档元素类别的编辑距离。 V-token𝑚𝑎𝑥 表示最低的最大视觉标记数。

上一页Gemma 3n 下一页GLM-4.7

最后更新于1个月前

这有帮助吗？

hashtag🖥️ 运行 DeepSeek-OCR 2

hashtag⚙️ 推荐设置

hashtag🦥 Unsloth：运行 DeepSeek-OCR 2 教程

hashtag🤗 Transformers：运行 DeepSeek-OCR 2 教程

hashtag🦥 微调 DeepSeek-OCR 2

hashtag每样本 CER（10 个样本）

hashtag平均 CER（10 个样本）

hashtag📊 基准测试

🖥️ 运行 DeepSeek-OCR 2

⚙️ 推荐设置

🦥 Unsloth：运行 DeepSeek-OCR 2 教程

🤗 Transformers：运行 DeepSeek-OCR 2 教程

🦥 微调 DeepSeek-OCR 2

每样本 CER（10 个样本）

平均 CER（10 个样本）

📊 基准测试