🐳DeepSeek-OCR 2: Wie man ausführt & feinabstimmt - Anleitung

Anleitung, wie man DeepSeek-OCR-2 lokal ausführt und feinabstimmt.

DeepSeek-OCR 2 ist das neue 3‑Milliarden‑Parameter‑Modell für SOTA‑Vision und Dokumentenverständnis, veröffentlicht am 27. Januar 2026 von DeepSeek. Das Modell konzentriert sich auf Bild‑zu‑Text mit stärkerer visueller Schlussfolgerung, nicht nur auf Textextraktion.

DeepSeek-OCR 2 führt DeepEncoder V2 ein, das es dem Modell ermöglicht, ein Bild in derselben logischen Reihenfolge zu „sehen“ wie ein Mensch.

Im Gegensatz zu traditionellen Vision‑LLMs, die Bilder in einem festen Raster (oben‑links → unten‑rechts) scannen, baut DeepEncoder V2 zuerst ein globales Verständnis auf und lernt dann eine menschenähnliche Lesereihenfolge, worauf zuerst, als Nächstes usw. geachtet werden soll. Das verbessert OCR bei komplexen Layouts, indem Spalten besser verfolgt, Labels mit Werten verknüpft, Tabellen kohärent gelesen und gemischter Text + Struktur gehandhabt werden.

Sie können DeepSeek-OCR 2 jetzt in Unsloth feinabstimmen über unser kostenloses Fine‑Tuning‑Notebook. Wir demonstrierten eine Verbesserung um 88,6% für Sprachverständnis.

DeepSeek-OCR 2 ausführen DeepSeek-OCR 2 feinabstimmen

🖥️ DeepSeek-OCR 2 ausführen

Um das Modell auszuführen: Wie beim ersten Modell wurde DeepSeek-OCR 2 so angepasst, dass Inferenz und Training mit den neuesten transformers möglich sind (keine Genauigkeitsänderung). Sie finden es hier.

Um das Modell in transformers oder Unslothauszuführen, hier die empfohlenen Einstellungen:

⚙️ Empfohlene Einstellungen

DeepSeek empfiehlt diese Einstellungen:

Temperature = 0.0
max_tokens = 8192
ngram_size = 30
window_size = 90

Unterstützte Modi - Dynamische Auflösung:

Standard: (0-6)×768×768 + 1×1024×1024 — (0-6)×144 + 256 visuelle Tokens

Beispiel‑Prompts:

# document: <image>\n<|grounding|>Konvertiere das Dokument in Markdown.
# other image: <image>\n<|grounding|>Führe OCR auf diesem Bild durch.
# without layouts: <image>\nFreie OCR.
# figures in document: <image>\nParsiere die Abbildung.
# general: <image>\nBeschreibe dieses Bild detailliert.
# rec: <image>\nLokalisieren Sie <|ref|>xxxx<|/ref|> im Bild.

🦥 Unsloth: DeepSeek-OCR 2 Tutorial ausführen

Holen Sie sich die neueste unsloth über pip install --upgrade unsloth . Wenn Sie Unsloth bereits installiert haben, aktualisieren Sie es über pip install --upgrade --force-reinstall --no-deps --no-cache-dir unsloth unsloth_zoo
Verwenden Sie dann den folgenden Code, um DeepSeek-OCR 2 auszuführen:

from unsloth import FastVisionModel
import torch
from transformers import AutoModel
import os
os.environ["UNSLOTH_WARN_UNINITIALIZED"] = '0'

from huggingface_hub import snapshot_download
snapshot_download("unsloth/DeepSeek-OCR-2", local_dir = "deepseek_ocr")
model, tokenizer = FastVisionModel.from_pretrained(
    "./deepseek_ocr",
    load_in_4bit = False, # Verwenden Sie 4bit, um Speicher zu reduzieren. False für 16bit LoRA.
    auto_model = AutoModel,
    trust_remote_code = True,
    unsloth_force_compile = True,
    use_gradient_checkpointing = "unsloth", # True oder "unsloth" für langen Kontext
)

prompt = "<image>\nFreie OCR. "
image_file = 'your_image.jpg'
output_path = 'your/output/dir'
res = model.infer(tokenizer, prompt=prompt, image_file=image_file, output_path = output_path, base_size = 1024, image_size = 640, crop_mode=True, save_results = True, test_compress = False)

🤗 Transformers: DeepSeek-OCR 2 Tutorial ausführen

Inference mit Huggingface transformers auf NVIDIA‑GPUs. Anforderungen getestet unter Python 3.12.9 + CUDA11.8:

torch==2.6.0
transformers==4.46.3
tokenizers==0.20.3
einops
addict 
easydict
pip install flash-attn==2.7.3 --no-build-isolation

from transformers import AutoModel, AutoTokenizer
import torch
import os
os.environ["CUDA_VISIBLE_DEVICES"] = '0'
model_name = 'unsloth/DeepSeek-OCR-2'

tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, _attn_implementation='flash_attention_2', trust_remote_code=True, use_safetensors=True)
model = model.eval().cuda().to(torch.bfloat16)

# prompt = "<image>\nFreie OCR. "
prompt = "<image>\n<|grounding|>Konvertiere das Dokument in Markdown. "
image_file = 'your_image.jpg'
output_path = 'your/output/dir'

res = model.infer(tokenizer, prompt=prompt, image_file=image_file, output_path = output_path, base_size = 1024, image_size = 768, crop_mode=True, save_results = True)

🦥 DeepSeek-OCR 2 feinabstimmen

Unsloth unterstützt jetzt das Fine‑Tuning von DeepSeek-OCR 2. Wie beim ersten Modell müssen Sie unser benutzerdefiniertes Hochladen verwenden, damit es funktioniert auf transformers (keine Genauigkeitsänderung). Wie beim ersten Modell trainiert Unsloth DeepSeek-OCR-2 1,4× schneller mit 40% weniger VRAM und 5× längeren Kontextlängen ohne Genauigkeitsverlust. Sie können DeepSeek-OCR 2 jetzt über unser kostenloses Colab‑Notebook feinabstimmen.

DeepSeek-OCR 2: Nur Fine‑Tuning‑Notebook

Siehe unten die Verbesserungen der CER (Character Error Rate) Genauigkeit für die persische Sprache:

CER pro Probe (10 Proben)

idx

OCR1 zuvor

OCR1 danach

OCR2 zuvor

OCR2 danach

1520

1.0000

0.8000

10.4000

1.0000

1521

0.0000

2.6809

0.0213

1522

2.0833

0.5833

4.4167

1.0000

1523

0.2258

0.0645

0.8710

0.0968

1524

0.0882

0.1176

2.7647

0.0882

1525

0.1111

0.9444

0.2222

1526

2.8571

0.8571

4.2857

0.7143

1527

3.5000

1.5000

13.2500

1.0000

1528

2.7500

1.5000

1.0000

1529

2.2500

0.8750

1.2500

0.8750

Durchschnittliche CER (10 Proben)

OCR1: vorher 1.4866, nachher 0.6409 (-57%)
OCR2: vorher 4.1863, nachher 0.6018 (-86%)

📊 Benchmarks

Die Benchmarks für das DeepSeek-OCR 2‑Modell stammen aus dem offiziellen Forschungspapier.

Tabelle 1: Umfassende Bewertung des Dokumentenlesens auf OmniDocBench v1.5. V-token𝑚𝑎𝑥 repräsentiert die maximale Anzahl visueller Tokens, die pro Seite in diesem Benchmark verwendet werden. R-order bezeichnet die Lesereihenfolge. Mit Ausnahme von DeepSeek OCR und DeepSeek OCR 2 stammen alle anderen Modellresultate in dieser Tabelle aus dem OmniDocBench‑Repository.

Tabelle 2: Edit‑Distanzen für verschiedene Kategorien von Dokumentelementen in OmniDocBench v1.5. V-token𝑚𝑎𝑥 bezeichnet die niedrigste maximale Anzahl visueller Tokens.

VorherigeGemma 3n NächsteGLM-4.7

Zuletzt aktualisiert vor 1 Monat

War das hilfreich?

hashtag🖥️ DeepSeek-OCR 2 ausführen

hashtag⚙️ Empfohlene Einstellungen

hashtag🦥 Unsloth: DeepSeek-OCR 2 Tutorial ausführen

hashtag🤗 Transformers: DeepSeek-OCR 2 Tutorial ausführen

hashtag🦥 DeepSeek-OCR 2 feinabstimmen

hashtagCER pro Probe (10 Proben)

hashtagDurchschnittliche CER (10 Proben)

hashtag📊 Benchmarks

🖥️ DeepSeek-OCR 2 ausführen

⚙️ Empfohlene Einstellungen

🦥 Unsloth: DeepSeek-OCR 2 Tutorial ausführen

🤗 Transformers: DeepSeek-OCR 2 Tutorial ausführen

🦥 DeepSeek-OCR 2 feinabstimmen

CER pro Probe (10 Proben)

Durchschnittliche CER (10 Proben)

📊 Benchmarks