🐳DeepSeek-OCR 2: Anleitung zum Ausführen & Finetunen

Anleitung, wie man DeepSeek-OCR-2 lokal ausführt und finetunt.

DeepSeek-OCR 2 ist das neue 3‑Milliarden‑Parameter‑Modell für SOTA‑Vision und Dokumentenverständnis, veröffentlicht am 27. Januar 2026 von DeepSeek. Das Modell konzentriert sich auf Bild‑zu‑Text mit stärkerer visueller Schlussfolgerung, nicht nur auf Textextraktion.

DeepSeek-OCR 2 führt DeepEncoder V2 ein, das es dem Modell ermöglicht, ein Bild in derselben logischen Reihenfolge zu „sehen“ wie ein Mensch.

Im Gegensatz zu traditionellen Vision‑LLMs, die Bilder in einem festen Raster (oben‑links → unten‑rechts) scannen, baut DeepEncoder V2 zuerst ein globales Verständnis auf und lernt dann eine menschenähnliche Lesereihenfolge, worauf zuerst, als Nächstes usw. geachtet werden soll. Das verbessert OCR bei komplexen Layouts, indem Spalten besser verfolgt, Labels mit Werten verknüpft, Tabellen kohärent gelesen und gemischter Text + Struktur gehandhabt werden.

Sie können DeepSeek-OCR 2 jetzt in Unsloth feinabstimmen über unser kostenloses Fine‑Tuning‑Notebookarrow-up-right. Wir demonstrierten eine Verbesserung um 88,6% für Sprachverständnis.

DeepSeek-OCR 2 ausführenDeepSeek-OCR 2 feinabstimmen

🖥️ DeepSeek-OCR 2 ausführen

Um das Modell auszuführen: Wie beim ersten Modell wurde DeepSeek-OCR 2 so angepasst, dass Inferenz und Training mit den neuesten transformers möglich sind (keine Genauigkeitsänderung). Sie finden es hierarrow-up-right.

Um das Modell in transformers oder Unslothauszuführen, hier die empfohlenen Einstellungen:

⚙️ Empfohlene Einstellungen

DeepSeek empfiehlt diese Einstellungen:

  • Temperature = 0.0

  • max_tokens = 8192

  • ngram_size = 30

  • window_size = 90

Unterstützte Modi - Dynamische Auflösung:

  • Standard: (0-6)×768×768 + 1×1024×1024 — (0-6)×144 + 256 visuelle Tokens

Beispiel‑Prompts:

Wandelt jedes Dokument mit Visual Causal Flow in Markdown um.

🦥 Unsloth: DeepSeek-OCR 2 Tutorial ausführen

  1. Holen Sie sich die neueste unsloth über pip install --upgrade unsloth . Wenn Sie Unsloth bereits installiert haben, aktualisieren Sie es über pip install --upgrade --force-reinstall --no-deps --no-cache-dir unsloth unsloth_zoo

  2. Verwenden Sie dann den folgenden Code, um DeepSeek-OCR 2 auszuführen:

🤗 Transformers: DeepSeek-OCR 2 Tutorial ausführen

Inference mit Huggingface transformers auf NVIDIA‑GPUs. Anforderungen getestet unter Python 3.12.9 + CUDA11.8:

🦥 DeepSeek-OCR 2 feinabstimmen

Unsloth unterstützt jetzt das Fine‑Tuning von DeepSeek-OCR 2. Wie beim ersten Modell müssen Sie unser benutzerdefiniertes Hochladenarrow-up-right verwenden, damit es funktioniert auf transformers (keine Genauigkeitsänderung). Wie beim ersten Modell trainiert Unsloth DeepSeek-OCR-2 1,4× schneller mit 40% weniger VRAM und 5× längeren Kontextlängen ohne Genauigkeitsverlust. Sie können DeepSeek-OCR 2 jetzt über unser kostenloses Colab‑Notebook feinabstimmen.

Siehe unten die Verbesserungen der CER (Character Error Rate) Genauigkeit für die persische Sprache:

CER pro Probe (10 Proben)

idx
OCR1 zuvor
OCR1 danach
OCR2 zuvor
OCR2 danach

1520

1.0000

0.8000

10.4000

1.0000

1521

0.0000

0.0000

2.6809

0.0213

1522

2.0833

0.5833

4.4167

1.0000

1523

0.2258

0.0645

0.8710

0.0968

1524

0.0882

0.1176

2.7647

0.0882

1525

0.1111

0.1111

0.9444

0.2222

1526

2.8571

0.8571

4.2857

0.7143

1527

3.5000

1.5000

13.2500

1.0000

1528

2.7500

1.5000

1.0000

1.0000

1529

2.2500

0.8750

1.2500

0.8750

Durchschnittliche CER (10 Proben)

  • OCR1: vorher 1.4866, nachher 0.6409 (-57%)

  • OCR2: vorher 4.1863, nachher 0.6018 (-86%)

📊 Benchmarks

Die Benchmarks für das DeepSeek-OCR 2‑Modell stammen aus dem offiziellen Forschungspapier.

Tabelle 1: Umfassende Bewertung des Dokumentenlesens auf OmniDocBench v1.5. V-token𝑚𝑎𝑥 repräsentiert die maximale Anzahl visueller Tokens, die pro Seite in diesem Benchmark verwendet werden. R-order bezeichnet die Lesereihenfolge. Mit Ausnahme von DeepSeek OCR und DeepSeek OCR 2 stammen alle anderen Modellresultate in dieser Tabelle aus dem OmniDocBench‑Repository.

Tabelle 2: Edit‑Distanzen für verschiedene Kategorien von Dokumentelementen in OmniDocBench v1.5. V-token𝑚𝑎𝑥 bezeichnet die niedrigste maximale Anzahl visueller Tokens.

Übertrifft Gemini‑3 Pro auf dem OmniDocBench

Zuletzt aktualisiert

War das hilfreich?