For the complete documentation index, see llms.txt. This page is also available as Markdown.

🐳DeepSeek-OCR 2: Leitfaden zum Ausführen und Feinabstimmen

Leitfaden zum Ausführen und Feinabstimmen von DeepSeek-OCR-2 lokal.

DeepSeek-OCR 2 ist das neue 3B-Parameter-Modell für SOTA-Bild- und Dokumentenverständnis, veröffentlicht am 27. Jan. 2026 von DeepSeek. Das Modell konzentriert sich auf Bild-zu-Text mit stärkerem visuellem Schlussfolgern, nicht nur auf Textextraktion.

DeepSeek-OCR 2 führt DeepEncoder V2 ein, der es dem Modell ermöglicht, ein Bild in derselben logischen Reihenfolge zu „sehen“ wie ein Mensch.

Im Gegensatz zu herkömmlichen Vision-LLMs, die Bilder in einem festen Raster scannen (oben links → unten rechts), baut DeepEncoder V2 zunächst ein globales Verständnis auf und lernt dann eine menschenähnliche Lesereihenfolge – was zuerst beachtet werden soll, was als Nächstes und so weiter. Das verbessert OCR bei komplexen Layouts, indem Spalten besser verfolgt, Beschriftungen mit Werten verknüpft, Tabellen kohärent gelesen und gemischter Text + Struktur verarbeitet werden.

Sie können DeepSeek-OCR 2 jetzt in Unsloth feinabstimmen über unser kostenloses Fine-Tuning-Notebook. Wir haben eine 88,6 % Verbesserung für das Sprachverständnis demonstriert.

DeepSeek-OCR 2 ausführenDeepSeek-OCR 2 feinabstimmen

🖥️ DeepSeek-OCR 2 ausführen

Um das Modell auszuführen, wurde DeepSeek-OCR 2 wie das erste Modell bearbeitet, um Inferenz und Training mit den neuesten Transformers zu ermöglichen (keine Genauigkeitsänderung). Sie finden es hier.

Um das Modell in transformers oder Unslothauszuführen, sind hier die empfohlenen Einstellungen:

⚙️ Empfohlene Einstellungen

DeepSeek empfiehlt diese Einstellungen:

  • Temperatur = 0,0

  • max_tokens = 8192

  • ngram_size = 30

  • window_size = 90

Unterstützte Modi - Dynamische Auflösung:

  • Standard: (0-6)×768×768 + 1×1024×1024 — (0-6)×144 + 256 visuelle Tokens

Beispiel-Prompts:

Verwandelt jedes Dokument mithilfe von Visual Causal Flow in Markdown.

🦥 Unsloth: Tutorial zum Ausführen von DeepSeek-OCR 2

  1. Beschaffen Sie die neueste unsloth über pip install --upgrade unsloth . Wenn Sie Unsloth bereits haben, aktualisieren Sie es mit pip install --upgrade --force-reinstall --no-deps --no-cache-dir unsloth unsloth_zoo

  2. Verwenden Sie dann den folgenden Code, um DeepSeek-OCR 2 auszuführen:

🤗 Transformers: Tutorial zum Ausführen von DeepSeek-OCR 2

Inferenz mit Hugging Face Transformers auf NVIDIA-GPUs. Getestete Anforderungen unter Python 3.12.9 + CUDA11.8:

🦥 DeepSeek-OCR 2 feinabstimmen

Unsloth unterstützt jetzt das Fine-Tuning von DeepSeek-OCR 2. Wie beim ersten Modell müssen Sie unser benutzerdefiniertes Upload verwenden, damit es auf transformers funktioniert (keine Genauigkeitsänderung). Wie beim ersten Modell trainiert Unsloth DeepSeek-OCR-2 1,4x schneller mit 40 % weniger VRAM und 5x längeren Kontextlängen ohne Genauigkeitsverlust. Sie können DeepSeek-OCR 2 jetzt über unser kostenloses Colab-Notebook feinabstimmen.

Siehe unten für CER-Genauigkeitsverbesserungen (Character Error Rate) in der persischen Sprache:

CER pro Beispiel (10 Beispiele)

idx
OCR1 vorher
OCR1 nachher
OCR2 vorher
OCR2 nachher

1520

1.0000

0.8000

10.4000

1.0000

1521

0.0000

0.0000

2.6809

0.0213

1522

2.0833

0.5833

4.4167

1.0000

1523

0.2258

0.0645

0.8710

0.0968

1524

0.0882

0.1176

2.7647

0.0882

1525

0.1111

0.1111

0.9444

0.2222

1526

2.8571

0.8571

4.2857

0.7143

1527

3.5000

1.5000

13.2500

1.0000

1528

2.7500

1.5000

1.0000

1.0000

1529

2.2500

0.8750

1.2500

0.8750

Durchschnittliche CER (10 Beispiele)

  • OCR1: vorher 1.4866, nachher 0.6409 (-57%)

  • OCR2: vorher 4.1863, nachher 0.6018 (-86%)

📊 Benchmarks

Die Benchmarks für das DeepSeek-OCR-2-Modell stammen aus dem offiziellen Forschungsbericht.

Tabelle 1: Umfassende Bewertung des Dokumentenlesens auf OmniDocBench v1.5. V-token𝑚𝑎𝑥 das Maximum an visuellen Tokens pro Seite in diesem Benchmark darstellt. R-order bezeichnet die Leserichtung. Mit Ausnahme von DeepSeek OCR und DeepSeek OCR 2 stammen alle anderen Modellergebnisse in dieser Tabelle aus dem OmniDocBench-Repository.

Tabelle 2: Bearbeitungsdistanzen für verschiedene Kategorien von Dokumentelementen in OmniDocBench v1.5. V-token𝑚𝑎𝑥 bezeichnet die niedrigste maximale Anzahl visueller Tokens.

Übertrifft Gemini-3 Pro auf dem OmniDocBench

Zuletzt aktualisiert

War das hilfreich?