🐳DeepSeek-OCR 2: Anleitung zum Ausführen & Finetunen
Anleitung, wie man DeepSeek-OCR-2 lokal ausführt und finetunt.
DeepSeek-OCR 2 ist das neue 3‑Milliarden‑Parameter‑Modell für SOTA‑Vision und Dokumentenverständnis, veröffentlicht am 27. Januar 2026 von DeepSeek. Das Modell konzentriert sich auf Bild‑zu‑Text mit stärkerer visueller Schlussfolgerung, nicht nur auf Textextraktion.
DeepSeek-OCR 2 führt DeepEncoder V2 ein, das es dem Modell ermöglicht, ein Bild in derselben logischen Reihenfolge zu „sehen“ wie ein Mensch.
Im Gegensatz zu traditionellen Vision‑LLMs, die Bilder in einem festen Raster (oben‑links → unten‑rechts) scannen, baut DeepEncoder V2 zuerst ein globales Verständnis auf und lernt dann eine menschenähnliche Lesereihenfolge, worauf zuerst, als Nächstes usw. geachtet werden soll. Das verbessert OCR bei komplexen Layouts, indem Spalten besser verfolgt, Labels mit Werten verknüpft, Tabellen kohärent gelesen und gemischter Text + Struktur gehandhabt werden.
Sie können DeepSeek-OCR 2 jetzt in Unsloth feinabstimmen über unser kostenloses Fine‑Tuning‑Notebook. Wir demonstrierten eine Verbesserung um 88,6% für Sprachverständnis.
DeepSeek-OCR 2 ausführenDeepSeek-OCR 2 feinabstimmen
🖥️ DeepSeek-OCR 2 ausführen
Um das Modell auszuführen: Wie beim ersten Modell wurde DeepSeek-OCR 2 so angepasst, dass Inferenz und Training mit den neuesten transformers möglich sind (keine Genauigkeitsänderung). Sie finden es hier.
Um das Modell in transformers oder Unslothauszuführen, hier die empfohlenen Einstellungen:
⚙️ Empfohlene Einstellungen
DeepSeek empfiehlt diese Einstellungen:
Temperature = 0.0
max_tokens = 8192ngram_size = 30window_size = 90
Unterstützte Modi - Dynamische Auflösung:
Standard: (0-6)×768×768 + 1×1024×1024 — (0-6)×144 + 256 visuelle Tokens
Beispiel‑Prompts:

🦥 Unsloth: DeepSeek-OCR 2 Tutorial ausführen
Holen Sie sich die neueste
unslothüberpip install --upgrade unsloth. Wenn Sie Unsloth bereits installiert haben, aktualisieren Sie es überpip install --upgrade --force-reinstall --no-deps --no-cache-dir unsloth unsloth_zooVerwenden Sie dann den folgenden Code, um DeepSeek-OCR 2 auszuführen:
🤗 Transformers: DeepSeek-OCR 2 Tutorial ausführen
Inference mit Huggingface transformers auf NVIDIA‑GPUs. Anforderungen getestet unter Python 3.12.9 + CUDA11.8:
🦥 DeepSeek-OCR 2 feinabstimmen
Unsloth unterstützt jetzt das Fine‑Tuning von DeepSeek-OCR 2. Wie beim ersten Modell müssen Sie unser benutzerdefiniertes Hochladen verwenden, damit es funktioniert auf transformers (keine Genauigkeitsänderung). Wie beim ersten Modell trainiert Unsloth DeepSeek-OCR-2 1,4× schneller mit 40% weniger VRAM und 5× längeren Kontextlängen ohne Genauigkeitsverlust.
Sie können DeepSeek-OCR 2 jetzt über unser kostenloses Colab‑Notebook feinabstimmen.
DeepSeek-OCR 2: Nur Fine‑Tuning‑Notebook
Siehe unten die Verbesserungen der CER (Character Error Rate) Genauigkeit für die persische Sprache:
CER pro Probe (10 Proben)
1520
1.0000
0.8000
10.4000
1.0000
1521
0.0000
0.0000
2.6809
0.0213
1522
2.0833
0.5833
4.4167
1.0000
1523
0.2258
0.0645
0.8710
0.0968
1524
0.0882
0.1176
2.7647
0.0882
1525
0.1111
0.1111
0.9444
0.2222
1526
2.8571
0.8571
4.2857
0.7143
1527
3.5000
1.5000
13.2500
1.0000
1528
2.7500
1.5000
1.0000
1.0000
1529
2.2500
0.8750
1.2500
0.8750
Durchschnittliche CER (10 Proben)
OCR1: vorher 1.4866, nachher 0.6409 (-57%)
OCR2: vorher 4.1863, nachher 0.6018 (-86%)
📊 Benchmarks
Die Benchmarks für das DeepSeek-OCR 2‑Modell stammen aus dem offiziellen Forschungspapier.
Tabelle 1: Umfassende Bewertung des Dokumentenlesens auf OmniDocBench v1.5. V-token𝑚𝑎𝑥 repräsentiert die maximale Anzahl visueller Tokens, die pro Seite in diesem Benchmark verwendet werden. R-order bezeichnet die Lesereihenfolge. Mit Ausnahme von DeepSeek OCR und DeepSeek OCR 2 stammen alle anderen Modellresultate in dieser Tabelle aus dem OmniDocBench‑Repository.

Tabelle 2: Edit‑Distanzen für verschiedene Kategorien von Dokumentelementen in OmniDocBench v1.5. V-token𝑚𝑎𝑥 bezeichnet die niedrigste maximale Anzahl visueller Tokens.

Zuletzt aktualisiert
War das hilfreich?

