🐳DeepSeek-OCR: Ausführen & Finetunen
Anleitung, wie man DeepSeek-OCR lokal ausführt und finetunt.
DeepSeek-OCR ist ein 3B-Parameter-Vision-Modell für OCR und Dokumentenverständnis. Es verwendet kontextuelle optische Kompression um 2D-Layouts in Vision-Token zu konvertieren und so eine effiziente Verarbeitung langer Kontexte zu ermöglichen.
DeepSeek-OCR kann Tabellen, wissenschaftliche Arbeiten und Handschrift verarbeiten und erreicht 97% Präzision, während es 10× weniger Vision-Token als Text-Token verwendet – wodurch es 10× effizienter ist als textbasierte LLMs.
Sie können DeepSeek-OCR feinabstimmen, um seine visuellen oder sprachlichen Leistungen zu verbessern. In unserem Unsloth kostenloses Fine‑Tuning‑Notebook, haben wir ein 88,26%ige Verbesserung für Sprachverständnis.
DeepSeek-OCR ausführenDeepSeek-OCR feinabstimmen
Unser Modell-Upload, der Feinabstimmung + erweiterte Inferenzunterstützung ermöglicht: DeepSeek-OCR
🖥️ DeepSeek-OCR ausführen
Um das Modell in vLLM oder Unslothauszuführen, hier die empfohlenen Einstellungen:
⚙️ Empfohlene Einstellungen
DeepSeek empfiehlt diese Einstellungen:
Temperature = 0.0
max_tokens = 8192ngram_size = 30window_size = 90
📖 vLLM: DeepSeek-OCR Tutorial ausführen
Holen Sie sich die neueste
vLLMvia:
Führen Sie dann den folgenden Code aus:
🦥 Unsloth: DeepSeek-OCR Tutorial ausführen
Holen Sie sich die neueste
unslothüberpip install --upgrade unsloth. Wenn Sie Unsloth bereits installiert haben, aktualisieren Sie es überpip install --upgrade --force-reinstall --no-deps --no-cache-dir unsloth unsloth_zooVerwenden Sie dann den untenstehenden Code, um DeepSeek-OCR auszuführen:
🦥 DeepSeek-OCR feinabstimmen
Unsloth unterstützt die Feinabstimmung von DeepSeek-OCR. Da das Standardmodell in der neuesten transformers Version nicht lauffähig ist, haben wir Änderungen vom Stranger Vision HF Team hinzugefügt, um dann Inferenz zu ermöglichen. Wie üblich trainiert Unsloth DeepSeek-OCR 1,4× schneller mit 40% weniger VRAM und 5× längeren Kontextlängen – ohne Genauigkeitsverlust.
Wir haben zwei kostenlose DeepSeek-OCR Colab-Notebooks erstellt (mit und ohne Evaluation):
DeepSeek-OCR: Nur Fine‑Tuning‑Notebook
DeepSeek-OCR: Feinabstimmung + Evaluations-Notebook (A100)
Die Feinabstimmung von DeepSeek-OCR auf einem persischen Datensatz mit 200K Beispielen führte zu erheblichen Verbesserungen bei der Erkennung und dem Verständnis persischer Texte. Wir haben das Basismodell gegen unsere feinabgestimmte Version an 200 persischen Transkriptproben bewertet und eine 88,26% absolute Verbesserung im Character Error Rate (CER). Nach nur 60 Trainingsschritten (Batchgröße = 8) sank der mittlere CER von 149.07% auf einen Mittelwert von 60.81%. Das bedeutet, dass das feinabgestimmte Modell 57% genauer im Verständnis des Persischen ist.
Sie können den persischen Datensatz durch Ihren eigenen ersetzen, um DeepSeek-OCR für andere Anwendungsfälle zu verbessern. Für replica-table Eval-Ergebnisse verwenden Sie unser oben genanntes Eval-Notebook. Für detaillierte Eval-Ergebnisse siehe unten:
Ergebnisse der feinabgestimmten Evaluation:
DeepSeek-OCR Basislinie
Durchschnittliche Basismodell-Leistung: 149,07% CER für diesen Eval-Datensatz!
DeepSeek-OCR feinabgestimmt
Mit 60 Schritten haben wir den CER von 149,07% auf 60,43% reduziert (89% CER-Verbesserung)
Ein Beispiel aus dem persischen Datensatz mit 200K Beispielen, den wir verwendet haben (Sie können Ihren eigenen verwenden), das das Bild links und den entsprechenden Text rechts zeigt.

Zuletzt aktualisiert
War das hilfreich?

