🐳DeepSeek-OCR: Ausführen & Finetunen

Anleitung, wie man DeepSeek-OCR lokal ausführt und finetunt.

DeepSeek-OCR ist ein 3B-Parameter-Vision-Modell für OCR und Dokumentenverständnis. Es verwendet kontextuelle optische Kompression um 2D-Layouts in Vision-Token zu konvertieren und so eine effiziente Verarbeitung langer Kontexte zu ermöglichen.

DeepSeek-OCR kann Tabellen, wissenschaftliche Arbeiten und Handschrift verarbeiten und erreicht 97% Präzision, während es 10× weniger Vision-Token als Text-Token verwendet – wodurch es 10× effizienter ist als textbasierte LLMs.

Sie können DeepSeek-OCR feinabstimmen, um seine visuellen oder sprachlichen Leistungen zu verbessern. In unserem Unsloth kostenloses Fine‑Tuning‑Notebookarrow-up-right, haben wir ein 88,26%ige Verbesserung für Sprachverständnis.

DeepSeek-OCR ausführenDeepSeek-OCR feinabstimmen

Unser Modell-Upload, der Feinabstimmung + erweiterte Inferenzunterstützung ermöglicht: DeepSeek-OCRarrow-up-right

🖥️ DeepSeek-OCR ausführen

Um das Modell in vLLM oder Unslothauszuführen, hier die empfohlenen Einstellungen:

⚙️ Empfohlene Einstellungen

DeepSeek empfiehlt diese Einstellungen:

  • Temperature = 0.0

  • max_tokens = 8192

  • ngram_size = 30

  • window_size = 90

📖 vLLM: DeepSeek-OCR Tutorial ausführen

  1. Holen Sie sich die neueste vLLM via:

  1. Führen Sie dann den folgenden Code aus:

🦥 Unsloth: DeepSeek-OCR Tutorial ausführen

  1. Holen Sie sich die neueste unsloth über pip install --upgrade unsloth . Wenn Sie Unsloth bereits installiert haben, aktualisieren Sie es über pip install --upgrade --force-reinstall --no-deps --no-cache-dir unsloth unsloth_zoo

  2. Verwenden Sie dann den untenstehenden Code, um DeepSeek-OCR auszuführen:

🦥 DeepSeek-OCR feinabstimmen

Unsloth unterstützt die Feinabstimmung von DeepSeek-OCR. Da das Standardmodell in der neuesten transformers Version nicht lauffähig ist, haben wir Änderungen vom Stranger Vision HFarrow-up-right Team hinzugefügt, um dann Inferenz zu ermöglichen. Wie üblich trainiert Unsloth DeepSeek-OCR 1,4× schneller mit 40% weniger VRAM und 5× längeren Kontextlängen – ohne Genauigkeitsverlust. Wir haben zwei kostenlose DeepSeek-OCR Colab-Notebooks erstellt (mit und ohne Evaluation):

Die Feinabstimmung von DeepSeek-OCR auf einem persischen Datensatz mit 200K Beispielen führte zu erheblichen Verbesserungen bei der Erkennung und dem Verständnis persischer Texte. Wir haben das Basismodell gegen unsere feinabgestimmte Version an 200 persischen Transkriptproben bewertet und eine 88,26% absolute Verbesserung im Character Error Rate (CER). Nach nur 60 Trainingsschritten (Batchgröße = 8) sank der mittlere CER von 149.07% auf einen Mittelwert von 60.81%. Das bedeutet, dass das feinabgestimmte Modell 57% genauer im Verständnis des Persischen ist.

Sie können den persischen Datensatz durch Ihren eigenen ersetzen, um DeepSeek-OCR für andere Anwendungsfälle zu verbessern. Für replica-table Eval-Ergebnisse verwenden Sie unser oben genanntes Eval-Notebook. Für detaillierte Eval-Ergebnisse siehe unten:

Ergebnisse der feinabgestimmten Evaluation:

DeepSeek-OCR Basislinie

Durchschnittliche Basismodell-Leistung: 149,07% CER für diesen Eval-Datensatz!

DeepSeek-OCR feinabgestimmt

Mit 60 Schritten haben wir den CER von 149,07% auf 60,43% reduziert (89% CER-Verbesserung)

Ein Beispiel aus dem persischen Datensatz mit 200K Beispielen, den wir verwendet haben (Sie können Ihren eigenen verwenden), das das Bild links und den entsprechenden Text rechts zeigt.

Zuletzt aktualisiert

War das hilfreich?