🐳DeepSeek-OCR 2 : Guide d'exécution & d'affinage

Guide sur la façon d'exécuter et d'affiner DeepSeek-OCR-2 localement.

DeepSeek-OCR 2 est le nouveau modèle de 3 milliards de paramètres pour l'état de l'art en vision et compréhension de documents publié le 27 janvier 2026 par DeepSeek. Le modèle se concentre sur l'image-vers-texte avec un raisonnement visuel renforcé, pas seulement l'extraction de texte.

DeepSeek-OCR 2 introduit DeepEncoder V2, qui permet au modèle de « voir » une image dans le même ordre logique qu'un humain.

Contrairement aux LLMs vision traditionnels qui scannent les images selon une grille fixe (de haut-gauche → bas-droite), DeepEncoder V2 construit d'abord une compréhension globale, puis apprend un ordre de lecture semblable à celui d'un humain, ce à quoi il faut prêter attention en premier, ensuite, et ainsi de suite. Cela améliore l'OCR sur des mises en page complexes en suivant mieux les colonnes, en reliant les étiquettes aux valeurs, en lisant les tableaux de manière cohérente et en gérant le texte mixte + la structure.

Vous pouvez désormais affiner (fine-tune) DeepSeek-OCR 2 dans Unsloth via notre carnet d'affinage gratuitarrow-up-right. Nous avons démontré une amélioration de 88,6 % pour la compréhension du langage.

Exécution de DeepSeek-OCR 2Affinage de DeepSeek-OCR 2

🖥️ Exécution de DeepSeek-OCR 2

Pour exécuter le modèle, comme le premier modèle, DeepSeek-OCR 2 a été modifié pour permettre l'inférence et l'entraînement sur les transformers les plus récents (aucun changement de précision). Vous pouvez le trouver iciarrow-up-right.

Pour exécuter le modèle dans transformers ou Unsloth, voici les paramètres recommandés :

⚙️ Paramètres recommandés

DeepSeek recommande ces paramètres :

  • Température = 0.0

  • max_tokens = 8192

  • ngram_size = 30

  • window_size = 90

Modes pris en charge - Résolution dynamique :

  • Par défaut : (0-6)×768×768 + 1×1024×1024 — (0-6)×144 + 256 jetons visuels

Exemples de prompts :

Transforme n'importe quel document en markdown en utilisant le Visual Causal Flow.

🦥 Unsloth : Tutoriel d'exécution de DeepSeek-OCR 2

  1. Obtenez le dernier unsloth via pip install --upgrade unsloth . Si vous avez déjà Unsloth, mettez-le à jour via pip install --upgrade --force-reinstall --no-deps --no-cache-dir unsloth unsloth_zoo

  2. Ensuite, utilisez le code ci-dessous pour exécuter DeepSeek-OCR 2 :

🤗 Transformers : Tutoriel d'exécution de DeepSeek-OCR 2

Inférence avec Huggingface transformers sur GPU NVIDIA. Exigences testées sur python 3.12.9 + CUDA11.8 :

🦥 Affinage de DeepSeek-OCR 2

Unsloth prend désormais en charge l'affinage de DeepSeek-OCR 2. Comme pour le premier modèle, vous devrez utiliser notre téléversement personnaliséarrow-up-right pour que cela fonctionne sur transformers (aucun changement de précision). Comme pour le premier modèle, Unsloth entraîne DeepSeek-OCR-2 1,4× plus rapidement avec 40 % de VRAM en moins et des longueurs de contexte 5× plus longues sans dégradation de la précision. Vous pouvez désormais affiner DeepSeek-OCR 2 via notre carnet Colab gratuit.

Voir ci-dessous les améliorations de précision CER (taux d'erreur par caractère) pour la langue persane :

CER par échantillon (10 échantillons)

idx
OCR1 avant
OCR1 après
OCR2 avant
OCR2 après

1520

1.0000

0.8000

10.4000

1.0000

1521

0.0000

0.0000

2.6809

0.0213

1522

2.0833

0.5833

4.4167

1.0000

1523

0.2258

0.0645

0.8710

0.0968

1524

0.0882

0.1176

2.7647

0.0882

1525

0.1111

0.1111

0.9444

0.2222

1526

2.8571

0.8571

4.2857

0.7143

1527

3.5000

1.5000

13.2500

1.0000

1528

2.7500

1.5000

1.0000

1.0000

1529

2.2500

0.8750

1.2500

0.8750

CER moyenne (10 échantillons)

  • OCR1 : avant 1.4866, après 0.6409 (-57%)

  • OCR2 : avant 4.1863, après 0.6018 (-86%)

📊 Benchmarks

Les benchmarks du modèle DeepSeek-OCR 2 sont tirés de l'article de recherche officiel.

Tableau 1 : Évaluation complète de la lecture de documents sur OmniDocBench v1.5. V-token𝑚𝑎𝑥 représente le nombre maximal de jetons visuels utilisés par page dans ce benchmark. R-order désigne l'ordre de lecture. À l'exception de DeepSeek OCR et DeepSeek OCR 2, tous les autres résultats de modèles dans ce tableau proviennent du dépôt OmniDocBench.

Tableau 2 : Distances d'édition pour différentes catégories d'éléments de document dans OmniDocBench v1.5. V-token𝑚𝑎𝑥 désigne le plus faible nombre maximal de jetons visuels.

Surpasse Gemini-3 Pro sur l'OmniDocBench

Mis à jour

Ce contenu vous a-t-il été utile ?