🐳DeepSeek-OCR : Comment exécuter & affiner
Guide sur la façon d'exécuter et d'affiner DeepSeek-OCR localement.
DeepSeek-OCR est un modèle de vision de 3 milliards de paramètres pour la reconnaissance optique de caractères (OCR) et la compréhension de documents. Il utilise compression optique contextuelle pour convertir des mises en page 2D en tokens visuels, permettant un traitement efficace des contextes longs.
Capable de gérer les tableaux, les articles et l'écriture manuscrite, DeepSeek-OCR atteint 97 % de précision tout en utilisant 10× moins de tokens visuels que de tokens textuels - ce qui le rend 10× plus efficace que les LLM basés sur du texte.
Vous pouvez affiner DeepSeek-OCR pour améliorer ses performances visuelles ou linguistiques. Dans notre Unsloth carnet d'affinage gratuit, nous avons démontré une amélioration de 88,26 % pour la compréhension du langage.
Exécution de DeepSeek-OCRAffinage de DeepSeek-OCR
Notre upload de modèle qui permet l'affinage + plus de support d'inférence : DeepSeek-OCR
🖥️ Exécution de DeepSeek-OCR
Pour exécuter le modèle dans vLLM ou Unsloth, voici les paramètres recommandés :
⚙️ Paramètres recommandés
DeepSeek recommande ces paramètres :
Température = 0.0
max_tokens = 8192ngram_size = 30window_size = 90
📖 vLLM : Tutoriel d'exécution de DeepSeek-OCR
Obtenez le dernier
vLLMvia :
Ensuite, exécutez le code suivant :
🦥 Unsloth : Tutoriel d'exécution de DeepSeek-OCR
Obtenez le dernier
unslothviapip install --upgrade unsloth. Si vous avez déjà Unsloth, mettez-le à jour viapip install --upgrade --force-reinstall --no-deps --no-cache-dir unsloth unsloth_zooEnsuite, utilisez le code ci-dessous pour exécuter DeepSeek-OCR :
🦥 Affinage de DeepSeek-OCR
Unsloth prend en charge l'affinage de DeepSeek-OCR. Étant donné que le modèle par défaut n'est pas exécutable sur la dernière transformers version, nous avons ajouté les modifications de l'équipe Stranger Vision HF pour ensuite permettre l'inférence. Comme d'habitude, Unsloth entraîne DeepSeek-OCR 1,4× plus vite avec 40 % de VRAM en moins et des longueurs de contexte 5× plus grandes - sans dégradation de la précision.
Nous avons créé deux notebooks Colab DeepSeek-OCR gratuits (avec et sans évaluation) :
DeepSeek-OCR : Carnet uniquement pour l'affinage
DeepSeek-OCR : Notebook d'affinage + évaluation (A100)
L'affinage de DeepSeek-OCR sur un échantillon de 200K en persan a entraîné des gains substantiels dans la détection et la compréhension du texte persan. Nous avons évalué le modèle de base par rapport à notre version affinée sur 200 échantillons de transcriptions persanes, observant une amélioration absolue de 88,26 % dans le taux d'erreur de caractères (CER). Après seulement 60 étapes d'entraînement (taille de lot = 8), le CER moyen a diminué de 149.07% pour atteindre une moyenne de 60.81%. Cela signifie que le modèle affiné est 57% plus précis pour comprendre le persan.
Vous pouvez remplacer le jeu de données persan par le vôtre pour améliorer DeepSeek-OCR pour d'autres cas d'utilisation. Pour les résultats d'éval replica-table, utilisez notre notebook d'éval ci-dessus. Pour des résultats d'éval détaillés, voir ci-dessous :
Résultats de l'évaluation du modèle affiné :
DeepSeek-OCR Baseline
Performance moyenne du modèle de base : 149,07 % de CER pour cet ensemble d'évaluation !
DeepSeek-OCR Affiné
En 60 étapes, nous avons réduit le CER de 149,07 % à 60,43 % (amélioration du CER de 89 %)
Un exemple tiré du jeu de données persan de 200K que nous avons utilisé (vous pouvez utiliser le vôtre), montrant l'image à gauche et le texte correspondant à droite.

Mis à jour
Ce contenu vous a-t-il été utile ?

