windowsPhi-4 Reasoning : Comment exécuter & affiner

Apprenez à exécuter et affiner les modèles de raisonnement Phi-4 localement avec Unsloth + nos quantifications dynamiques 2.0

Les nouveaux modèles de raisonnement Phi-4 de Microsoft sont désormais pris en charge dans Unsloth. La variante « plus » offre des performances équivalentes à celles des o1-mini, o3-mini et Sonnet 3.7 d'OpenAI. Les modèles de raisonnement « plus » et standard ont 14 milliards de paramètres tandis que le « mini » en a 4 milliards. Tous les téléchargements de raisonnement Phi-4 utilisent notre Unsloth Dynamic 2.0 méthodologie.

Raisonnement Phi-4 - Téléchargements Unsloth Dynamic 2.0 :

🖥️ Exécution du raisonnement Phi-4

⚙️ Paramètres recommandés officiels

Selon Microsoft, voici les paramètres recommandés pour l'inférence :

  • Température = 0,8

  • Top_P = 0,95

Modèles de conversation Phi-4 reasoning

Veuillez vous assurer d'utiliser le bon modèle de conversation car la variante « mini » en a un différent.

Phi-4-mini :

<|system|>Votre nom est Phi, un expert en mathématiques IA développé par Microsoft.<|end|><|user|>Comment résoudre 3*x^2+4*x+5=1 ?<|end|><|assistant|>

Phi-4-reasoning et Phi-4-reasoning-plus :

Ce format est utilisé pour la conversation générale et les instructions :

circle-info

Oui, le modèle de conversation / le format d'invite est aussi long !

🦙 Ollama : Tutoriel Exécuter Phi-4 reasoning

  1. Installez ollama si vous ne l'avez pas encore fait !

  1. Exécutez le modèle ! Notez que vous pouvez appeler ollama servedans un autre terminal si cela échoue. Nous incluons toutes nos corrections et paramètres suggérés (température, etc.) dans params dans notre téléchargement Hugging Face.

📖 Llama.cpp : Tutoriel Exécuter Phi-4 reasoning

circle-exclamation
  1. Obtenez le dernier llama.cpp sur GitHub iciarrow-up-right. Vous pouvez suivre les instructions de compilation ci-dessous également. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement une inférence CPU.

  1. Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer ). Vous pouvez choisir Q4_K_M, ou d'autres versions quantifiées.

  1. Exécutez le modèle en mode conversationnel dans llama.cpp. Vous devez utiliser --jinja dans llama.cpp pour activer le raisonnement pour les modèles. Ce n'est toutefois pas nécessaire si vous utilisez la variante « mini ».

🦥 Ajustement fin (Fine-tuning) de Phi-4 avec Unsloth

Ajustement fin de Phi-4arrow-up-right pour les modèles sont également désormais pris en charge dans Unsloth. Pour affiner gratuitement sur Google Colab, changez simplement le model_name de 'unsloth/Phi-4' en 'unsloth/Phi-4-mini-reasoning', etc.

Mis à jour

Ce contenu vous a-t-il été utile ?