windowsPhi-4 Reasoning : Comment exécuter et affiner

Apprenez à exécuter et affiner les modèles de raisonnement Phi-4 localement avec Unsloth + nos quantifications Dynamic 2.0

Les nouveaux modèles de raisonnement Phi-4 de Microsoft sont désormais pris en charge dans Unsloth. La variante « plus » offre des performances équivalentes à o1-mini, o3-mini et Sonnet 3.7 d'OpenAI. Les modèles de raisonnement « plus » et standard ont 14 milliards de paramètres tandis que le « mini » en compte 4 milliards. Tous les envois de raisonnement Phi-4 utilisent notre Unsloth Dynamic 2.0 méthodologie.

Raisonnement Phi-4 - envois Unsloth Dynamic 2.0 :

🖥️ Exécution du raisonnement Phi-4

⚙️ Paramètres officiels recommandés

Selon Microsoft, voici les réglages recommandés pour l'inférence :

  • Température = 0,8

  • Top_P = 0,95

Modèles de chat Phi-4 reasoning

Veuillez vous assurer d'utiliser le bon modèle de chat car la variante « mini » en a un différent.

Phi-4-mini :

<|system|>Votre nom est Phi, un expert en mathématiques IA développé par Microsoft.<|end|><|user|>Comment résoudre 3*x^2+4*x+5=1 ?<|end|><|assistant|>

Phi-4-reasoning et Phi-4-reasoning-plus :

Ce format est utilisé pour la conversation générale et les instructions :

circle-info

Oui, le modèle de chat / le format de prompt est aussi long !

🦙 Ollama : Exécuter le tutoriel Phi-4 reasoning

  1. Installer ollama si vous ne l’avez pas encore fait !

  1. Exécutez le modèle ! Notez que vous pouvez appeler ollama servedans un autre terminal si cela échoue. Nous incluons toutes nos corrections et paramètres suggérés (température, etc.) dans params dans notre envoi Hugging Face.

📖 Llama.cpp : Exécuter le tutoriel Phi-4 reasoning

circle-exclamation
  1. Obtenez la dernière llama.cpp sur GitHub iciarrow-up-right. Vous pouvez aussi suivre les instructions de compilation ci-dessous. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU ou si vous voulez simplement de l'inférence CPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d'habitude - le support Metal est activé par défaut.

  1. Téléchargez le modèle via (après avoir installé pip install huggingface_hub hf_transfer 📖 Llama.cpp : Exécuter le tutoriel Qwen3

  1. Exécutez le modèle en mode conversationnel dans llama.cpp. Vous devez utiliser --jinja dans llama.cpp pour activer le raisonnement pour les modèles. Cela n'est toutefois pas nécessaire si vous utilisez la variante « mini ».

🦥 Affinage (fine-tuning) de Phi-4 avec Unsloth

Affinage de Phi-4arrow-up-right pour les modèles sont également désormais pris en charge dans Unsloth. Pour affiner gratuitement sur Google Colab, changez simplement le model_name de 'unsloth/Phi-4' en 'unsloth/Phi-4-mini-reasoning', etc.

Mis à jour

Ce contenu vous a-t-il été utile ?