> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/fr/modeles/gpt-oss-how-to-run-and-fine-tune.md).

# gpt-oss : guide d'exécution

OpenAI publie « **gpt-oss-120b** et « **gpt-oss-20b**», deux modèles de langage ouverts SOTA sous licence Apache 2.0. Les deux modèles à contexte 128k surpassent des modèles ouverts de taille similaire en raisonnement, utilisation d’outils et tâches agentiques. Vous pouvez maintenant les exécuter et les affiner localement avec Unsloth !

<a href="#run-gpt-oss-20b" class="button secondary">Exécuter gpt-oss-20b</a><a href="#run-gpt-oss-120b" class="button secondary">Exécuter gpt-oss-120b</a><a href="#fine-tuning-gpt-oss-with-unsloth" class="button primary">Affiner gpt-oss</a>

> [**Affiner**](#fine-tuning-gpt-oss-with-unsloth) **gpt-oss-20b gratuitement avec notre** [**notebook Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/gpt-oss-\(20B\)-Fine-tuning.ipynb)

Entraîné avec [RL](/docs/fr/commencer/reinforcement-learning-rl-guide.md), **gpt-oss-120b** rivalise avec o4-mini et **gpt-oss-20b** rivalise avec o3-mini. Les deux excellent dans l’appel de fonctions et le raisonnement CoT, surpassant o1 et GPT-4o.

Pour de meilleures performances, assurez-vous que votre mémoire totale disponible (mémoire unifiée + VRAM + RAM système) dépasse la taille du fichier de modèle quantifié que vous téléchargez. Sinon, llama.cpp peut toujours fonctionner via déchargement sur SSD/HDD, mais l’inférence sera plus lente.

#### **gpt-oss - GGUF Unsloth :**

{% hint style="success" %}
**Inclut les** [**corrections du modèle de chat**](#unsloth-fixes-for-gpt-oss)**. Pour de meilleurs résultats, utilisez nos mises en ligne et entraînez-vous avec Unsloth !**
{% endhint %}

* 20B : [gpt-oss-**20B**](https://huggingface.co/unsloth/gpt-oss-20b-GGUF)
* 120B : [gpt-oss-**120B**](https://huggingface.co/unsloth/gpt-oss-120b-GGUF)

## :scroll:Correctifs Unsloth pour gpt-oss

{% hint style="info" %}
Certains de nos correctifs ont été intégrés en amont au modèle officiel d’OpenAI sur Hugging Face. [Voir](https://huggingface.co/openai/gpt-oss-20b/discussions/94/files)
{% endhint %}

OpenAI a publié une bibliothèque autonome d’analyse et de tokenisation appelée [Harmony](https://github.com/openai/harmony) qui permet de tokeniser les conversations au format préféré d’OpenAI pour gpt-oss.

Les moteurs d’inférence utilisent généralement à la place le modèle de chat jinja et non le package Harmony, et nous avons trouvé quelques problèmes après comparaison directe avec Harmony. Comme vous pouvez le voir ci-dessous, le haut correspond à la forme rendue correcte par Harmony. Le dessous est celle rendue par le modèle de chat jinja actuel. Il y a pas mal de différences !

<div data-with-frame="true"><figure><img src="/files/ab25d9b0d59cd2afb415c843228cb70e0d106632" alt="" width="563"><figcaption></figcaption></figure></div>

Nous avons également créé quelques fonctions pour vous permettre d’utiliser directement la bibliothèque Harmony d’OpenAI sans modèle de chat jinja si vous le souhaitez — vous pouvez simplement analyser des conversations normales comme ci-dessous :

```python
messages = [
    {"role" : "user", "content" : "What is 1+1?"},
    {"role" : "assistant", "content" : "2"},
    {"role": "user",  "content": "Quelle est la température à San Francisco en ce moment ? Et demain ? La date d’aujourd’hui est le 2024-09-30."},
    {"role": "assistant",  "content": "L’utilisateur demande : 'Quel temps fait-il à San Francisco ?' Nous devons utiliser l’outil get_current_temperature.", "thinking" : ""},
    {"role": "assistant", "content": "", "tool_calls": [{"name": "get_current_temperature", "arguments": '{"location": "San Francisco, California, United States", "unit": "celsius"}'}]},
    {"role": "tool", "name": "get_current_temperature", "content": '{"temperature": 19.9, "location": "San Francisco, California, United States", "unit": "celsius"}'},
]
```

Ensuite, utilisez la `encode_conversations_with_harmony` fonction d’Unsloth :

```python
from unsloth_zoo import encode_conversations_with_harmony

def encode_conversations_with_harmony(
    messages,
    reasoning_effort = "medium",
    add_generation_prompt = True,
    tool_calls = None,
    developer_instructions = None,
    model_identity = "You are ChatGPT, a large language model trained by OpenAI.",
)
```

Le format Harmony inclut plusieurs éléments intéressants :

1. `reasoning_effort = "medium"` Vous pouvez sélectionner low, medium ou high, et cela modifie le budget de raisonnement de gpt-oss — en général, plus il est élevé, meilleure est la précision du modèle.
2. `developer_instructions` est comme une invite système que vous pouvez ajouter.
3. `model_identity` vaut mieux être laissé tel quel — vous pouvez le modifier, mais nous ne savons pas si des versions personnalisées fonctionneront.

Nous avons constaté plusieurs problèmes avec les modèles de chat jinja actuels (il existe plusieurs implémentations dans l’écosystème) :

1. Les appels de fonctions et d’outils sont rendus avec `tojson`, ce qui convient si c’est un dict, mais si c’est une chaîne, les guillemets et autres **symboles deviennent précédés d’antislashs**.
2. Il y a quelques **lignes supplémentaires** dans le modèle jinja à certaines frontières.
3. Les réflexions du modèle lors de l’appel d’outils devraient avoir la balise **`analysis` et non `final` balise**.
4. D’autres modèles de chat semblent ne pas utiliser `<|channel|>final` du tout — il faut l’utiliser pour le message final de l’assistant. Vous ne devez pas l’utiliser pour les traces de réflexion ni pour les appels d’outils.

Nos modèles de chat pour le GGUF, nos mises en ligne BnB et BF16 et toutes les versions sont corrigés ! Par exemple, en comparant notre format et celui d’Harmony, nous n’obtenons aucun caractère différent :

<div data-with-frame="true"><figure><img src="/files/b719817779802c5304ebab6791e1ae97f294e899" alt="" width="563"><figcaption></figcaption></figure></div>

### :1234: Problèmes de précision

Nous avons trouvé plusieurs problèmes de précision sur les machines Tesla T4 et float16, principalement parce que le modèle a été entraîné avec BF16, et que des valeurs aberrantes et des débordements existaient. MXFP4 n’est en fait pas pris en charge sur les GPU Ampere et plus anciens, donc Triton fournit `tl.dot_scaled` pour la multiplication de matrices MXFP4. Il convertit en interne les matrices en BF16 à la volée.

Nous avons aussi créé un [notebook d’inférence MXFP4](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/GPT_OSS_MXFP4_\(20B\)-Inference.ipynb) également dans Tesla T4 Colab !

{% hint style="info" %}
[Émulation logicielle](https://triton-lang.org/main/python-api/generated/triton.language.dot_scaled.html) permet de cibler des architectures matérielles sans prise en charge native des opérations de microscaling. Pour l’instant dans ce cas, les lhs/rhs microscalés sont d’abord convertis en type d’élément `bf16` avant le calcul du produit scalaire,
{% endhint %}

Nous avons constaté que si vous utilisez float16 comme type de données d’autocast en précision mixte, vous obtiendrez des infinis après un certain temps. Pour contrer cela, nous avons constaté qu’effectuer le MoE en bfloat16, puis le conserver en précision bfloat16 ou float32, fonctionne. Si les anciens GPU ne prennent même pas en charge bfloat16 (comme le T4), alors float32 est utilisé.

Nous changeons aussi toutes les précisions des opérations (comme le routeur) en float32 pour les machines float16.

## 🖥️ **Exécution de gpt-oss**

Voici des guides pour les [20B](#run-gpt-oss-20b) et [120B](#run-gpt-oss-120b) variantes du modèle.

{% hint style="info" %}
Toute quantification inférieure à F16, y compris 2 bits, entraîne une perte de précision minimale, puisque seules certaines parties (par ex. les couches d’attention) sont en faible nombre de bits tandis que la plupart restent en pleine précision. C’est pourquoi les tailles sont proches du modèle F16 ; par exemple, la version 2 bits (11,5 Go) fonctionne presque pareil que la version complète 16 bits (14 Go). Une fois que llama.cpp prendra en charge une meilleure quantification pour ces modèles, nous les mettrons en ligne dès que possible.
{% endhint %}

Le `gpt-oss` les modèles d’OpenAI incluent une fonctionnalité qui permet aux utilisateurs d’ajuster le « niveau d’effort de raisonnement » du modèle. Cela vous donne le contrôle du compromis entre les performances du modèle et sa vitesse de réponse (latence), en fonction du nombre de tokens que le modèle utilisera pour réfléchir.

Le `gpt-oss` les modèles offrent trois niveaux distincts d’effort de raisonnement parmi lesquels vous pouvez choisir :

* **Faible**: Optimisé pour les tâches qui nécessitent des réponses très rapides et n’exigent pas de raisonnement complexe en plusieurs étapes.
* **Moyen**: Un équilibre entre performance et vitesse.
* **Élevé**: Offre les meilleures performances de raisonnement pour les tâches qui l’exigent, bien que cela entraîne une latence plus élevée.

### :gear: Paramètres recommandés

OpenAI recommande ces paramètres d’inférence pour les deux modèles :

`temperature=1.0`, `top_p=1.0`, `top_k=0`

* <mark style="background-color:green;">**Température de 1.0**</mark>
* Top\_K = 0 (ou essayez 100 pour des résultats potentiellement meilleurs)
* Top\_P = 1.0
* Contexte minimum recommandé : 16 384
* Fenêtre de longueur de contexte maximale : 131 072

**Modèle de chat :**

```
<|start|>system<|message|>You are ChatGPT, a large language model trained by OpenAI.\nKnowledge cutoff: 2024-06\nCurrent date: 2025-08-05\n\nReasoning: medium\n\n# Valid channels: analysis, commentary, final. Channel must be included for every message.<|end|><|start|>user<|message|>Hello<|end|><|start|>assistant<|channel|>final<|message|>Hi there!<|end|><|start|>user<|message|>What is 1+1?<|end|><|start|>assistant
```

Le token de fin de phrase/génération : EOS est `<|return|>`

### Exécuter gpt-oss-20B

<figure><img src="/files/0df73f0574c5c55985822d304fd3b2d5eb54342d" alt=""><figcaption></figcaption></figure>

Pour atteindre des vitesses d’inférence de plus de 6 tokens par seconde pour notre quantification dynamique 4 bits, disposez d’au moins **14 Go de mémoire unifiée** (VRAM et RAM combinées) ou **14 Go de RAM système** seule. En règle générale, votre mémoire disponible doit être égale ou supérieure à la taille du modèle que vous utilisez. Lien GGUF : [unsloth/gpt-oss-20b-GGUF](https://huggingface.co/unsloth/gpt-oss-20b-GGUF)

**REMARQUE :** Le modèle peut fonctionner avec moins de mémoire que sa taille totale, mais cela ralentira l’inférence. La mémoire maximale n’est nécessaire que pour les vitesses les plus élevées.

{% hint style="info" %}
Suivez les [**bonnes pratiques ci-dessus**](#recommended-settings). Elles sont les mêmes que pour le modèle 120B.
{% endhint %}

Vous pouvez exécuter le modèle sur Google Colab, Docker, LM Studio ou llama.cpp pour le moment. Voir ci-dessous :

> **Vous pouvez exécuter gpt-oss-20b gratuitement avec notre** [**notebook Google Colab**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/GPT_OSS_MXFP4_\(20B\)-Inference.ipynb)

#### 🦥 Guide Unsloth Studio

Pour ce tutoriel, nous utiliserons [Unsloth Studio](/docs/fr/nouveau/studio.md), qui est notre nouvelle interface web pour exécuter et entraîner des LLM. Avec Unsloth Studio, vous pouvez exécuter des modèles localement sur **Mac, Windows**, et Linux, et :

{% columns %}
{% column %}

* Rechercher, télécharger, [exécuter des GGUF](/docs/fr/nouveau/studio.md#run-models-locally) et des modèles safetensor
* **Comparer** les modèles **côte à côte**
* [**Auto-réparation** appel d’outils](/docs/fr/nouveau/studio.md#execute-code--heal-tool-calling) + **recherche web**
* [**Exécution de code**](/docs/fr/nouveau/studio.md#run-models-locally) (Python, Bash)
* [Inférence automatique](/docs/fr/nouveau/studio.md#model-arena) réglage des paramètres (temp, top-p, etc.)
* [Entraîner des LLM](/docs/fr/nouveau/studio.md#no-code-training) 2x plus vite avec 70 % de VRAM en moins
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/9d149ac4b773a56a635d40ab8347ea2896781ae6" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Installer Unsloth

Exécutez dans votre terminal :

**MacOS, Linux, WSL :**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell :**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Lancer Unsloth

**MacOS, Linux, WSL, Windows :**

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

<div data-with-frame="true"><figure><img src="/files/fa3d706136ff9e7c9e614db9bb2d851ed981df1b" alt="" width="375"><figcaption></figcaption></figure></div>

**Puis ouvrez `http://localhost:8888` dans votre navigateur.**
{% endstep %}

{% step %}

#### Rechercher et télécharger gpt-oss-20b

Lors du premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un bref assistant de configuration pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez le passer à tout moment.

Ensuite, allez dans l’onglet [Studio Chat](/docs/fr/nouveau/studio/chat.md) onglet et recherchez gpt-oss dans la barre de recherche, puis téléchargez le modèle et la quantification souhaités.

<div data-with-frame="true"><figure><img src="/files/ddf8058e3cdd43f1640e14ea5d716dcba6a8a40f" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Exécuter gpt-oss-20b

Les paramètres d’inférence devraient être définis automatiquement lors de l’utilisation d’Unsloth Studio ; toutefois, vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur du contexte, le modèle de conversation et d’autres réglages.

Pour plus d’informations, vous pouvez consulter notre [guide d’inférence Unsloth Studio](/docs/fr/nouveau/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/b03f506381fed38c517bc09e2e726bc0013f23f4" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

#### 🐋 Docker : Tutoriel pour exécuter gpt-oss-20b

Si vous avez déjà Docker Desktop, il vous suffit d’exécuter la commande ci-dessous et c’est tout :

```bash
docker model run hf.co/unsloth/gpt-oss-20b-GGUF:F16
```

#### :sparkles: Llama.cpp : Tutoriel pour exécuter gpt-oss-20b

1. Obtenez la dernière version `llama.cpp` sur [GitHub ici](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Changez `-DGGML_CUDA=ON` en `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez comme d'habitude - la prise en charge de Metal est activée par défaut.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

2. Vous pouvez le récupérer directement depuis Hugging Face via :

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/gpt-oss-20b-GGUF:F16 \
       --jinja -ngl 99 --ctx-size 16384 \
       --temp 1.0 --top-p 1.0 --top-k 0
   ```
3. Téléchargez le modèle via (après avoir installé `pip install huggingface_hub hf_transfer` ). Si les téléchargements se bloquent, voir [Hugging Face Hub, débogage XET](/docs/fr/notions-de-base/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/gpt-oss-20b-GGUF",
    local_dir = "unsloth/gpt-oss-20b-GGUF",
    allow_patterns = ["*F16*"],
)
```

### Exécuter gpt-oss-120b :

<figure><img src="/files/f90792cc4e1d2e1c1bc04042b415af6c549c7808" alt=""><figcaption></figcaption></figure>

Pour atteindre des vitesses d’inférence de plus de 6 tokens par seconde pour notre quantification 1 bit, nous recommandons au moins **66 Go de mémoire unifiée** (VRAM et RAM combinées) ou **66 Go de RAM système** seule. En règle générale, votre mémoire disponible doit être égale ou supérieure à la taille du modèle que vous utilisez. Lien GGUF : [unsloth/gpt-oss-120b-GGUF](https://huggingface.co/unsloth/gpt-oss-120b-GGUF)

**REMARQUE :** Le modèle peut fonctionner avec moins de mémoire que sa taille totale, mais cela ralentira l’inférence. La mémoire maximale n’est nécessaire que pour les vitesses les plus élevées.

{% hint style="info" %}
Suivez les [**bonnes pratiques ci-dessus**](#recommended-settings). Elles sont les mêmes que pour le modèle 20B.
{% endhint %}

#### 🦥 Guide Unsloth Studio

Pour ce tutoriel, nous utiliserons [Unsloth Studio](/docs/fr/nouveau/studio.md), qui est notre nouvelle interface web pour exécuter et entraîner des LLM. Avec Unsloth Studio, vous pouvez exécuter des modèles localement sur **Mac, Windows**, et Linux, et :

{% columns %}
{% column %}

* Rechercher, télécharger, [exécuter des GGUF](/docs/fr/nouveau/studio.md#run-models-locally) et des modèles safetensor
* **Comparer** les modèles **côte à côte**
* [**Auto-réparation** appel d’outils](/docs/fr/nouveau/studio.md#execute-code--heal-tool-calling) + **recherche web**
* [**Exécution de code**](/docs/fr/nouveau/studio.md#run-models-locally) (Python, Bash)
* [Inférence automatique](/docs/fr/nouveau/studio.md#model-arena) réglage des paramètres (temp, top-p, etc.)
* [Entraîner des LLM](/docs/fr/nouveau/studio.md#no-code-training) 2x plus vite avec 70 % de VRAM en moins
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/9d149ac4b773a56a635d40ab8347ea2896781ae6" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}

#### Installer Unsloth

**MacOS, Linux, WSL :**

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

**Windows PowerShell :**

```bash
irm https://unsloth.ai/install.ps1 | iex
```

{% endstep %}

{% step %}

#### Configurer Unsloth Studio (une seule fois)

La configuration installe automatiquement Node.js (via nvm), compile le frontend, installe toutes les dépendances Python et compile llama.cpp avec la prise en charge CUDA.

{% hint style="info" %}
**Utilisateurs WSL :** il vous sera demandé votre `sudo` mot de passe pour installer les dépendances de compilation (`cmake`, `git`, `libcurl4-openssl-dev`).
{% endhint %}
{% endstep %}

{% step %}

#### Lancer Unsloth

**MacOS, Linux, WSL :**

```bash
source unsloth_studio/bin/activate
unsloth studio -H 0.0.0.0 -p 8888
```

**Windows PowerShell :**

```bash
& .\unsloth_studio\Scripts\unsloth.exe studio -H 0.0.0.0 -p 8888
```

<div data-with-frame="true"><figure><img src="/files/fa3d706136ff9e7c9e614db9bb2d851ed981df1b" alt="" width="375"><figcaption></figcaption></figure></div>

**Puis ouvrez `http://localhost:8888` dans votre navigateur.**
{% endstep %}

{% step %}

#### Rechercher et télécharger gpt-oss-120b

Lors du premier lancement, vous devrez créer un mot de passe pour sécuriser votre compte et vous reconnecter plus tard. Vous verrez ensuite un bref assistant de configuration pour choisir un modèle, un jeu de données et des paramètres de base. Vous pouvez le passer à tout moment.

Ensuite, allez dans l’onglet [Studio Chat](/docs/fr/nouveau/studio/chat.md) onglet et recherchez gpt-oss dans la barre de recherche, puis téléchargez le modèle et la quantification souhaités.

<div data-with-frame="true"><figure><img src="/files/efa7954beddbc887fbdc64ca1b1ab9cafff8feb2" alt="" width="375"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}

#### Exécuter gpt-oss-120b

Les paramètres d’inférence devraient être définis automatiquement lors de l’utilisation d’Unsloth Studio ; toutefois, vous pouvez toujours les modifier manuellement. Vous pouvez également modifier la longueur du contexte, le modèle de conversation et d’autres réglages.

Pour plus d’informations, vous pouvez consulter notre [guide d’inférence Unsloth Studio](/docs/fr/nouveau/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/b03f506381fed38c517bc09e2e726bc0013f23f4" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}
{% endstepper %}

#### 📖 Llama.cpp : Tutoriel pour exécuter gpt-oss-120b

Pour gpt-oss-120b, nous utiliserons spécifiquement Llama.cpp pour une inférence optimisée.

{% hint style="success" %}
Si vous voulez une **version non quantifiée en pleine précision**, utilisez nos versions `F16` !
{% endhint %}

1. Obtenez la dernière version `llama.cpp` sur [GitHub ici](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Changez `-DGGML_CUDA=ON` en `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU.

   ```bash
   apt-get update
   apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
   git clone https://github.com/ggml-org/llama.cpp
   cmake llama.cpp -B llama.cpp/build \
       -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
   cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
   cp llama.cpp/build/bin/llama-* llama.cpp
   ```
2. Vous pouvez utiliser directement llama.cpp pour télécharger le modèle, mais je suggère normalement d’utiliser `huggingface_hub` Pour utiliser llama.cpp directement, faites :

   ```bash
   ./llama.cpp/llama-cli \
       -hf unsloth/gpt-oss-120b-GGUF:F16 \
       --ctx-size 16384 \
       --n-gpu-layers 99 \
       -ot ".ffn_.*_exps.=CPU" \
       --temp 1.0 \
       --min-p 0.0 \
       --top-p 1.0 \
       --top-k 0 \
   ```
3. Ou téléchargez le modèle via (après avoir installé `pip install huggingface_hub hf_transfer` ). Vous pouvez choisir UD-Q2\_K\_XL, ou d’autres versions quantifiées..

   ```python
   # !pip install huggingface_hub hf_transfer
   import os
   os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Peut parfois entraîner une limitation de débit, donc mettre à 0 pour désactiver
   from huggingface_hub import snapshot_download
   snapshot_download(
       repo_id = "unsloth/gpt-oss-120b-GGUF",
       local_dir = "unsloth/gpt-oss-120b-GGUF",
       allow_patterns = ["*F16*"],
   )
   ```
4. Exécutez le modèle en mode conversation et essayez n’importe quelle invite.
5. Modifier `--threads -1` pour le nombre de threads CPU, `--ctx-size` 262114 pour la longueur de contexte, `--n-gpu-layers 99` pour le déchargement GPU, selon le nombre de couches. Essayez de l’ajuster si votre GPU manque de mémoire. Supprimez-le aussi si vous n'avez qu'une inférence CPU.

{% hint style="success" %}
Utilisez `-ot ".ffn_.*_exps.=CPU"` pour décharger toutes les couches MoE sur le CPU ! Cela vous permet effectivement de faire tenir toutes les couches non-MoE sur 1 GPU, améliorant les vitesses de génération. Vous pouvez personnaliser l’expression regex pour inclure plus de couches si vous avez plus de capacité GPU. Plus d’options sont abordées [ici](#improving-generation-speed).
{% endhint %}

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/gpt-oss-120b-GGUF/gpt-oss-120b-F16.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --temp 1.0 \
    --min-p 0.0 \
    --top-p 1.0 \
    --top-k 0 \
```

{% endcode %}

### :tools: Améliorer la vitesse de génération

Si vous avez plus de VRAM, vous pouvez essayer de décharger davantage de couches MoE, ou de décharger des couches entières.

Normalement, `-ot ".ffn_.*_exps.=CPU"` décharge toutes les couches MoE vers le CPU ! Cela permet effectivement de faire tenir toutes les couches non MoE sur 1 GPU, améliorant ainsi les vitesses de génération. Vous pouvez personnaliser l'expression regex pour faire tenir davantage de couches si vous disposez de plus de capacité GPU.

Si vous avez un peu plus de mémoire GPU, essayez `-ot ".ffn_(up|down)_exps.=CPU"` Cela décharge les couches MoE de projection montante et descendante.

Essayez `-ot ".ffn_(up)_exps.=CPU"` si vous avez encore plus de mémoire GPU. Cela décharge uniquement les couches MoE de projection montante.

Vous pouvez aussi personnaliser la regex, par exemple `-ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU"` signifie décharger les couches MoE gate, up et down, mais uniquement à partir de la 6e couche.

Le [dernière version de llama.cpp](https://github.com/ggml-org/llama.cpp/pull/14363) introduit également un mode à haut débit. Utilisez `llama-parallel`. En savoir plus [ici](https://github.com/ggml-org/llama.cpp/tree/master/examples/parallel). Vous pouvez aussi **quantifier le cache KV en 4 bits** par exemple pour réduire les déplacements VRAM / RAM, ce qui peut aussi accélérer le processus de génération.

## 🦥 Affinage de gpt-oss avec Unsloth

{% hint style="success" %}
[**Mise à jour du 28 août**](/docs/fr/modeles/gpt-oss-how-to-run-and-fine-tune/long-context-gpt-oss-training.md#new-saving-to-gguf-vllm-after-gpt-oss-training)**:** Vous pouvez désormais exporter/enregistrer votre modèle gpt-oss affiné avec QLoRA vers llama.cpp, vLLM, HF, etc.

Nous avons également introduit [Unsloth Flex Attention](/docs/fr/modeles/gpt-oss-how-to-run-and-fine-tune/long-context-gpt-oss-training.md#introducing-unsloth-flex-attention-support) qui permet **>8× plus longues longueurs de contexte**, **>50 % d’utilisation de VRAM en moins** et **>1,5× entraînement plus rapide** par rapport à toutes les implémentations. [En savoir plus ici](/docs/fr/modeles/gpt-oss-how-to-run-and-fine-tune/long-context-gpt-oss-training.md#introducing-unsloth-flex-attention-support)
{% endhint %}

L’affinage Unsloth de gpt-oss est 1,5x plus rapide, utilise 70 % de VRAM en moins et prend en charge des longueurs de contexte 10x plus longues. L’entraînement QLoRA de gpt-oss-20b tient dans 14 Go de VRAM, et gpt-oss-120b fonctionne sur 65 Go de VRAM.

* **Exigences QLoRA :** gpt-oss-20b = 14 Go de VRAM • gpt-oss-120b = 65 Go de VRAM.
* **Exigences BF16 LoRA :** gpt-oss-20b = 44 Go de VRAM • gpt-oss-120b = 210 Go de VRAM.

Lisez notre tutoriel étape par étape pour l’affinage de gpt-oss :

{% content-ref url="/pages/06e24894ce66a8eb390a0591426123ca7fc631ad" %}
[Tutoriel : comment affiner gpt-oss](/docs/fr/modeles/gpt-oss-how-to-run-and-fine-tune/tutorial-how-to-fine-tune-gpt-oss.md)
{% endcontent-ref %}

{% hint style="success" %}
Vous pouvez désormais exporter/enregistrer votre modèle gpt-oss affiné avec QLoRA vers llama.cpp, vLLM, HF, etc.
{% endhint %}

Notebooks Unsloth gratuits pour affiner gpt-oss :

* gpt-oss-20b [Notebook Raisonnement + Conversationnel](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/gpt-oss-\(20B\)-Fine-tuning.ipynb)

### Apprentissage par renforcement (GRPO)

Unsloth prend désormais en charge le RL pour gpt-oss ! Nous avons créé deux notebooks, pour plus de détails, lisez notre blog spécifique sur le RL de gpt-oss : [gpt-oss RL](/docs/fr/modeles/gpt-oss-how-to-run-and-fine-tune/gpt-oss-reinforcement-learning.md)

| [Notebook 2048](https://colab.research.google.com/github/openai/gpt-oss/blob/main/examples/reinforcement-fine-tuning.ipynb) (Exemple officiel d’OpenAI) | [Notebook de génération de noyaux](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/gpt-oss-\(20B\)-GRPO.ipynb) |
| ------------------------------------------------------------------------------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------------- |

### 💾**NOUVEAU : Enregistrement vers GGUF, vLLM après l’entraînement de gpt-oss**

Vous pouvez maintenant affiner gpt-oss avec QLoRA et directement enregistrer, exporter ou fusionner le modèle vers **llama.cpp**, **vLLM**, ou **HF** - pas seulement Unsloth. Nous publierons, espérons-le, bientôt un notebook gratuit.

Auparavant, tout modèle gpt-oss affiné avec QLoRA était limité à une exécution dans Unsloth. Nous avons supprimé cette limitation en introduisant **déquantification à la demande de MXFP4** des modèles de base (comme gpt-oss) pendant le processus de fusion LoRA. Cela permet de **exporter votre modèle affiné au format bf16**.

Après avoir affiné votre modèle gpt-oss, vous pouvez désormais le fusionner dans un format 16 bits avec une **commande unique**:

```python
model.save_pretrained_merged(save_directory, tokenizer)
```

Si vous préférez fusionner le modèle et l’envoyer directement sur le hub hugging-face à la place, vous pouvez le faire en utilisant :

```python
model.push_to_hub_merged(repo_name, tokenizer=tokenizer, token=hf_token)
```

### 💡Faire fonctionner efficacement l’affinage de gpt-oss

Nous avons constaté que, bien que MXFP4 soit très efficace, il ne prend pas nativement en charge l’entraînement avec gpt-oss. Pour surmonter cette limitation, nous avons implémenté des fonctions d’entraînement personnalisées spécifiquement pour les couches MXFP4 en l’imitant via la quantification `Bitsandbytes` NF4.

Nous avons utilisé directement la bibliothèque Triton Kernels d’OpenAI pour permettre l’inférence MXFP4. Pour l’affinage / l’entraînement cependant, les noyaux MXFP4 ne prennent pas encore en charge l’entraînement, car la passe arrière n’est pas encore implémentée. Nous travaillons activement à son implémentation dans Triton ! Il existe un drapeau appelé `W_TRANSPOSE` comme mentionné [ici](https://github.com/triton-lang/triton/blob/main/python/triton_kernels/triton_kernels/matmul_ogs_details/_matmul_ogs.py#L39), qui devrait être implémenté. La dérivée peut être calculée par la transposée des matrices de poids, et nous devons donc implémenter l’opération de transposition.

Si vous souhaitez entraîner gpt-oss avec une bibliothèque autre qu’Unsloth, vous devrez convertir les poids en bf16 avant l’entraînement. Cette approche, cependant, **augmente considérablement** à la fois l’utilisation de la VRAM et le temps d’entraînement jusqu’à **300 % de mémoire en plus**! <mark style="background-color:green;">**TOUTES les autres méthodes d’entraînement nécessiteront un minimum de 65 Go de VRAM pour entraîner le modèle 20b, tandis qu’Unsloth ne nécessite que 14 Go de VRAM (-80 %).**</mark>

Comme les deux modèles utilisent une architecture MoE, le modèle 20B sélectionne 4 experts sur 32, tandis que le modèle 120B en sélectionne 4 sur 128 par token. Pendant l’entraînement et la publication, les poids sont stockés au format MXFP4 comme des objets `nn.Parameter` , et non comme des couches `nn.Linear` , ce qui complique la quantification, d’autant plus que les experts MoE/MLP représentent environ 19B des 20B paramètres.

Pour activer la quantification `BitsandBytes` et l’affinage économe en mémoire, nous avons converti ces paramètres en couches `nn.Linear` . Bien que cela ralentisse légèrement les opérations, cela permet l’affinage sur des GPU à mémoire limitée, un compromis qui en vaut la peine.

### Guide d’affinage des jeux de données

Bien que gpt-oss ne prenne en charge que le raisonnement, vous pouvez toujours l’affiner avec un [dataset](/docs/fr/commencer/fine-tuning-llms-guide/datasets-guide.md)sans raisonnement, mais cela peut affecter sa capacité de raisonnement. Si vous souhaitez maintenir ses capacités de raisonnement (facultatif), vous pouvez utiliser un mélange de réponses directes et d’exemples de chaîne de pensée. Utilisez au moins <mark style="background-color:green;">75 % de raisonnement</mark> et <mark style="background-color:green;">25 % sans raisonnement</mark> dans votre jeu de données pour que le modèle conserve ses capacités de raisonnement.

Notre notebook conversationnel gpt-oss-20b utilise l’exemple d’OpenAI, qui est le jeu de données Multilingual-Thinking de Hugging Face. L’objectif de l’utilisation de ce jeu de données est de permettre au modèle d’apprendre et de développer des capacités de raisonnement dans ces quatre langues distinctes.

<figure><img src="/files/347c0d9627117d157debfb368efcdbf6de581fd2" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/modeles/gpt-oss-how-to-run-and-fine-tune.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
