# Mises à jour d'Unsloth

Pour utiliser les dernières modifications, [mettez à jour Unsloth](/docs/fr/nouveau/studio/install.md#update-unsloth-studio).

{% updates format="full" %}
{% update date="2026-05-05" tags="new-releases,v0.1.39-beta,v0.1.38-beta" %}

## point de terminaison de l’API Unsloth

#### ***correctif de bug v0.1.39-beta*** **5 mai 2026**

Corrige l’absence d’affichage de l’historique des discussions (l’historique existant n’est pas perdu) et le mauvais rattachement des pièces jointes. Le bug était uniquement au rendu - utilisez `2026.5.2` ou appelez directement `curl -fsSL https://unsloth.ai/install.sh | sh` ou `unsloth studio update` pour mettre à jour

Vous pouvez utiliser des LLM locaux avec des outils comme [Claude Code](https://unsloth.ai/docs/basics/claude-code) et [Codex](https://unsloth.ai/docs/basics/codex) en les connectant au point de terminaison de l’API d’Unsloth. Cela vous permet d’exécuter localement des modèles comme [Qwen](https://unsloth.ai/docs/models/qwen3.6) et [Gemma](https://unsloth.ai/docs/models/gemma-4) avec des fonctionnalités supplémentaires telles que l’appel d’outils auto-réparateur, l’exécution de code et la recherche web.

Utiliser Unsloth comme point de terminaison d’inférence API est avantageux non seulement parce qu’il est facile à configurer et rapide, mais aussi parce qu’Unsloth fournit :

* [Appel d’outils auto-réparateur](https://unsloth.ai/docs/new/studio/chat#auto-healing-tool-calling), ce qui aide à réduire de 50 % les appels d’outils cassés ou mal formés
* [Exécution de code](https://unsloth.ai/docs/new/studio/chat#code-execution) prise en charge, permettant l’exécution de Bash et de Python pour des sorties de code plus précises.
* Avancée [Recherche web](https://unsloth.ai/docs/new/studio/chat#advanced-web-search) qui visite et lit réellement les pages web pour recueillir des informations approfondies.
* [Paramètres d’inférence automatiques](https://unsloth.ai/docs/new/studio/chat#auto-parameter-tuning) pour les modèles GGUF (temp, top-k, etc.)

<div data-with-frame="true"><figure><img src="/files/1a2d152a014c5c542c774dac8c97d657a9f4124f" alt="" width="375"><figcaption></figcaption></figure></div>

#### Nouveaux modèles

Nous avons également quelques nouveaux modèles à exécuter, notamment NVIDIA [Nemotron 3 Nano Omni](broken://pages/84a40d9b3b6f93f936dda7731d24ec92ca78678b), IBM [Granite 4.1](broken://pages/fde815ae4d911990aada6c1a07b4e1a825eb6650) et [Mistral 3.5](broken://pages/03ac7ba539b700d61c2734f1aa85e9cf4f8abfc4) Medium. Nous avons aidé Mistral à résoudre certains problèmes d’implémentation dans transformers et les GGUFs.

#### Mises à jour d’Unsloth

* Les exécutions d’entraînement Studio arrêtées peuvent maintenant reprendre à partir des checkpoints.
* Les fils de discussion se sauvegardent désormais automatiquement et persistent de manière plus fiable.
* Les blocages de l’entraînement DPO dans les configurations multi-processus ont été corrigés.
* La prise en charge du VLM GRPO a été améliorée avec les mises à jour MROPE.
* Le bouton d’arrêt de Studio arrête désormais correctement la génération.
* Correction de la disparition du modèle de chat après un rafraîchissement du navigateur.
  {% endupdate %}

{% update date="2026-04-23" tags="new-releases,v0.1.37-beta" %}

## Nouvelle refonte complète de l’interface utilisateur

Salut tout le monde, nous avons entièrement refondu l’interface et l’expérience UX d’Unsloth Studio pour mettre l’accent sur le chat et l’entraînement :

* Ajout d’une barre latérale repliable basée sur les retours de la communauté

<div data-with-frame="true"><figure><img src="/files/31c38c07670d49aecd1964d6f1124e2d504c41ae" alt="" width="375"><figcaption></figcaption></figure></div>

* Vous pouvez désormais supprimer des discussions et rechercher les conversations passées

<div><figure><img src="/files/d13eab37745a36ab2562ab8d5d4e5afd42b30afd" alt=""><figcaption></figcaption></figure> <figure><img src="/files/90974e54b4cebb79cf9737ae3a9a6830d4e4bcf5" alt=""><figcaption></figcaption></figure></div>

* Nouveau bascule Conserver la réflexion pour les modèles qui le prennent en charge comme Qwen3.6
* Design plus propre et plus cohérent avec une navigation plus facile
* Page Paramètres enrichie avec des options pour changer votre photo de profil, votre nom, et plus encore

<div data-with-frame="true"><figure><img src="/files/5f2a85c3a62bc7867c8fd3c4335ee75b3f94f769" alt="" width="375"><figcaption></figcaption></figure></div>

* Plus besoin de saisir votre token Hugging Face deux fois
* gpt-oss propose désormais des bascules de réflexion faible, moyenne et élevée.
* Utilise désormais la dernière version précompilée de llama.cpp, même sous Linux CUDA
* De nombreuses corrections de bugs, de cohérence et de stabilité
* Kimi-K2.6 peut désormais être exécuté !
* Nous avons également ajouté une prise en charge API expérimentale. Des guides, annonces, etc. arriveront la semaine prochaine.

Qwen3.6 était aussi déjà pris en charge dans Unsloth Studio pour l’exécution et l’entraînement. Vous pouvez entraîner et exécuter Qwen3.6-27B dès maintenant !
{% endupdate %}

{% update date="2026-04-22" tags="model-release,new-releases" %}

## **Qwen3.6-27B + Kimi K2.6**

[**Qwen3.6-27B**](/docs/fr/modeles/qwen3.6.md) peut désormais être exécuté (18 Go de RAM) et affiné dans Unsloth Studio. Kimi K2.6 peut également être exécuté dans Unsloth (350 Go de RAM).

Unsloth Studio a reçu de nombreuses nouvelles mises à jour, alors veuillez mettre à jour. Les détails et l’article arriveront dans les prochains jours.
{% endupdate %}

{% update date="2026-04-16" tags="model-release,new-releases" %}

## **Qwen3.6**

[**Qwen3.6**](/docs/fr/modeles/qwen3.6.md) peut désormais être exécuté et affiné dans Unsloth Studio. Le modèle fonctionne avec 23 Go de RAM et est le LLM de taille intermédiaire le plus performant sur presque tous les benchmarks.
{% endupdate %}

{% update date="2026-04-11" tags="model-release" %}

## **Mise à jour Gemma 4 + MiniMax-M2.7**

[GGUFs Gemma 4](https://huggingface.co/collections/unsloth/gemma-4) sont désormais mis à jour avec les correctifs officiels du modèle de chat de Google (qui ont corrigé/amélioré l’appel d’outils), ainsi que les derniers correctifs de llama.cpp. Mettez à jour vers la dernière version de llama.cpp, retéléchargez les quantifications et vous ne devriez plus voir de problèmes de `jeton inutilisé` .\
\
[MiniMax-M2.7](/docs/fr/modeles/minimax-m27.md) est désormais disponible ! Vous pouvez exécuter le modèle localement avec nos GGUFs en quantification 4 bits sur 128 Go de RAM / mémoire unifiée. [**GGUF MiniMax-M2.7**](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF)
{% endupdate %}

{% update date="2026-04-08" tags="new-releases,v0.1.36-beta" %}

## **Correctifs Gemma 4**

Nous avons mis à jour Gemma 4 [avec de nombreux correctifs](/docs/fr/modeles/gemma-4/train.md). Ces bugs sont universels et ont affecté tous les packages et implémentations d’entraînement, et **ne proviennent pas d’Unsloth**. Nous avons identifié les bugs, les avons corrigés, et l’entraînement de Gemma 4 fonctionne désormais correctement dans Unsloth.

Vous n’avez besoin que de **8 Go de VRAM** pour entraîner **Gemma-4-E2B** localement. Unsloth entraîne Gemma 4 **\~1,5x plus vite tout en utilisant \~60 % de VRAM en moins** que les configurations FA2. Pour le guide complet et les notebooks sur l’entraînement de Gemma 4, [consultez notre blog](/docs/fr/modeles/gemma-4/train.md).

#### Correctifs d’entraînement Gemma 4

1. **L’accumulation de gradients** ne provoque plus d’explosions de la loss. Auparavant, les losses pouvaient monter jusqu’à **300–400**; la loss attendue est d’environ **10–15**.
2. Correction de l’ **IndexError** affectant **26B** et **31B** l’inférence dans `transformers`.
3. Correction des sorties incohérentes pour **E2B/E4B** lorsque `use_cache=False`. Voir [problème n° 45242](https://github.com/huggingface/transformers/issues/45242).
4. Correction du débordement **audio float16** provenant de valeurs `-1e9` .

Si vous voyez des losses supérieures à **13–15,** par exemple **100** ou **300** - l’accumulation de gradients est probablement gérée incorrectement. Ceci est corrigé dans **Unsloth** et **Unsloth Studio**.

#### Ré-importations des quantifications Gemma 4

Nous avons également mis à jour nos GGUFs Gemma 4, vous devrez donc les retélécharger. Encore une fois, ces problèmes de quantification ne sont **pas liés à Unsloth ni causés par lui**:

1. CUDA : vérifier le chevauchement des tampons avant fusion - correctif critique pour `<unused24>` jetons - [PR #21566](https://github.com/ggml-org/llama.cpp/pull/21566)
2. `kv-cache`: prise en charge de la rotation de l’attention pour iSWA hétérogène - [PR #21513](https://github.com/ggml-org/llama.cpp/pull/21513)
3. `vocab`: ajout de la gestion des jetons octets au détokenizer BPE pour Gemma 4 - [PR #21488](https://github.com/ggml-org/llama.cpp/pull/21488)
4. `convert`: définir `"add bos" == True` pour Gemma 4 - [PR #21500](https://github.com/ggml-org/llama.cpp/pull/21500)
5. `common`: ajout d’un analyseur spécialisé pour Gemma 4 - [PR #21418](https://github.com/ggml-org/llama.cpp/pull/21418)
6. `llama-model`: lire `final_logit_softcapping` pour Gemma 4 - [PR #21390](https://github.com/ggml-org/llama.cpp/pull/21390)
7. `llama`: ajout d’un découpage de nouvelle ligne personnalisé pour Gemma 4 - [PR #21406](https://github.com/ggml-org/llama.cpp/pull/21406)

#### Mises à jour d’Unsloth Studio

* Ajouter **décodage spéculatif** prise en charge (ngram-mod, activé par défaut)
* Llama.cpp a été mis à jour pour utiliser la dernière version avec tous les correctifs Gemma 4
* Corriger les problèmes d’entraînement de Qwen3.5 et Gemma 4
* Activer l’exportation et la sauvegarde des modèles Gemma 4
* Renforcer la sécurité du bac à sable pour les outils terminal et Python
* Permettre aux recettes d’utiliser le modèle chargé dans le chat
* Corriger les fils de discussion vides lors de la navigation (et à chaque changement d’onglet) et stabiliser le nouveau flux de chat
* Autoriser l’exécution de recettes non-LLM et placer l’onglet Données en premier dans les exécutions
* Réutiliser la casse du dépôt mis en cache par HF pour éviter les téléchargements en double
  {% endupdate %}

{% update date="2026-04-03" tags="new-releases,v0.1.36-beta" %}

## **Google - Gemma 4**

* Vous pouvez désormais exécuter et entraîner les [Gemma 4](/docs/fr/modeles/gemma-4.md) modèles dans Unsloth.
* Les Mac Intel fonctionnent maintenant
* Binaires précompilés pour llama.cpp pour 2 correctifs Gemma-4 :
  * vocab : correction du tokenizer Gemma4 ([#21343](https://github.com/ggml-org/llama.cpp/pull/21343))
  * fix : template gemma 4 ([#21326](https://github.com/ggml-org/llama.cpp/pull/21326))
* Les appels d’outils pour les petits modèles sont désormais plus stables et ne se coupent plus
* Binaires précompilés pour Windows, Linux, Mac, appareils WSL - CPU et GPU
* Ajout du décodage spéculatif pour les modèles non vision (Gemma-4 est vision malheureusement et Qwen3.5)
* La longueur du contexte est désormais appliquée correctement.
* La recherche web récupère désormais réellement le contenu des pages web et pas seulement des résumés
* 90 % de réduction des appels API HF - moins de limites de fréquence
  {% endupdate %}

{% update date="2026-03-31" tags="new-releases,improvements" %}

## **+50 % de précision des appels d’outils + plus de prise en charge**

* Les appels d’outils pour tous les modèles sont désormais **plus précis de +30 % à +80 %.**
* La recherche web récupère désormais réellement le contenu des pages web et pas seulement des résumés
* Le nombre d’appels d’outils autorisés passe de 10 à 25
* Les appels d’outils se terminent désormais bien mieux, donc les boucles / répétitions seront réduites
* Plus de **réparation des appels d’outils** et logique de déduplication pour empêcher également les appels d’outils de laisser fuir du XML
* Testé avec `unsloth/Qwen3.5-4B-GGUF` (`UD-Q4_K_XL`), recherche web + exécution de code + réflexion activées.

| Métrique                                      | Avant  | Après           |
| --------------------------------------------- | ------ | --------------- |
| Fuites XML dans la réponse                    | 10/10  | 0/10            |
| Récupérations d’URL utilisées                 | 0      | 4/10 exécutions |
| Exécutions avec les noms de chansons corrects | 0/10   | 2/10            |
| Moy. des appels d’outils                      | 5.5    | 3.8             |
| Temps de réponse moyen                        | 12,3 s | 9,8 s           |

#### Nouvelles fonctionnalités

* Ajout de **dossiers personnalisés** afin que vous puissiez utiliser n’importe quels GGUFs dans n’importe quel dossier - pour l’instant accès dans les Paramètres avancés du Chat et dans Dossiers personnalisés
* **Bouton de mise à jour** désormais visible
* Le style du script d’installation a été entièrement mis à jour !
* Préliminaire **Prise en charge automatique multi-GPU pour l’inférence et l’entraînement** - utile pour les grands modèles qui ne tiennent pas sur 1 GPU - Studio auto allouera les ressources GPU
* Les Macs Intel devraient fonctionner immédiatement

### Studio beaucoup plus fluide et rapide

* **Correction des délais d’expiration lors du téléchargement de grands modèles** - plus aucun délai d’expiration observé.
* **Correction du rate limiting de Hugging Face - les appels à l’API HF ont été réduits de 90 %**
* Correction de bun sous Windows et installations plus rapides
  {% endupdate %}

{% update date="2026-03-27" tags="new-releases,fixes,improvements" %}

## **Nouvelles mises à jour importantes**

Cela ne fait que 2 jours depuis notre précédente version, mais nous avons des mises à jour plus importantes :

* **L’inférence est désormais 20 à 30 % plus rapide.** Auparavant, l’appel d’outils et la pénalité de répétition pouvaient ralentir l’inférence en dessous des vitesses normales. Les tokens/s d’inférence devraient désormais être identiques à `llama-server` / `llama.cpp`.
* **Détecte désormais automatiquement les modèles plus anciens ou préexistants** téléchargés depuis **LM Studio, Hugging Face,** et des sources similaires.
* **La vitesse des tokens/s d’inférence est désormais calculée correctement.** Auparavant, les tokens/s incluaient le temps de démarrage, ce qui faisait paraître la vitesse affichée plus lente qu’elle ne l’était réellement. Elle devrait désormais refléter la vitesse d’inférence « réelle ».
* **L’utilisation du CPU ne monte plus en pic.** Auparavant, l’identité du requêteur inline changeait à chaque rendu, ce qui entraînait `useLiveQuery` à se réabonner en continu.
* **Unsloth Studio dispose désormais d’un bouton x d’arrêt et se ferme correctement.** Auparavant, le fermer après l’avoir ouvert depuis l’icône du bureau ne le fermait pas correctement. Désormais, le lancement depuis le raccourci ouvre aussi le terminal, et la fermeture de ce terminal quitte complètement Unsloth Studio. Si vous l’avez encore ouvert depuis une session précédente, vous pouvez redémarrer votre ordinateur ou exécuter `lsof -i :8888` puis `kill -9 <PID>`.
* **Appel d’outils et recherche web encore meilleurs** avec moins d’erreurs.
* Documentation mise à jour avec beaucoup de nouvelles informations sur [la suppression de modèles, la désinstallation](/docs/fr/nouveau/studio/install.md#uninstall) etc.
* **Journaux d’installation et de configuration plus propres et plus intelligents sur Windows et Linux.** La sortie est désormais plus facile à lire avec un formatage cohérent, plus discrète par défaut pour une expérience plus fluide, et prend en charge des diagnostics `--verbose` plus riches lorsque vous souhaitez tous les détails techniques.
* Vous pouvez désormais consulter votre historique d’entraînement !
  {% endupdate %}

{% update date="2026-03-25" tags="new-releases,fixes,improvements" %}

## Premier article de sortie après Unsloth Studio

Salut tout le monde, voici notre première version depuis le lancement d’Unsloth Studio. Beaucoup de nouvelles fonctionnalités et corrections :

* **Vous pouvez désormais mettre à jour Unsloth Studio !** Veuillez mettre à jour via : `unsloth studio update`
* **Windows** Le CPU ou le GPU fonctionnent désormais de manière fluide. Veuillez réinstaller !
* **Raccourcis d’application**. Une fois installé, vous pouvez désormais lancer sous Windows, MacOS et Linux via une icône de raccourci dans le menu Démarrer / Lancement et sur le Bureau.
* **Précompilés `llama.cpp` binaires** et `mamba_ssm` - installations 6x plus rapides ! Taille des binaires également inférieure à 300 Mo.
* **Tailles d’installation réduites de 50 %** (économie de 7 Go ou plus), installations 2x plus rapides et résolution plus rapide. Tailles pypi réduites de 50 %.
* **L’appel d’outils s’est amélioré.** Meilleur parsing de llama.cpp, aucun balisage brut d’outils dans le chat, inférence plus rapide, un nouveau panneau de sorties d’outils, des minuteurs.
* MacOS et CPU ont désormais [Recettes de données](/docs/fr/nouveau/studio/data-recipe.md) activées avec le téléversement de plusieurs fichiers.
* **Prise en charge AMD préliminaire pour Linux** uniquement pour les machines - détection automatique.
* **Refonte de la barre latérale des paramètres.** Les paramètres sont désormais regroupés en **Modèle, échantillonnage, outils et préférences**
* **La longueur du contexte** est désormais ajustable. Gardez à l’esprit que ce n’est pas nécessaire car llama.cpp utilise intelligemment le contexte exact dont vous avez besoin via `--fit on`
* **Téléversement de plusieurs fichiers.** Les recettes de données prennent désormais en charge plusieurs téléversements par glisser-déposer pour PDF, DOCX, TXT et MD, avec extraction côté serveur, téléversements enregistrés et aperçus améliorés.
* **Colab** avec les GPU T4 gratuits et Unsloth Studio est maintenant corrigé ! [Essayez-le ici](https://colab.research.google.com/github/unslothai/unsloth/blob/main/studio/Unsloth_Studio_Colab.ipynb). Grâce aux binaires précompilés, c’est aussi 20x plus rapide !
* **Meilleure observabilité du chat.** Studio affiche désormais `llama-server` les timings et l’utilisation, une barre d’utilisation de la fenêtre de contexte, et des cartes de survol de source plus riches.
* **Meilleure UX globale** - liens cliquables, meilleur parsing LaTeX, infobulles outil / code / web pour les cartes par défaut et bien plus encore !
* **LiteLLM -** Unsloth Studio et Unsloth n’ont **PAS** été affectés par la récente compromission de LiteLLM. Nemo Data Designer a utilisé LiteLLM uniquement jusqu’à `1.80`, pas la version affectée `1.82.7` ou `1.82.8`, et l’a depuis entièrement supprimé.
* Nous avons désormais une nouvelle commande d’installation en une ligne, lancez simplement :&#x20;

  <pre class="language-bash" data-overflow="wrap" data-expandable="true"><code class="lang-bash">curl -fsSL https://unsloth.ai/install.sh | sh
  </code></pre>

#### **Corrections :**

* **Améliorations de Windows/installation.** Correction des fermetures silencieuses de Windows, des plantages au démarrage d’Anaconda/conda-forge, des installations Windows non-NVIDIA cassées, et des vérifications de configuration CUDA précoce / venv obsolète manquantes.
* **Prompts système corrigés.** Ils fonctionnent à nouveau pour l’inférence texte et vision non-GGUF.
* **Prompts système et préréglages persistants.** Les prompts système personnalisés et les préréglages de chat persistent désormais après les rechargements et les changements de page.
* **Export GGUF étendu.** Les fine-tunes complets, pas seulement LoRA/PEFT, peuvent désormais être exportés en GGUF. La résolution du modèle de base est plus fiable, et les options d’export non prises en charge sont désactivées dans l’interface.
* **Corrections du défilement / de la mise en page du chat.** Correction des problèmes de position de défilement pendant la génération, du décalage de mise en page du panneau de réflexion, et des sauts de fenêtre lors du repli des panneaux de raisonnement.
* **Détection plus intelligente des conflits de ports.** Studio détecte désormais les conflits de loopback, peut identifier le processus bloquant lorsque c’est possible, et fournit des messages de repli de port plus clairs.
  {% endupdate %}

{% update date="2026-03-17" tags="fixes,improvements" %}

## Nouvel appel d’outils + stabilité Windows

* Claude Artifacts fonctionne, donc le HTML peut être exécuté comme un jeu Snake à l’intérieur du chat
* +30 % d’appels d’outils plus précis, surtout pour les petits modèles + minuteur pour les appels d’outils
* Les sorties Tool + Web Search peuvent être enregistrées + bascule du réparateur automatique d’outils activé/désactivé
* Nombreuses corrections de bugs - le CPU Windows fonctionne, le Mac est plus fluide, installations plus rapides et plus petites
  {% endupdate %}
  {% endupdates %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/nouveau/changelog.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
