# Mises à jour d'Unsloth

Pour utiliser les dernières modifications, [mettez à jour Unsloth](https://unsloth.ai/docs/fr/studio/install#update-unsloth-studio).

{% updates format="full" %}
{% update date="2026-04-16" tags="model-release,new-releases,v0.1.37-beta" %}

## **Qwen3.6**

[Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4) sont désormais mis à jour avec les correctifs officiels du modèle de chat de Google (qui ont corrigé/amélioré l’appel d’outils), ainsi qu’avec les derniers correctifs de llama.cpp. Mettez à jour vers la dernière version de llama.cpp, retéléchargez les quantifs et vous ne devriez plus voir `jeton inutilisé` de problèmes.\
\
[MiniMax-M2.7](https://unsloth.ai/docs/fr/modeles/minimax-m27) est disponible dès maintenant ! Vous pouvez exécuter le modèle localement avec nos GGUF en quantification 4 bits sur 128 Go de RAM / mémoire unifiée. [**GGUF MiniMax-M2.7**](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF)
{% endupdate %}

{% update date="2026-04-11" tags="model-release" %}

## **Mise à jour Gemma 4 + MiniMax-M2.7**

[Gemma 4 GGUF](https://huggingface.co/collections/unsloth/gemma-4) sont désormais mis à jour avec les correctifs officiels du modèle de chat de Google (qui ont corrigé/amélioré l’appel d’outils), ainsi qu’avec les derniers correctifs de llama.cpp. Mettez à jour vers la dernière version de llama.cpp, retéléchargez les quantifs et vous ne devriez plus voir `jeton inutilisé` de problèmes.\
\
[MiniMax-M2.7](https://unsloth.ai/docs/fr/modeles/minimax-m27) est disponible dès maintenant ! Vous pouvez exécuter le modèle localement avec nos GGUF en quantification 4 bits sur 128 Go de RAM / mémoire unifiée. [**GGUF MiniMax-M2.7**](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF)
{% endupdate %}

{% update date="2026-04-08" tags="new-releases,v0.1.36-beta" %}

## **Correctifs Gemma 4**

Nous avons mis à jour Gemma 4 [avec de nombreux correctifs](https://unsloth.ai/docs/fr/modeles/gemma-4/train). Ces bugs sont universels et ont affecté tous les paquets et implémentations d’entraînement et **ne proviennent pas d’Unsloth**. Nous avons identifié les bugs, les avons corrigés, et l’entraînement de Gemma 4 fonctionne désormais correctement dans Unsloth.

Vous n’avez besoin que de **8 Go de VRAM** pour entraîner **Gemma-4-E2B** localement. Unsloth entraîne Gemma 4 **\~1,5x plus vite tout en utilisant \~60 % de VRAM en moins** que les configurations FA2. Pour le guide complet et les notebooks sur l’entraînement de Gemma 4, [consultez notre blog](https://unsloth.ai/docs/fr/modeles/gemma-4/train).

#### Correctifs d’entraînement Gemma 4

1. **L’accumulation des gradients** ne provoque plus d’explosions de la perte. Auparavant, les pertes pouvaient monter jusqu’à **300–400**; la perte attendue est d’environ **10–15**.
2. Correction du **IndexError** affectant **26B** et **31B** l’inférence dans `transformers`.
3. Correction des sorties incompréhensibles pour **E2B/E4B** quand `use_cache=False`. Voir [problème n° 45242](https://github.com/huggingface/transformers/issues/45242).
4. Correction du **audio en float16** débordement à partir de `-1e9` valeurs.

Si vous voyez des pertes supérieures à **13–15,** par exemple **100** ou **300** - l’accumulation des gradients est probablement gérée incorrectement. Cela est corrigé dans **Unsloth** et **Unsloth Studio**.

#### Retéléversements des quantifications Gemma 4

Nous avons également mis à jour nos GGUF Gemma 4, vous devrez donc les retélécharger. Encore une fois, ces problèmes de quantification ne sont **pas liés à Unsloth ni causés par Unsloth**:

1. CUDA : vérifier le chevauchement des tampons avant la fusion - correctif critique pour `<unused24>` tokens - [PR #21566](https://github.com/ggml-org/llama.cpp/pull/21566)
2. `kv-cache`: prise en charge de la rotation de l’attention pour iSWA hétérogène - [PR #21513](https://github.com/ggml-org/llama.cpp/pull/21513)
3. `vocabulaire`: ajout de la gestion des jetons d’octet au détokéniseur BPE pour Gemma 4 - [PR #21488](https://github.com/ggml-org/llama.cpp/pull/21488)
4. `convertir`: définir `"add bos" == True` pour Gemma 4 - [PR #21500](https://github.com/ggml-org/llama.cpp/pull/21500)
5. `common`: ajout d’un analyseur spécialisé pour Gemma 4 - [PR #21418](https://github.com/ggml-org/llama.cpp/pull/21418)
6. `llama-model`: lire `final_logit_softcapping` pour Gemma 4 - [PR #21390](https://github.com/ggml-org/llama.cpp/pull/21390)
7. `llama`: ajout d’une séparation de nouvelles lignes personnalisée pour Gemma 4 - [PR #21406](https://github.com/ggml-org/llama.cpp/pull/21406)

#### Mises à jour d’Unsloth Studio

* Ajouter **décodage spéculatif** prise en charge (ngram-mod, activé par défaut)
* Llama.cpp a été mis à jour pour utiliser la dernière version avec tous les correctifs Gemma 4
* Corriger les problèmes d’entraînement de Qwen3.5 et Gemma 4
* Activer l’exportation et l’enregistrement des modèles Gemma 4
* Renforcer la sécurité du bac à sable pour les outils terminal et python
* Permettre aux recettes d’utiliser le modèle chargé dans le chat
* Corriger les fils de discussion vides lors de la navigation (et lors du changement d’onglet) et stabiliser le nouveau flux de chat
* Autoriser l’exécution des recettes non-LLM et placer d’abord l’onglet Données dans les exécutions
* Réutiliser la casse du dépôt en cache de HF pour éviter les téléchargements en double
  {% endupdate %}

{% update date="2026-04-03" tags="new-releases,v0.1.36-beta" %}

## **Google - Gemma 4**

* Vous pouvez désormais exécuter et entraîner les [Gemma 4](https://unsloth.ai/docs/fr/modeles/gemma-4) modèles dans Unsloth.
* Les Mac Intel fonctionnent maintenant
* Binaires précompilés pour llama.cpp pour 2 correctifs Gemma-4 :
  * vocab : corriger le tokenizer Gemma4 ([#21343](https://github.com/ggml-org/llama.cpp/pull/21343))
  * corriger : modèle Gemma 4 ([#21326](https://github.com/ggml-org/llama.cpp/pull/21326))
* Les appels d’outils pour les plus petits modèles sont désormais plus stables et ne s’arrêtent plus brutalement
* Binaires précompilés pour Windows, Linux, Mac, appareils WSL - CPU et GPU
* Le décodage spéculatif a été ajouté pour les modèles sans vision (Gemma-4 est malheureusement vision et Qwen3.5)
* La longueur du contexte est désormais appliquée correctement.
* La recherche web récupère désormais réellement le contenu web et pas seulement des résumés
* 90 % d’appels à l’API HF en moins - moins de limites de débit
  {% endupdate %}

{% update date="2026-03-31" tags="new-releases,improvements" %}

## **+50 % de précision des appels d’outils + plus de prise en charge**

* Les appels d’outils pour tous les modèles sont désormais **de +30 % à +80 % plus précis.**
* La recherche web récupère désormais réellement le contenu web et pas seulement des résumés
* Le nombre d’appels d’outils autorisés est augmenté de 10 à 25
* Les appels d’outils se terminent désormais beaucoup mieux, donc les boucles / répétitions seront réduites
* Plus de **correction des appels d’outils** et logique de déduplication pour empêcher aussi les appels d’outils de laisser fuiter du XML
* Testé avec `unsloth/Qwen3.5-4B-GGUF` (`UD-Q4_K_XL`), recherche web + exécution de code + réflexion activées.

| Métrique                                 | Avant  | Après           |
| ---------------------------------------- | ------ | --------------- |
| Fuites XML dans la réponse               | 10/10  | 0/10            |
| Récupérations d’URL utilisées            | 0      | 4/10 exécutions |
| Exécutions avec les bons noms de chanson | 0/10   | 2/10            |
| Moy. appels d’outils                     | 5.5    | 3.8             |
| Temps de réponse moyen                   | 12,3 s | 9,8 s           |

#### Nouvelles fonctionnalités

* Ajout de **dossiers personnalisés** afin que vous puissiez utiliser n’importe quel GGUF dans n’importe quel dossier - pour l’instant accès dans les paramètres avancés du chat et les dossiers personnalisés
* **Bouton Mettre à jour** désormais visible
* Style du script d’installation entièrement mis à jour !
* Préliminaire **Prise en charge automatique du multi-GPU pour l’inférence et l’entraînement** - utile pour les grands modèles qui ne tiennent pas sur 1 GPU - Studio auto allouera les ressources GPU
* Les Mac Intel devraient fonctionner immédiatement

### Studio beaucoup plus fluide et plus rapide

* **Correctifs des délais d’expiration lors du téléchargement de grands modèles** - plus aucun délai d’expiration constaté.
* **Correction de la limitation de débit de Hugging Face - les appels à l’API HF ont été réduits de 90 %**
* Correction de bun sur Windows et installations plus rapides
  {% endupdate %}

{% update date="2026-03-27" tags="new-releases,fixes,improvements" %}

## **Nouvelles mises à jour importantes**

Cela fait seulement 2 jours depuis notre précédente version, mais nous avons des mises à jour plus importantes :

* **L’inférence est désormais 20 à 30 % plus rapide.** Auparavant, l’appel d’outils et la pénalité de répétition pouvaient ralentir l’inférence en dessous des vitesses normales. Les jetons/s d’inférence devraient maintenant être aussi performants que `llama-server` / `llama.cpp`.
* **Détecte désormais automatiquement les modèles anciens ou déjà existants** téléchargés depuis **LM Studio, Hugging Face,** et des sources similaires.
* **La vitesse d’inférence en jetons/s est désormais calculée correctement.** Auparavant, les jetons/s incluaient le temps de démarrage, ce qui faisait paraître la vitesse affichée plus lente qu’elle ne l’était réellement. Elle devrait désormais refléter la « vraie » vitesse d’inférence.
* **L’utilisation du CPU ne monte plus en flèche.** Auparavant, l’identité du requêteur en ligne changeait à chaque rendu, ce qui provoquait `useLiveQuery` des réabonnements continus.
* **Unsloth Studio dispose désormais d’un bouton de fermeture x et s’éteint correctement.** Auparavant, le fermer après l’avoir ouvert depuis l’icône du bureau ne le fermait pas correctement. Désormais, le lancement depuis le raccourci ouvre aussi le terminal, et la fermeture de ce terminal quitte complètement Unsloth Studio. Si vous l’avez encore ouvert depuis une session précédente, vous pouvez redémarrer votre ordinateur ou exécuter `lsof -i :8888` puis `kill -9 <PID>`.
* **Appels d’outils et recherche web encore meilleurs** avec moins d’erreurs.
* Documentation mise à jour avec beaucoup de nouvelles infos sur [la suppression de modèles, la désinstallation](https://unsloth.ai/docs/fr/studio/install#uninstall) etc.
* **Journalisation de l’installation et de la configuration plus propre et plus intelligente sur Windows et Linux.** La sortie est désormais plus facile à lire grâce à un formatage cohérent, plus silencieuse par défaut pour une expérience plus fluide, et prend en charge des diagnostics `--verbose` plus riches lorsque vous souhaitez un détail technique complet.
* Vous pouvez désormais consulter votre historique d’entraînement !
  {% endupdate %}

{% update date="2026-03-25" tags="new-releases,fixes,improvements" %}

## Premier communiqué après Unsloth Studio

Salut les gars, voici notre première version depuis le lancement d’Unsloth Studio. Beaucoup de nouvelles fonctionnalités et correctifs :

* **Vous pouvez désormais mettre à jour Unsloth Studio !** Veuillez mettre à jour via : `unsloth studio update`
* **Windows** Le CPU ou le GPU fonctionne désormais sans problème. Veuillez réinstaller !
* **Raccourcis d’application**. Une fois installé, vous pouvez désormais lancer sous Windows, MacOS et Linux via une icône de raccourci dans Démarrer / Lancement et sur le bureau.
* **Binaires `llama.cpp` précompilés** et `mamba_ssm` - installations 6x plus rapides ! Aussi <300 Mo pour les binaires.
* **Tailles d’installation réduites de 50 %** (économies de -7 Go ou plus), installations 2x plus rapides et résolution plus rapide. Tailles pypi 50 % plus petites.
* **L’appel d’outils a été amélioré.** Meilleure analyse de llama.cpp, plus de balisage brut des outils dans le chat, inférence plus rapide, nouveau panneau des sorties d’outils, minuteurs.
* MacOS et CPU ont désormais [Recettes de données](https://unsloth.ai/docs/fr/nouveau/studio/data-recipe) activées avec le téléversement multi-fichiers.
* **Prise en charge AMD préliminaire pour Linux** seulement - détection automatique.
* **Refonte de la barre latérale des paramètres.** Les paramètres sont désormais regroupés en **Modèle, Échantillonnage, Outils et Préférences**
* **Longueur du contexte** désormais ajustable. Gardez à l’esprit que ce n’est pas nécessaire, car llama.cpp utilise intelligemment le contexte exact dont vous avez besoin via `--fit sur`
* **Téléversement multi-fichiers.** Les recettes de données prennent désormais en charge plusieurs téléversements par glisser-déposer pour PDF, DOCX, TXT et MD, avec extraction côté backend, téléversements enregistrés et aperçus améliorés.
* **Colab** avec les GPU T4 gratuits et Unsloth Studio, est désormais corrigé ! [Essayez-le ici](https://colab.research.google.com/github/unslothai/unsloth/blob/main/studio/Unsloth_Studio_Colab.ipynb). Grâce aux binaires précompilés, c’est aussi 20x plus rapide !
* **Meilleure observabilité du chat.** Studio affiche désormais `llama-server` les timings et l’utilisation, une barre d’utilisation de la fenêtre de contexte et des cartes de survol de source plus riches.
* **Meilleure UX globale** - liens cliquables, meilleure analyse LaTeX, info-bulles d’outil / code / web pour les cartes par défaut et bien plus encore !
* **LiteLLM -** Unsloth Studio et Unsloth n’ont pas été **PAS** affectés par la récente compromission de LiteLLM. Nemo Data Designer n’a utilisé LiteLLM que jusqu’à `1.80`, pas la version affectée `1.82.7` ou `1.82.8`, et l’a depuis entièrement supprimé.
* Nous avons maintenant une nouvelle commande d’installation en une ligne, il suffit d’exécuter :&#x20;

  <pre class="language-bash" data-overflow="wrap" data-expandable="true"><code class="lang-bash">curl -fsSL https://unsloth.ai/install.sh | sh
  </code></pre>

#### **Correctifs :**

* **Améliorations Windows/configuration.** Correction des fermetures silencieuses de Windows, des plantages au démarrage d’Anaconda/conda-forge, des installations Windows non-NVIDIA cassées et des vérifications de configuration CUDA précoce/venv obsolète manquantes.
* **Correctifs des invites système.** Elles fonctionnent à nouveau pour l’inférence texte et vision non-GGUF.
* **Invites système et préréglages persistants.** Les invites système personnalisées et les préréglages de chat persistent désormais entre les rechargements et les changements de page.
* **Export GGUF élargi.** Les fine-tunes complets, et pas seulement LoRA/PEFT, peuvent désormais être exportés vers GGUF. La résolution du modèle de base est plus fiable, et les options d’export non prises en charge sont désactivées dans l’interface.
* **Correctifs du défilement / de la mise en page du chat.** Correction des problèmes de position de défilement pendant la génération, du décalage de mise en page du panneau de réflexion et des sauts de fenêtre lors de la réduction des panneaux de raisonnement.
* **Détection plus intelligente des conflits de ports.** Studio détecte désormais les conflits de boucle locale, peut identifier le processus bloquant lorsque c’est possible, et fournit des messages de port de secours plus clairs.
  {% endupdate %}

{% update date="2026-03-17" tags="fixes,improvements" %}

## Nouveaux appels d’outils + stabilité de Windows

* Claude Artifacts fonctionne, donc le HTML peut être exécuté comme un jeu de serpent dans le chat
* +30 % d’appels d’outils plus précis, surtout pour les petits modèles + minuteur pour les appels d’outils
* Les sorties d’outils + recherche web peuvent être enregistrées + bascule pour activer/désactiver la correction automatique des outils
* De nombreux correctifs de bugs - le CPU Windows fonctionne, Mac plus fluide, installations plus rapides et plus petites
  {% endupdate %}
  {% endupdates %}
