# Unsloth-Updates

Um die neuesten Änderungen zu verwenden, aktualisiere Unsloth über `unsloth studio update`.

{% updates format="full" %}
{% update date="2026-04-11" tags="model-release" %}

## **Gemma 4 Update + MiniMax-M2.7**

[Gemma 4 GGUFs](https://huggingface.co/collections/unsloth/gemma-4) werden jetzt mit Googles offiziellen Korrekturen der Chat-Vorlage aktualisiert (die das Tool-Calling behoben/verbessert haben) sowie mit den neuesten llama.cpp-Korrekturen. Aktualisiere auf die neueste llama.cpp-Version, lade die Quants erneut herunter und du solltest keine `ungenutzte Token` Probleme mehr sehen.\
\
[MiniMax-M2.7](https://unsloth.ai/docs/de/modelle/minimax-m27) ist jetzt verfügbar! Du kannst das Modell lokal mit unseren GGUFs in 4-Bit-Quantisierung auf 128 GB RAM / Unified Memory ausführen. [**MiniMax-M2.7 GGUF**](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF)
{% endupdate %}

{% update date="2026-04-08" tags="new-releases,v0.1.36-beta" %}

## **Gemma 4-Korrekturen**

Wir haben Gemma 4 [mit vielen Korrekturen aktualisiert](https://unsloth.ai/docs/de/modelle/gemma-4/train). Diese Fehler sind universell und betrafen alle Trainingspakete und Implementierungen und **stammten nicht von Unsloth**. Wir haben die Fehler identifiziert und behoben, und das Training von Gemma 4 funktioniert in Unsloth jetzt ordnungsgemäß.

Du brauchst nur **8 GB VRAM** um **Gemma-4-E2B** lokal zu trainieren. Unsloth trainiert Gemma 4 **\~1,5x schneller bei \~60 % weniger VRAM** als FA2-Setups. Den vollständigen Leitfaden und die Notebooks zum Training von Gemma 4 [siehe unseren Blog](https://unsloth.ai/docs/de/modelle/gemma-4/train).

#### Gemma 4 Trainingskorrekturen

1. **Gradientenakkumulation** verursacht keine Loss-Explosionen mehr. Zuvor konnten die Loss-Werte ansteigen auf **300–400**; der erwartete Loss liegt bei etwa **10–15**.
2. Behoben wurde der **IndexError** der **26B** und **31B** bei der Inferenz in `transformers`.
3. Behobene wirre Ausgaben für **E2B/E4B** wenn `use_cache=False`. Siehe [Issue #45242](https://github.com/huggingface/transformers/issues/45242).
4. Behoben **Float16-Audio** Overflow durch `-1e9` Werte.

Wenn du Loss-Werte über **13–15** siehst, zum Beispiel **100** oder **300** - wird die Gradientenakkumulation wahrscheinlich falsch behandelt. Dies ist in beiden **Unsloth** und **Unsloth Studio**.

#### Gemma 4 Quants erneut hochgeladen

Wir haben auch unsere Gemma 4 GGUFs aktualisiert, daher musst du sie erneut herunterladen. Auch diese Quant-Probleme stehen **in keinem Zusammenhang mit Unsloth und wurden nicht durch Unsloth verursacht**:

1. CUDA: vor dem Zusammenführen auf Pufferüberlappung prüfen - kritische Korrektur für `<unused24>` Tokens - [PR #21566](https://github.com/ggml-org/llama.cpp/pull/21566)
2. `kv-cache`: Unterstützung für Attention-Rotation bei heterogenem iSWA - [PR #21513](https://github.com/ggml-org/llama.cpp/pull/21513)
3. `vocab`: Byte-Token-Behandlung zum BPE-Detokenizer für Gemma 4 hinzufügen - [PR #21488](https://github.com/ggml-org/llama.cpp/pull/21488)
4. `convert`: `"add bos" == True` für Gemma 4 setzen - [PR #21500](https://github.com/ggml-org/llama.cpp/pull/21500)
5. `common`: Gemma-4-spezifischen Parser hinzufügen - [PR #21418](https://github.com/ggml-org/llama.cpp/pull/21418)
6. `llama-model`: `final_logit_softcapping` für Gemma 4 setzen - [lesen](https://github.com/ggml-org/llama.cpp/pull/21390)
7. `llama`: benutzerdefinierte Zeilentrennung für Gemma 4 hinzufügen - [PR #21406](https://github.com/ggml-org/llama.cpp/pull/21406)

#### Unsloth Studio-Updates

* Hinzufügen von **spekulativem Decoding** Unterstützung (ngram-mod, standardmäßig aktiviert)
* Llama.cpp auf die neueste Version mit allen Gemma 4-Korrekturen aktualisiert
* Trainingsprobleme bei Qwen3.5 und Gemma 4 beheben
* Exportieren und Speichern von Gemma-4-Modellen aktivieren
* Sandbox-Sicherheit für Terminal- und Python-Tools verstärken
* Rezepte das im Chat geladene Modell verwenden lassen
* Leere Chat-Threads bei der Navigation beheben (und beim Wechseln von Tabs) und den neuen Chat-Ablauf stabilisieren
* Nicht-LLM-Rezepte ausführen lassen und den Daten-Tab bei Ausführungen an erste Stelle setzen
* Groß-/Kleinschreibung des zwischengespeicherten HF-Repos wiederverwenden, um doppelte Downloads zu verhindern
  {% endupdate %}

{% update date="2026-04-03" tags="new-releases,v0.1.36-beta" %}

## **Google - Gemma 4**

* Du kannst jetzt die [Gemma 4](https://unsloth.ai/docs/de/modelle/gemma-4) Modelle in Unsloth ausführen und trainieren.
* Intel Mac funktioniert jetzt
* Vorkompilierte Binärdateien für llama.cpp für 2 Gemma-4-Korrekturen:
  * vocab: Gemma4-Tokenizer beheben ([#21343](https://github.com/ggml-org/llama.cpp/pull/21343))
  * fix: gemma 4 vorlage ([#21326](https://github.com/ggml-org/llama.cpp/pull/21326))
* Tool-Aufrufe für kleinere Modelle sind jetzt stabiler und werden nicht mehr abgeschnitten
* Vorkompilierte Binärdateien für Windows, Linux, Mac, WSL-Geräte - CPU und GPU
* Spekulatives Decoding für Nicht-Vision-Modelle hinzugefügt (Gemma-4 ist leider Vision und Qwen3.5)
* Die Kontextlänge wird jetzt korrekt angewendet.
* Websuche erhält jetzt tatsächlich Webinhalte und nicht nur Zusammenfassungen
* 90 % weniger HF-API-Aufrufe - weniger Rate-Limits
  {% endupdate %}

{% update date="2026-03-31" tags="new-releases,improvements" %}

## **+50 % Genauigkeit bei Tool-Aufrufen + mehr Unterstützung**

* Tool-Aufrufe für alle Modelle sind jetzt **um +30 % bis +80 % genauer.**
* Websuche erhält jetzt tatsächlich Webinhalte und nicht nur Zusammenfassungen
* Die Anzahl der erlaubten Tool-Aufrufe wurde von 10 auf 25 erhöht
* Tool-Aufrufe beenden jetzt deutlich besser, sodass Schleifen/Wiederholungen reduziert werden
* Mehr **Tool-Call-Healing** und Deduplizierungslogik, um auch zu verhindern, dass Tool-Calls XML auslaufen lassen
* Getestet mit `unsloth/Qwen3.5-4B-GGUF` (`UD-Q4_K_XL`), Websuche + Codeausführung + Denken aktiviert.

| Metrik                        | Vorher | Nachher    |
| ----------------------------- | ------ | ---------- |
| XML-Leaks in der Antwort      | 10/10  | 0/10       |
| Verwendete URL-Abrufe         | 0      | 4/10 Läufe |
| Läufe mit korrekten Songnamen | 0/10   | 2/10       |
| Durchschn. Tool-Aufrufe       | 5.5    | 3.8        |
| Durchschn. Antwortzeit        | 12,3 s | 9,8 s      |

#### Neue Funktionen

* Hinzugefügt **benutzerdefinierte Ordner** damit du beliebige GGUFs in beliebigen Ordnern verwenden kannst - vorerst Zugriff in den erweiterten Einstellungen im Chat und bei Benutzerdefinierten Ordnern
* **Update-Schaltfläche** jetzt sichtbar
* Installationsskript-Design komplett aktualisiert!
* Vorläufige **Automatische Multi-GPU-Unterstützung für Inferenz und Training** - nützlich für große Modelle, die nicht auf 1 GPU passen - Studio Auto weist GPU-Ressourcen zu
* Intel Macs sollten sofort funktionieren

### Viel flüssigeres und schnelleres Studio

* **Zeitüberschreitungen beim Download großer Modelle behoben** - keine Zeitüberschreitungen mehr gesehen.
* **Hugging-Face-Rate-Limiting behoben - HF-API-Aufrufe um 90 % reduziert**
* Bun unter Windows behoben und Installationen schneller
  {% endupdate %}

{% update date="2026-03-27" tags="new-releases,fixes,improvements" %}

## **Neue wichtige Updates**

Seit unserer vorherigen Veröffentlichung sind erst 2 Tage vergangen, aber wir haben ein paar wichtigere Updates:

* **Inferenz ist jetzt 20–30 % schneller.** Früher konnten Tool-Calling und Repeat Penalty die Inferenz unter normale Geschwindigkeiten verlangsamen. Die Inferenz-Token/s sollten jetzt genauso gut abschneiden wie `llama-server` / `llama.cpp`.
* **Erkennt jetzt automatisch ältere oder bereits vorhandene Modelle** heruntergeladen von **LM Studio, Hugging Face,** und ähnlichen Quellen.
* **Die Geschwindigkeit der Inferenz-Token/s wird jetzt korrekt berechnet.** Früher umfassten Tokens/s auch die Startzeit, wodurch die angezeigte Geschwindigkeit langsamer wirkte, als sie tatsächlich war. Sie sollte jetzt die „echte“ Inferenzgeschwindigkeit widerspiegeln.
* **Die CPU-Auslastung steigt nicht mehr sprunghaft an.** Früher änderte sich die Inline-Querier-Identität bei jedem Rendern, wodurch `useLiveQuery` kontinuierlich neu abonniert wurde.
* **Unsloth Studio hat jetzt einen Shutdown-X-Button und wird ordnungsgemäß beendet.** Früher wurde es nach dem Öffnen über das Desktop-Symbol durch das Schließen nicht korrekt beendet. Jetzt öffnet das Starten über die Verknüpfung auch das Terminal, und das Schließen dieses Terminals beendet Unsloth Studio vollständig. Wenn du es noch aus einer vorherigen Sitzung geöffnet hast, kannst du deinen Computer neu starten oder `lsof -i :8888` dann `kill -9 <PID>`.
* **Noch bessere Tool-Aufrufe und Websuche** mit weniger Fehlern.
* Die Dokumentation wurde mit vielen neuen Informationen zu [dem Löschen von Modellen, der Deinstallation](https://unsloth.ai/docs/de/studio/install#uninstall) usw. aktualisiert.
* **Klarere, intelligentere Installations- und Setup-Protokollierung unter Windows und Linux.** Die Ausgabe ist jetzt dank einheitlicher Formatierung leichter lesbar, standardmäßig leiser für ein flüssigeres Erlebnis und unterstützt ausführlichere `--verbose` Diagnosen, wenn du volle technische Details möchtest.
* Du kannst jetzt deinen Trainingsverlauf ansehen!
  {% endupdate %}

{% update date="2026-03-25" tags="new-releases,fixes,improvements" %}

## Erster Release-Beitrag nach Unsloth Studio

Hey Leute, das ist unsere erste Veröffentlichung seit dem Start von Unsloth Studio. Viele neue Funktionen und Korrekturen:

* **Du kannst Unsloth Studio jetzt aktualisieren!** Bitte aktualisiere über: `unsloth studio update`
* **Windows** CPU oder GPU funktioniert jetzt nahtlos. Bitte neu installieren!
* **App-Verknüpfungen**. Nach der Installation kannst du jetzt unter Windows, MacOS und Linux über ein Verknüpfungssymbol im Startmenü / Launcher und auf dem Desktop starten.
* **Vorkompilierte `llama.cpp` Binärdateien** und `mamba_ssm` - 6x schnellere Installationen! Außerdem <300 MB Größe für Binärdateien.
* **50 % kleinere Installationsgrößen** (-7 GB oder mehr Einsparung), 2x schnellere Installationen und schnelleres Auflösen. 50 % kleinere PyPI-Größen.
* **Tool-Calling verbessert.** Besseres llama.cpp-Parsing, kein rohes Tool-Markup im Chat, schnellere Inferenz, ein neues Tool-Ausgaben-Panel, Timer.
* MacOS und CPU haben jetzt [Datenrezepte](https://unsloth.ai/docs/de/neu/studio/data-recipe) mit Mehrdatei-Upload aktiviert.
* **AMD-Unterstützung vorläufig für Linux** nur Maschinen - automatische Erkennung.
* **Neugestaltung der Seitenleiste für Einstellungen.** Einstellungen sind jetzt gruppiert in **Modell, Sampling, Tools und Einstellungen**
* **Kontextlänge** jetzt anpassbar. Beachte, dass dies nicht nötig ist, da llama.cpp den genauen Kontext, den du brauchst, intelligent über `--fit auf`
* **Mehrdatei-Upload.** Datenrezepte unterstützen jetzt mehrere Drag-and-drop-Uploads für PDF, DOCX, TXT und MD, mit Backend-Extraktion, gespeicherten Uploads und verbesserten Vorschauen.
* **Colab** mit kostenlosen T4-GPUs und Unsloth Studio jetzt behoben! [Teste es hier](https://colab.research.google.com/github/unslothai/unsloth/blob/main/studio/Unsloth_Studio_Colab.ipynb). Dank vorkompilierter Binärdateien ist es außerdem 20x schneller!
* **Bessere Chat-Observability.** Studio zeigt jetzt `llama-server` Zeitangaben und Nutzung, eine Auslastungsleiste für das Kontextfenster und aussagekräftigere Hover-Karten für Quellen.
* **Insgesamt bessere UX** - anklickbare Links, besseres LaTeX-Parsing, Tool-/Code-/Web-Tooltips für Standardkarten und vieles mehr!
* **LiteLLM -** Unsloth Studio und Unsloth waren **NICHT** von der jüngsten LiteLLM-Kompromittierung betroffen. Nemo Data Designer verwendete LiteLLM nur bis `1.80`, nicht die betroffene `1.82.7` oder `1.82.8`, und hat es inzwischen vollständig entfernt.
* Wir haben jetzt einen neuen Installationsbefehl in einer Zeile, führe einfach aus:&#x20;

  <pre class="language-bash" data-overflow="wrap" data-expandable="true"><code class="lang-bash">curl -fsSL https://unsloth.ai/install.sh | sh
  </code></pre>

#### **Korrekturen:**

* **Verbesserungen bei Windows/Setup.** Stille Windows-Abstürze, Startabstürze von Anaconda/conda-forge, defekte Nicht-NVIDIA-Windows-Installationen und fehlende frühe CUDA-/stale-venv-Setup-Prüfungen behoben.
* **System-Prompts behoben.** Sie funktionieren wieder für Nicht-GGUF-Text- und Vision-Inferenz.
* **Persistente System-Prompts und Presets.** Benutzerdefinierte System-Prompts und Chat-Presets bleiben jetzt über Reloads und Seitenwechsel hinweg erhalten.
* **GGUF-Export erweitert.** Vollständige Fine-Tunes, nicht nur LoRA/PEFT, können jetzt nach GGUF exportieren. Die Basis-Modellauflösung ist zuverlässiger, und nicht unterstützte Exportoptionen sind in der UI deaktiviert.
* **Chat-Scroll-/Layout-Korrekturen.** Probleme mit der Scrollposition während der Generierung, Layout-Verschiebungen im Denk-Panel und Viewport-Sprünge beim Einklappen von Reasoning-Panels behoben.
* **Intelligentere Erkennung von Portkonflikten.** Studio erkennt jetzt Loopback-Konflikte, kann den blockierenden Prozess nach Möglichkeit identifizieren und gibt klarere Meldungen für Ausweichports.
  {% endupdate %}

{% update date="2026-03-17" tags="fixes,improvements" %}

## Neue Tool-Calls + Windows-Stabilität

* Claude Artifacts funktioniert, sodass HTML wie ein Snake-Spiel innerhalb des Chats ausgeführt werden kann
* +30 % genauere Tool-Aufrufe, insbesondere für kleine Modelle + Timer für Tool-Aufrufe
* Tool- + Websuche-Ausgaben können gespeichert werden + Umschalten von automatischem Healing-Tool ein/aus
* Viele Fehlerbehebungen - Windows-CPU funktioniert, Mac nahtloser, schnellere und kleinere Installationen
  {% endupdate %}
  {% endupdates %}
