# Unsloth-Updates Um die neuesten Änderungen zu verwenden, [aktualisiere Unsloth](/docs/de/neu/studio/install.md#update-unsloth-studio). {% updates format="full" %} {% update date="2026-05-05" tags="new-releases,v0.1.39-beta,v0.1.38-beta" %} ## Unsloth API-Endpunkt #### ***v0.1.39-beta Fehlerbehebung*** **5. Mai 2026** Behebt, dass der Chatverlauf nicht angezeigt wird (der vorhandene Chatverlauf geht nicht verloren) und Anhänge nicht korrekt angehängt werden. Der Fehler betraf nur das Rendern – verwende `2026.5.2` oder rufe direkt auf `curl -fsSL https://unsloth.ai/install.sh | sh` oder `unsloth studio update` um zu aktualisieren Du kannst lokale LLMs mit Tools wie [Claude Code](https://unsloth.ai/docs/basics/claude-code) und [Codex](https://unsloth.ai/docs/basics/codex) verwenden, indem du sie mit dem API-Endpunkt von Unsloth verbindest. So kannst du Modelle wie [Qwen](https://unsloth.ai/docs/models/qwen3.6) und [Gemma](https://unsloth.ai/docs/models/gemma-4) lokal ausführen, mit zusätzlichen Funktionen wie selbstheilendem Tool-Calling, Codeausführung und Websuche. Unsloth als API-Inferenz-Endpunkt zu verwenden ist nicht nur wegen der einfachen Einrichtung und Geschwindigkeit vorteilhaft, sondern auch, weil Unsloth Folgendes bietet: * [Selbstheilendes Tool-Calling](https://unsloth.ai/docs/new/studio/chat#auto-healing-tool-calling), was hilft, fehlerhafte oder ungültige Tool-Calls um 50 % zu reduzieren * [Codeausführungs-](https://unsloth.ai/docs/new/studio/chat#code-execution) unterstützung, die Bash- und Python-Ausführung für genauere Codeausgaben ermöglicht. * Erweiterte [Websuche](https://unsloth.ai/docs/new/studio/chat#advanced-web-search) die Webseiten besucht und tatsächlich liest, um ausführliche Informationen zu sammeln. * [Automatische Inferenz-Einstellungen](https://unsloth.ai/docs/new/studio/chat#auto-parameter-tuning) für GGUF-Modelle (temp, top-k usw.)

#### Neue Modelle Wir haben außerdem einige neue Modelle zum Ausführen, darunter NVIDIA [Nemotron 3 Nano Omni](/docs/de/modelle/nemotron-3-nano-omni.md), IBM [Granite 4.1](/docs/de/modelle/ibm-granite-4.1.md) und [Mistral 3.5](/docs/de/modelle/mistral-3.5.md) Medium. Wir haben Mistral dabei geholfen, einige Probleme mit der Implementierung in transformers und GGUFs zu lösen. #### Unsloth-Updates * Gestoppte Studio-Trainingsläufe können jetzt von Checkpoints aus fortgesetzt werden. * Chat-Threads speichern jetzt automatisch und bleiben zuverlässiger erhalten. * DPO-Trainings-Hänger in Multi-Prozess-Setups wurden behoben. * Die VLM-GRPO-Unterstützung wurde mit MROPE-Updates verbessert. * Die Stopp-Taste von Studio beendet die Generierung jetzt ordnungsgemäß. * Behebt, dass die Chat-Vorlage nach einem Browser-Refresh verschwindet. {% endupdate %} {% update date="2026-04-23" tags="new-releases,v0.1.37-beta" %} ## Brandneues UI-Redesign Hey Leute, wir haben die gesamte UI- und UX-Erfahrung von Unsloth Studio überarbeitet, um den Schwerpunkt auf Chat und Training zu legen: * Eine einklappbare Seitenleiste basierend auf Community-Feedback hinzugefügt

* Du kannst jetzt Chats löschen und vergangene Unterhaltungen durchsuchen

* Neuer Preserve-Thinking-Schalter für Modelle, die ihn unterstützen, wie Qwen3.6 * Saubereres, konsistenteres Design mit einfacherer Navigation * Erweiterte Einstellungsseite mit Optionen zum Ändern deines Profilbilds, Namens und mehr

* Kein doppeltes Eingeben deines Hugging-Face-Tokens mehr * gpt-oss hat jetzt Low-, Medium- und High-Thinking-Schalter. * Verwendet jetzt das neueste vorgefertigte llama.cpp, sogar unter Linux CUDA * Viele Fehlerbehebungen sowie Verbesserungen bei Konsistenz und Stabilität * Kimi-K2.6 kann jetzt ausgeführt werden! * Wir haben außerdem experimentelle API-Unterstützung hinzugefügt. Anleitungen, Ankündigungen usw. folgen nächste Woche. Qwen3.6 wurde in Unsloth Studio bereits zuvor für Ausführung und Training unterstützt. Du kannst Qwen3.6-27B jetzt sofort trainieren und ausführen! {% endupdate %} {% update date="2026-04-22" tags="model-release,new-releases" %} ## **Qwen3.6-27B + Kimi K2.6** [**Qwen3.6-27B**](/docs/de/modelle/qwen3.6.md) kann jetzt in Unsloth Studio ausgeführt (18 GB RAM) und feinabgestimmt werden. Kimi K2.6 kann auch in Unsloth ausgeführt werden (350 GB RAM). Unsloth Studio hat viele neue Updates erhalten, bitte aktualisieren. Details und ein ausführlicher Bericht folgen in den nächsten Tagen. {% endupdate %} {% update date="2026-04-16" tags="model-release,new-releases" %} ## **Qwen3.6** [**Qwen3.6**](/docs/de/modelle/qwen3.6.md) kann jetzt in Unsloth Studio ausgeführt und feinabgestimmt werden. Das Modell läuft mit 23 GB RAM und ist das stärkste mittelgroße LLM bei nahezu allen Benchmarks. {% endupdate %} {% update date="2026-04-11" tags="model-release" %} ## **Gemma 4 Update + MiniMax-M2.7** [Gemma 4 GGUFs](https://huggingface.co/collections/unsloth/gemma-4) wurden jetzt mit Googles offiziellen Korrekturen an der Chat-Vorlage aktualisiert (wodurch das Tool-Calling behoben/verbessert wurde), zusammen mit den neuesten llama.cpp-Fixes. Aktualisiere auf das neueste llama.cpp, lade die Quantisierungen neu herunter und du solltest keine Probleme mehr mit `ungenutztem Token` haben.\ \ [MiniMax-M2.7](/docs/de/modelle/tutorials/minimax-m27.md) ist jetzt draußen! Du kannst das Modell lokal mit unseren GGUFs in 4-Bit-Quantisierung auf 128 GB RAM / Unified Memory ausführen. [**MiniMax-M2.7 GGUF**](https://huggingface.co/unsloth/MiniMax-M2.7-GGUF) {% endupdate %} {% update date="2026-04-08" tags="new-releases,v0.1.36-beta" %} ## **Gemma-4-Fixes** Wir haben Gemma 4 [mit vielen Fehlerbehebungen](/docs/de/modelle/gemma-4/train.md)aktualisiert. Diese Fehler sind universell und betrafen alle Trainingspakete und Implementierungen und **stammten nicht von Unsloth**. Wir haben die Fehler identifiziert, behoben, und das Gemma-4-Training funktioniert jetzt in Unsloth ordnungsgemäß. Du brauchst nur **8 GB VRAM** um **Gemma-4-E2B** lokal zu trainieren. Unsloth trainiert Gemma 4 **ca. 1,5x schneller bei ca. 60 % weniger VRAM** als FA2-Setups. Den vollständigen Leitfaden und Notebooks zum Gemma-4-Training [siehe unseren Blog](/docs/de/modelle/gemma-4/train.md). #### Gemma-4-Trainings-Fixes 1. **Gradient Accumulation** führt nicht mehr zu Loss-Explosionen. Zuvor konnten die Verluste auf **300–400**ansteigen; der erwartete Verlust liegt bei etwa **10–15**. 2. Behoben wurde der **IndexError** der **26B** und **31B** beim Inferenzlauf in `transformers`. 3. verursachte. Behoben wurden auch unverständliche Ausgaben für **E2B/E4B** wenn `use_cache=False`. Siehe [Issue #45242](https://github.com/huggingface/transformers/issues/45242). 4. Behoben wurde **Float16-Audio-** Überlauf durch `-1e9` Werte. Wenn du Verluste über **13–15** siehst, zum Beispiel **100** oder **300** - wird Gradient Accumulation wahrscheinlich falsch behandelt. Dies ist in **Unsloth** und **Unsloth Studio**. #### Gemma-4-Quant-Re-Uploads Wir haben auch unsere Gemma-4-GGUFs aktualisiert, daher musst du sie erneut herunterladen. Auch hier stehen diese Quantisierungsprobleme **nicht im Zusammenhang mit Unsloth und werden nicht durch Unsloth verursacht**: 1. CUDA: vor dem Zusammenführen auf Pufferüberlappung prüfen – kritischer Fix für `` Token - [PR #21566](https://github.com/ggml-org/llama.cpp/pull/21566) 2. `kv-cache`: Unterstützung für Attention-Rotation bei heterogenem iSWA – [PR #21513](https://github.com/ggml-org/llama.cpp/pull/21513) 3. `vocab`: Byte-Token-Behandlung zum BPE-Detokenizer für Gemma 4 hinzufügen – [PR #21488](https://github.com/ggml-org/llama.cpp/pull/21488) 4. `convert`: `"add bos" == True` für Gemma 4 festlegen – [PR #21500](https://github.com/ggml-org/llama.cpp/pull/21500) 5. `common`: Gemma-4-spezialisierten Parser hinzufügen – [PR #21418](https://github.com/ggml-org/llama.cpp/pull/21418) 6. `llama-model`: lesen `final_logit_softcapping` für Gemma 4 festlegen – [PR #21390](https://github.com/ggml-org/llama.cpp/pull/21390) 7. `llama`: benutzerdefinierten Zeilenumbruch-Split für Gemma 4 hinzufügen – [PR #21406](https://github.com/ggml-org/llama.cpp/pull/21406) #### Unsloth Studio-Updates * Hinzufügen **spekulativer Dekodierung** Unterstützung (ngram-mod, standardmäßig aktiviert) * Llama.cpp wurde auf die neueste Version mit allen Gemma-4-Fixes aktualisiert * Probleme beim Training von Qwen3.5 und Gemma 4 beheben * Export und Speichern von Gemma-4-Modellen aktivieren * Sandbox-Sicherheit für Terminal- und Python-Tools härten * Rezepte das in Chat geladene Modell verwenden lassen * Leere Chat-Threads bei der Navigation beheben (und beim Wechseln von Tabs) und den Flow für neue Chats stabilisieren * Nicht-LLM-Rezepte ausführen lassen und den Data-Tab bei Ausführungen an erste Stelle verschieben * Zwischengespeicherte HF-Repo-Groß-/Kleinschreibung wiederverwenden, um doppelte Downloads zu verhindern {% endupdate %} {% update date="2026-04-03" tags="new-releases,v0.1.36-beta" %} ## **Google - Gemma 4** * Du kannst jetzt die [Gemma 4](/docs/de/modelle/gemma-4.md) Modelle in Unsloth ausführen und trainieren. * Intel Mac funktioniert jetzt * Vorab kompilierte Binärdateien für llama.cpp für 2 Gemma-4-Fixes: * vocab: Gemma4-Tokenizer beheben ([#21343](https://github.com/ggml-org/llama.cpp/pull/21343)) * fix: Gemma-4-Vorlage ([#21326](https://github.com/ggml-org/llama.cpp/pull/21326)) * Tool-Calls für kleinere Modelle sind jetzt stabiler und werden nicht mehr abgeschnitten * Vorab kompilierte Binärdateien für Windows, Linux, Mac und WSL-Geräte – CPU und GPU * Spekulative Dekodierung für Nicht-Vision-Modelle hinzugefügt (Gemma-4 ist leider Vision und Qwen3.5) * Kontextlänge wird jetzt korrekt angewendet. * Websuche erhält jetzt tatsächlich Webinhalte und nicht nur Zusammenfassungen * 90 % weniger HF-API-Aufrufe – weniger Ratenbegrenzungen {% endupdate %} {% update date="2026-03-31" tags="new-releases,improvements" %} ## **+50 % Genauigkeit beim Tool-Calling + mehr Unterstützung** * Tool-Calls für alle Modelle sind jetzt **um +30 % bis +80 % genauer.** * Websuche erhält jetzt tatsächlich Webinhalte und nicht nur Zusammenfassungen * Die Anzahl erlaubter Tool-Calls wurde von 10 auf 25 erhöht * Tool-Calls beenden jetzt viel besser, sodass Schleifen/Wiederholungen reduziert werden * Mehr **Heilung von Tool-Calls** und Deduplizierungslogik, um zu verhindern, dass Tool-Calls auch XML auslaufen lassen * Getestet mit `unsloth/Qwen3.5-4B-GGUF` (`UD-Q4_K_XL`), Websuche + Codeausführung + Denken aktiviert. | Metrik | Vorher | Nachher | | ---------------------------------- | ------ | --------------- | | XML-Leaks in der Antwort | 10/10 | 0/10 | | Verwendete URL-Abrufe | 0 | 4/10 Durchläufe | | Durchläufe mit korrekten Songnamen | 0/10 | 2/10 | | Durchschn. Tool-Calls | 5.5 | 3.8 | | Durchschn. Antwortzeit | 12,3 s | 9,8 s | #### Neue Funktionen * Hinzugefügt **benutzerdefinierte Ordner** sodass du beliebige GGUFs in jedem Ordner verwenden kannst – derzeit Zugriff in den erweiterten Einstellungen in Chat und Benutzerdefinierte Ordner * **Update-Schaltfläche** jetzt sichtbar * Stil des Installationsskripts komplett aktualisiert! * Vorläufige **Automatische Multi-GPU-Unterstützung für Inferenz und Training** – nützlich für große Modelle, die nicht auf eine GPU passen – Studio Auto weist GPU-Ressourcen zu * Intel Macs sollten sofort funktionieren ### Deutlich flüssigeres und schnelleres Studio * **Zeitüberschreitungen beim Herunterladen großer Modelle behoben** – keine Zeitüberschreitungen mehr sichtbar. * **Hugging-Face-Rate-Limiting behoben – HF-API-Aufrufe um 90 % reduziert** * Bun unter Windows behoben und schnellere Installationen {% endupdate %} {% update date="2026-03-27" tags="new-releases,fixes,improvements" %} ## **Neue wichtige Updates** Es sind erst 2 Tage seit unserer vorherigen Veröffentlichung vergangen, aber wir haben wichtigere Updates: * **Die Inferenz ist jetzt 20–30 % schneller.** Zuvor konnten Tool-Calling und Repeat-Penalty die Inferenz unter die normale Geschwindigkeit verlangsamen. Tokens/s bei der Inferenz sollten jetzt genauso laufen wie `llama-server` / `llama.cpp`. * **Erkennt jetzt automatisch ältere oder bereits vorhandene Modelle** heruntergeladen von **LM Studio, Hugging Face** und ähnlichen Quellen. * **Die Geschwindigkeit der Inferenz-Tokens/s wird jetzt korrekt berechnet.** Zuvor enthielt tokens/s die Startzeit, wodurch die angezeigte Geschwindigkeit langsamer wirkte, als sie tatsächlich war. Sie sollte jetzt die „echte“ Inferenzgeschwindigkeit widerspiegeln. * **Die CPU-Auslastung steigt nicht mehr an.** Zuvor änderte sich die Inline-Querier-Identität bei jedem Rendern, wodurch `useLiveQuery` kontinuierlich neu abonniert wurde. * **Unsloth Studio hat jetzt eine Shutdown-×-Schaltfläche und fährt ordnungsgemäß herunter.** Zuvor wurde es nach dem Öffnen über das Desktop-Symbol beim Schließen nicht richtig beendet. Jetzt öffnet das Starten über die Verknüpfung auch das Terminal, und das Schließen dieses Terminals beendet Unsloth Studio vollständig. Falls es noch aus einer vorherigen Sitzung offen ist, kannst du deinen Computer neu starten oder `lsof -i :8888` dann `kill -9 `. * **Noch besseres Tool-Calling und Websuche** mit weniger Fehlern. * Aktualisierte Dokumentation mit vielen neuen Informationen zu [Modellen löschen, deinstallieren](/docs/de/neu/studio/install.md#uninstall) usw. * **Sauberere, intelligentere Protokollierung von Installation und Setup unter Windows und Linux.** Die Ausgabe ist jetzt mit einheitlicher Formatierung leichter lesbar, standardmäßig leiser für ein flüssigeres Erlebnis, und unterstützt ausführlichere `--verbose` Diagnosen, wenn du vollständige technische Details möchtest. * Du kannst jetzt deinen Trainingsverlauf ansehen! {% endupdate %} {% update date="2026-03-25" tags="new-releases,fixes,improvements" %} ## Erster Release-Beitrag nach Unsloth Studio Hey Leute, das ist unser erstes Release seit dem Start von Unsloth Studio. Viele neue Funktionen und Fehlerbehebungen: * **Du kannst Unsloth Studio jetzt aktualisieren!** Bitte aktualisiere über: `unsloth studio update` * **Windows** CPU oder GPU funktioniert jetzt nahtlos. Bitte neu installieren! * **App-Verknüpfungen**. Nach der Installation kannst du jetzt unter Windows, MacOS und Linux über ein Verknüpfungssymbol im Start-/Startmenü und auf dem Desktop starten. * **Vorab kompilierte `llama.cpp` Binärdateien** und `mamba_ssm` – 6x schnellere Installationen! Außerdem <300 MB groß für Binärdateien. * **50 % kleinere Installationsgrößen** (7 GB oder mehr Ersparnis), 2x schnellere Installationen und schnelleres Auflösen. 50 % kleinere PyPI-Größen. * **Tool-Calling verbessert.** Bessere llama.cpp-Analyse, kein rohes Tool-Markup im Chat, schnellere Inferenz, ein neues Panel für Tool-Ausgaben, Timer. * MacOS und CPU haben jetzt [Daten-Rezepte](/docs/de/neu/studio/data-recipe.md) aktiviert mit Mehrdatei-Upload. * **AMD-Unterstützung vorläufig für Linux** nur-Maschinen – automatische Erkennung. * **Neugestaltung der Einstellungs-Seitenleiste.** Einstellungen sind jetzt gruppiert in **Modell, Sampling, Tools und Präferenzen** * **Kontextlänge** jetzt anpassbar. Beachte, dass dies nicht nötig ist, da llama.cpp den genau benötigten Kontext intelligent über `--fit on` * **Mehrdatei-Upload.** Daten-Rezepte unterstützen jetzt mehrere Drag-and-Drop-Uploads für PDF, DOCX, TXT und MD, mit Backend-Extraktion, gespeicherten Uploads und verbesserten Vorschauen. * **Colab** mit kostenlosen T4-GPUs mit Unsloth Studio jetzt behoben! [Probiere es hier aus](https://colab.research.google.com/github/unslothai/unsloth/blob/main/studio/Unsloth_Studio_Colab.ipynb). Dank vorab kompilierter Binärdateien ist es auch 20x schneller! * **Bessere Chat-Beobachtbarkeit.** Studio zeigt jetzt `llama-server` Zeiten und Nutzung, einen Kontextfenster-Nutzungsbalken und reichhaltigere Hover-Karten für Quellen an. * **Insgesamt bessere UX** – klickbare Links, bessere LaTeX-Analyse, Tool-/Code-/Web-Tooltips für Standardkarten und vieles mehr! * **LiteLLM -** Unsloth Studio und Unsloth waren **NICHT** von dem jüngsten LiteLLM-Kompromittierungsfall betroffen. Nemo Data Designer verwendete LiteLLM nur bis `1.80`, nicht die betroffene `1.82.7` oder `1.82.8`, und hat es inzwischen vollständig entfernt. * Wir haben jetzt einen neuen Installationsbefehl in einer Zeile, führe einfach aus:

curl -fsSL https://unsloth.ai/install.sh | sh

#### **Fixes:** * **Verbesserungen für Windows/Setup.** Behebt stille Windows-Beendigungen, Abstürze beim Start mit Anaconda/conda-forge, fehlerhafte Windows-Installationen ohne NVIDIA und fehlende frühe CUDA-/stale-venv-Setup-Prüfungen. * **System-Prompts behoben.** Sie funktionieren wieder für Nicht-GGUF-Text- und Vision-Inferenz. * **Persistente System-Prompts und Presets.** Benutzerdefinierte System-Prompts und Chat-Presets bleiben jetzt über Neu-Ladungen und Seitenwechsel hinweg erhalten. * **GGUF-Export erweitert.** Vollständige Fine-Tunes, nicht nur LoRA/PEFT, können jetzt nach GGUF exportieren. Die Auflösung des Basismodells ist zuverlässiger, und nicht unterstützte Exportoptionen sind in der UI deaktiviert. * **Fixes für Chat-Scrollen/Layout.** Behoben wurden Probleme mit der Scrollposition während der Generierung, Layout-Verschiebungen des Thinking-Panels und Viewport-Sprünge beim Einklappen von Reasoning-Panels. * **Intelligentere Erkennung von Portkonflikten.** Studio erkennt jetzt Loopback-Konflikte, kann nach Möglichkeit den blockierenden Prozess identifizieren und gibt klarere Meldungen für Fallback-Ports. {% endupdate %} {% update date="2026-03-17" tags="fixes,improvements" %} ## Neues Tool-Calling + Windows-Stabilität * Claude Artifacts funktioniert, sodass HTML wie ein Snake-Spiel im Chat ausgeführt werden kann * +30 % genauere Tool-Calls, besonders für kleine Modelle + Timer für Tool-Calls * Tool- und Websuche-Ausgaben können gespeichert werden + automatisches Heilungs-Tool per Schalter ein/aus * Viele Fehlerbehebungen – Windows-CPU funktioniert, Mac nahtloser, schnellere und kleinere Installationen {% endupdate %} {% endupdates %} --- # Agent Instructions: Querying This Documentation If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question. Perform an HTTP GET request on the current page URL with the `ask` query parameter: ``` GET https://unsloth.ai/docs/de/neu/changelog.md?ask= ``` The question should be specific, self-contained, and written in natural language. The response will contain a direct answer to the question and relevant excerpts and sources from the documentation. Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.