> For the complete documentation index, see [llms.txt](https://unsloth.ai/docs/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://unsloth.ai/docs/de/modelle/kimi-k2.6.md).

# Kimi K2.6 – So führst du es lokal aus

Kimi K2.6 ist ein offenes Modell von Moonshot, das SOTA-Performance über Vision-, Coding-, agentische, Long-Context- und Chat-Aufgaben liefert. Das Hybrid-Reasoning-Modell mit 1T Parametern hat eine Kontextlänge von 256K und für volle Präzision werden 610 GB Speicherplatz benötigt. Dynamic 2-bit benötigt **350 GB (-43 % Größe)**. Führe Kimi K2.6 über Unsloth Dynamic aus [**Kimi-K2.6-GGUFs**](https://huggingface.co/unsloth/Kimi-K2.6-GGUF) in Unsloth Studio oder llama.cpp.

**Dynamic 2-bit** hebt wichtige Layer auf 8-Bit hoch und benötigt **350 GB+ VRAM/RAM** Setup&#x73;**.** Für **verlustfrei** Kimi K2.6, verwende Q8 (`UD-Q8_K_XL`), was nur **10 GB größer** als Q4 (`UD-Q4_K_XL`). Alle Uploads verwenden [Dynamic 2.0](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) für SOTA-Quantisierungsleistung. Kimi-K2.6 GGUFs unterstützen auch **Vision.**

**Tabelle: Hardware-Anforderungen** (Einheiten = Gesamtspeicher: RAM + VRAM oder Unified Memory)

| Messung       | Dynamic 2-bit | Q4     | Q8 (verlustfrei) |
| ------------- | ------------- | ------ | ---------------- |
| Speicherplatz | 340 GB        | 584 GB | 595 GB           |
| Perplexity    | 2.4131        | 1.8420 | 1.8419           |

### 📊 Quantisierungsanalyse

`UD-Q8_K_XL` ist verlustfrei, weil Kimi int4 für MoE-Gewichte und BF16 für alles andere verwendet, und `Q8_K_XL` folgt daraus. `UD-Q4_K_XL` ist ähnlich, außer dass die übrigen Tensoren `Q8_0`, also ist es nahezu volle Präzision und benötigt 600 GB RAM/VRAM. Andere nicht-Unsloth GGUFs von anderen Anbietern können dem `UD-Q4_K_XL` Ansatz statt des „wirklich verlustfreien“ `UD-Q8_K_XL`.

Wir sind gefolgt [jukofyork](https://github.com/jukofyork)s Feststellung, dass `const float d = max / -7;` anstelle des Standardwerts `const float d = max / -8;` während des Quantisierungsprozesses nur auf den MoE-Layern. Dieser Bijektions-Patch auf INT4-nativen MoEs ermöglicht den `Q4_0` Quant-Typ, den absoluten Fehler von 1,8 % auf nahezu 0 % (Epsilon) zu reduzieren.

Allerdings müssen wir andere Layer in BF16 belassen und zeigen unten die Fehlerdiagramme für beide im Vergleich zur BF16-Baseline. `UD-Q8-K_XL` ist wirklich „verlustfrei“ mit einer kleinen Maschinen-Epsilon-Differenz beim Umwandeln von Q4\_0 in BF16. Die Perplexity für `UD-Q8_K_XL` betrug 1,8419 ± 0,00721 und `UD-Q4_K_XL` 1,8420 ± 0,00720. Beachten Sie, dass das Fehlerdiagramm unten RMSE geteilt durch bfloat16-Epsilon ist, also eine kleine Fehlerskala.

<div data-with-frame="true"><figure><img src="/files/d2e92a4b0163ea2fc943c7736a5c64de9e2ec629" alt=""><figcaption><p>Siehe den Unterschied zwischen <code>Q4_K_XL</code> (blau) und <code>Q8_K_XL</code> (orange), was verlustfrei und 10 GB größer ist.</p></figcaption></figure></div>

### :gear: Anleitung zur Nutzung

**Der Denkmodus und der Nicht-Denkmodus erfordern unterschiedliche Einstellungen:**

| Standard (Denkmodus) | Sofortmodus      |
| -------------------- | ---------------- |
| Temperatur = 1,0     | Temperatur = 0,6 |
| top\_p = 0,95        | top\_p = 0,95    |

* Empfohlene Kontextlänge = `98,304` (bis zu `262,144`)

Wenn das Modell passt, erhalten Sie >40 Token/s bei der Verwendung von B200s. Wir empfehlen `UD-Q2_K_XL` (350 GB) als guten Kompromiss aus Größe und Qualität. Beste Faustregel: RAM+VRAM ≈ die Quant-Größe; andernfalls funktioniert es trotzdem, nur langsamer wegen Offloading.

#### Chat-Template für Kimi K2.6

Ausführen `tokenizer.apply_chat_template([{\"role\": \"user\", \"content\": \"Was ist 1+1?\"},])` ergibt:

{% code overflow="wrap" %}

```
<|im_system|>system<|im_middle|>Du bist Kimi, ein KI-Assistent, der von Moonshot AI erstellt wurde.<|im_end|><|im_user|>user<|im_middle|>Was ist 1+1?<|im_end|><|im_assistant|>assistant<|im_middle|><think>
```

{% endcode %}

## Anleitung zum Ausführen von Kimi K2.6

### 🦥 Kimi-K2.6 in Unsloth Studio ausführen

Kimi K2.6 kann ausgeführt werden in [Unsloth Studio](/docs/de/neu/studio.md), eine Open-Source-Weboberfläche für lokale KI. **Unsloth Studio lagert automatisch in den RAM aus und erkennt Multi-GPU-Setups**. Mit Unsloth Studio können Sie Modelle lokal ausführen auf **macOS, Windows**, Linux und:

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* [**Selbstheilend** Tool-Calling](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Code-Ausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameter-Tuning (Temp, Top-p usw.)
* Schnelle CPU- + GPU-Inferenz über llama.cpp
* [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70 % weniger VRAM
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/89ac45c1d5144736e3036cb7225d0c867534603a" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}
**Unsloth installieren und starten**

Zur Installation führen Sie in Ihrem Terminal aus:

macOS, Linux, WSL:

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

Windows PowerShell:

```bash
irm https://unsloth.ai/install.ps1 | iex
```

**Unsloth starten**

macOS, Linux, WSL und Windows:

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

Dann öffnen Sie `http://localhost:8888` in Ihrem Browser.
{% endstep %}

{% step %}
**Kimi-K2.6 suchen und herunterladen**

Unsloth Studio lagert automatisch in den RAM aus und erkennt Multi-GPU-Setups. Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden.

Gehen Sie dann zum [Studio Chat](/docs/de/neu/studio/chat.md) Tab und suchen Sie nach **Kimi-K2.6** in der Suchleiste und laden Sie Ihr gewünschtes Modell und die gewünschte Quantisierung herunter. Stellen Sie sicher, dass Ihnen genügend Rechenleistung zur Verfügung steht, um das Modell auszuführen.

<div data-with-frame="true"><figure><img src="/files/905f63360b5ebf0fd878d41187462193cd78edb0" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}
**Kimi-K2.6 ausführen**

Die Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden, Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, das Chat-Template und andere Einstellungen bearbeiten.

Für weitere Informationen können Sie unsere [Unsloth-Studio-Inferenzanleitung](/docs/de/neu/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/60be6fbac06ea3e689fd70e7f46fb3f791344534" alt="" width="563"><figcaption><p>Beispiel für Qwen3.6 mit Tool-Calling</p></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### 🦙 Kimi K2.6 in llama.cpp ausführen

Für diese Anleitung verwenden wir die UD-Q2\_K\_XL-Quant, die mindestens 350 GB RAM erfordert. Sie können den Quantisierungstyp gern ändern. GGUF: [**Kimi-K2.6-GGUF**](https://huggingface.co/unsloth/Kimi-K2.6-GGUF)

Für diese Tutorials verwenden wir [llama.cpp](llama.cpphttps://github.com/ggml-org/llama.cpp) für schnelle lokale Inferenz, insbesondere wenn Sie eine CPU haben.

{% stepper %}
{% step %}
Holen Sie sich die neueste `llama.cpp` **auf** [**GitHub hier**](https://github.com/ggml-org/llama.cpp). Sie können auch die folgenden Build-Anweisungen befolgen. Ändern Sie `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. **Für Apple-Mac-/Metal-Geräte**, setzen Sie `-DGGML_CUDA=OFF` und fahren Sie dann wie gewohnt fort – Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
Sie können jetzt `llama.cpp` direkt zum Laden und Herunterladen von Modellen verwenden, genau wie `ollama run`. Wählen Sie zunächst den gewünschten Quantisierungstyp wie `Q2_K_XL`. Verwenden Sie außerdem `export LLAMA_CACHE="folder"` um zu erzwingen `llama.cpp` an einem bestimmten Speicherort zu speichern. Beachten Sie, dass dieser Downloadvorgang sehr langsam sein kann, daher ist es wahrscheinlich am besten, den manuellen Download-Prozess im nächsten Abschnitt zu verwenden.

Verwenden Sie je nach Anwendungsfall einen der folgenden spezifischen Befehle:

**Denkmodus:**

```bash
export LLAMA_CACHE="unsloth/Kimi-K2.6-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Kimi-K2.6-GGUF:UD-Q2_K_XL \\
    --temp 1.0 \\
    --top-p 0.95
```

**Nicht-Denkmodus (Sofort):**

```bash
export LLAMA_CACHE="unsloth/Kimi-K2.6-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Kimi-K2.6-GGUF:UD-Q2_K_XL \\
    --temp 0.6 \\
    --top-p 0.95 \\
    --chat-template-kwargs '{"enable_thinking":false}'
```

{% endstep %}

{% step %}
Wenn Sie das Modell manuell herunterladen möchten, können wir das Modell über den folgenden Code herunterladen (nach der Installation von `pip install huggingface_hub`). Wenn Downloads hängen bleiben, siehe: [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/Kimi-K2.6-GGUF \\
    --local-dir unsloth/Kimi-K2.6-GGUF \\
    --include "*mmproj-F16*" \\
    --include "*UD-Q2_K_XL*" # Verwenden Sie "*UD-Q8_K_XL*" für volle Präzision
```

{% endstep %}

{% step %}
Führen Sie das Modell dann im Konversationsmodus aus:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/Kimi-K2.6-GGUF/UD-Q2_K_XL/Kimi-K2.6-UD-Q2_K_XL-00001-of-0008.gguf \\
    --mmproj unsloth/Kimi-K2.6-GGUF/mmproj-F16.gguf \\
    --temp 1.0 \\
    --top-p 0.95
```

{% endcode %}
{% endstep %}
{% endstepper %}

### 📊 Benchmarks

Weiter unten können Sie Benchmarks in Tabellenform ansehen:

<div data-with-frame="true"><figure><img src="/files/aedf83847f87b4048bbd04713c395677314b6716" alt="" width="563"><figcaption></figcaption></figure></div>


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/kimi-k2.6.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.