# Kimi K2.6 - Wie man lokal ausführt

Kimi K2.6 ist ein offenes Modell von Moonshot, das SOTA-Leistung über Vision-, Coding-, agentische, Langkontext- und Chat-Aufgaben hinweg liefert. Das 1T-Parameter-Hybrid-Denkmodell hat eine Kontextlänge von 256K, und die volle Genauigkeit erfordert 610 GB Speicherplatz. Dynamic 2-bit erfordert **350 GB (-43 % Größe)**. Führe Kimi K2.6 über Unsloth Dynamic aus [**Kimi-K2.6-GGUFs**](https://huggingface.co/unsloth/Kimi-K2.6-GGUF) auf Unsloth Studio oder llama.cpp.

**Dynamic 2-bit** hebt wichtige Schichten auf 8-bit an und benötigt **350 GB+ VRAM/RAM** Setup&#x73;**.** Für **verlustfrei** Kimi K2.6 verwende Q8 (`UD-Q8_K_XL`), das nur **10 GB größer** als Q4 (`UD-Q4_K_XL`) ist. Alle Uploads verwenden [Dynamic 2.0](/docs/de/grundlagen/unsloth-dynamic-2.0-ggufs.md) für SOTA-Quantisierungsleistung. Kimi-K2.6-GGUFs **unterstützen ebenfalls Vision.**

**Tabelle: Hardwareanforderungen** (Einheiten = Gesamtspeicher: RAM + VRAM oder einheitlicher Speicher)

| Messung             | Dynamic 2-bit | Q4     | Q8 (verlustfrei) |
| ------------------- | ------------- | ------ | ---------------- |
| Festplattenspeicher | 340 GB        | 584 GB | 595 GB           |
| Perplexität         | 2.4131        | 1.8420 | 1.8419           |

### 📊 Quantisierungsanalyse

`UD-Q8_K_XL` ist verlustfrei, weil Kimi int4 für MoE-Gewichte und BF16 für alles andere verwendet, und `Q8_K_XL` folgt dem. `UD-Q4_K_XL` ist ähnlich, außer dass die verbleibenden Tensoren `Q8_0`sind, daher ist es nahezu volle Genauigkeit und erfordert 600 GB RAM/VRAM. Andere nicht-Unsloth-GGUFs von anderen Anbietern können dem `UD-Q4_K_XL` Ansatz statt dem „wirklich verlustfreien“ `UD-Q8_K_XL`.

Wir haben [jukofyork](https://github.com/jukofyork)s Erkenntnis befolgt, dass `const float d = max / -7;` anstelle des Standardwerts `const float d = max / -8;` während des Quantisierungsprozesses nur auf den MoE-Schichten. Dieser Bijektions-Patch auf INT4-nativen MoEs erlaubt es dem `Q4_0` Quant-Typ, den absoluten Fehler von 1,8 % auf nahezu 0 % (Epsilon) zu reduzieren.

Wir müssen jedoch andere Schichten in BF16 belassen und zeigen unten die Fehlerdiagramme für beide im Vergleich zur BF16-Baseline. `UD-Q8-K_XL` ist wirklich „verlustfrei“ mit einer kleinen Abweichung im Maschinen-Epsilon beim Konvertieren von Q4\_0 zu BF16. Die Perplexität für `UD-Q8_K_XL` betrug 1,8419 ± 0,00721 und `UD-Q4_K_XL` 1,8420 ± 0,00720. Beachte, dass das Fehlerdiagramm unten RMSE geteilt durch die bfloat16-Epsilon zeigt, also eine kleine Fehlerskala.

<div data-with-frame="true"><figure><img src="/files/d2e92a4b0163ea2fc943c7736a5c64de9e2ec629" alt=""><figcaption><p>Siehe den Unterschied zwischen <code>Q4_K_XL</code> (blau) und <code>Q8_K_XL</code> (orange), das verlustfrei und 10 GB größer ist.</p></figcaption></figure></div>

### :gear: Nutzungshandbuch

**Denk- und Nicht-Denk-Modus erfordern unterschiedliche Einstellungen:**

| Standard (Denkmodus) | Sofortmodus       |
| -------------------- | ----------------- |
| temperature = 1,0    | temperature = 0,6 |
| top\_p = 0,95        | top\_p = 0,95     |

* Empfohlene Kontextlänge = `98,304` (bis zu `262,144`)

Wenn das Modell passt, erhältst du >40 Tokens/s bei Verwendung von B200s. Wir empfehlen `UD-Q2_K_XL` (350 GB) als guten Kompromiss zwischen Größe und Qualität. Beste Faustregel: RAM+VRAM ≈ Quant-Größe; andernfalls funktioniert es trotzdem, nur langsamer wegen Auslagerung.

#### Chat-Vorlage für Kimi K2.6

Ausführen von `tokenizer.apply_chat_template([{"role": "user", "content": "Was ist 1+1?"},])` ergibt:

{% code overflow="wrap" %}

```
<|im_system|>system<|im_middle|>Du bist Kimi, ein von Moonshot AI erstellter KI-Assistent.<|im_end|><|im_user|>user<|im_middle|>Was ist 1+1?<|im_end|><|im_assistant|>assistant<|im_middle|><think>
```

{% endcode %}

## Kimi K2.6 Ausführungshandbuch

### 🦥 Kimi-K2.6 in Unsloth Studio ausführen

Kimi K2.6 kann in [Unsloth Studio](/docs/de/neu/studio.md)ausgeführt werden, einer Open-Source-Web-UI für lokale KI. **Unsloth Studio lagert automatisch in RAM aus und erkennt Multi-GPU-Setups**. Mit Unsloth Studio kannst du Modelle lokal auf **MacOS, Windows**und Linux ausführen sowie:

{% columns %}
{% column %}

* Suchen, herunterladen, [GGUFs ausführen](/docs/de/neu/studio.md#run-models-locally) und Safetensor-Modelle
* [**Selbstheilung** Tool-Calling](/docs/de/neu/studio.md#execute-code--heal-tool-calling) + **Websuche**
* [**Code-Ausführung**](/docs/de/neu/studio.md#run-models-locally) (Python, Bash)
* [Automatische Inferenz](/docs/de/neu/studio.md#model-arena) Parameter-Tuning (Temp, Top-P usw.)
* Schnelle CPU- + GPU-Inferenz über llama.cpp
* [LLMs trainieren](/docs/de/neu/studio.md#no-code-training) 2x schneller mit 70 % weniger VRAM
  {% endcolumn %}

{% column %}

<div data-with-frame="true"><figure><img src="/files/89ac45c1d5144736e3036cb7225d0c867534603a" alt=""><figcaption></figcaption></figure></div>
{% endcolumn %}
{% endcolumns %}

{% stepper %}
{% step %}
**Unsloth installieren und starten**

Zur Installation führe in deinem Terminal aus:

MacOS, Linux, WSL:

```bash
curl -fsSL https://unsloth.ai/install.sh | sh
```

Windows PowerShell:

```bash
irm https://unsloth.ai/install.ps1 | iex
```

**Unsloth starten**

MacOS, Linux, WSL und Windows:

```bash
unsloth studio -H 0.0.0.0 -p 8888
```

Dann öffne `http://localhost:8888` in deinem Browser.
{% endstep %}

{% step %}
**Kimi-K2.6 suchen und herunterladen**

Unsloth Studio lagert automatisch in RAM aus und erkennt Multi-GPU-Setups. Beim ersten Start musst du ein Passwort erstellen, um dein Konto zu sichern, und dich später erneut anmelden.

Dann gehe zum [Studio-Chat](/docs/de/neu/studio/chat.md) Tab und suche nach **Kimi-K2.6** in der Suchleiste und lade dein gewünschtes Modell und die gewünschte Quantisierung herunter. Stelle sicher, dass du genug Rechenleistung hast, um das Modell auszuführen.

<div data-with-frame="true"><figure><img src="/files/905f63360b5ebf0fd878d41187462193cd78edb0" alt="" width="563"><figcaption></figcaption></figure></div>
{% endstep %}

{% step %}
**Kimi-K2.6 ausführen**

Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden, du kannst sie jedoch weiterhin manuell ändern. Du kannst auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Für weitere Informationen kannst du unseren [Unsloth Studio Inferenzleitfaden](/docs/de/neu/studio/chat.md).

<div data-with-frame="true"><figure><img src="/files/60be6fbac06ea3e689fd70e7f46fb3f791344534" alt="" width="563"><figcaption><p>Beispiel für Qwen3.6 mit Tool-Calling</p></figcaption></figure></div>
{% endstep %}
{% endstepper %}

### 🦙 Kimi K2.6 in llama.cpp ausführen

Für diesen Leitfaden verwenden wir die Quantisierung UD-Q2\_K\_XL, die mindestens 350 GB RAM erfordert. Du kannst den Quantisierungstyp gerne ändern. GGUF: [**Kimi-K2.6-GGUF**](https://huggingface.co/unsloth/Kimi-K2.6-GGUF)

Für diese Tutorials verwenden wir [llama.cpp](llama.cpphttps://github.com/ggml-org/llama.cpp) für schnelle lokale Inferenz, besonders wenn du eine CPU hast.

{% stepper %}
{% step %}
Beschaffe die neueste `llama.cpp` **auf** [**GitHub hier**](https://github.com/ggml-org/llama.cpp). Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere `-DGGML_CUDA=ON` zu `-DGGML_CUDA=OFF` wenn du keine GPU hast oder nur CPU-Inferenz möchtest. **Für Apple Mac / Metal-Geräte**setze `-DGGML_CUDA=OFF` und fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \\
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endstep %}

{% step %}
Wenn du `llama.cpp` direkt zum Laden von Modellen verwenden möchtest, kannst du Folgendes tun: (:`Q2_K_XL`) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie `ollama run` . Verwende `export LLAMA_CACHE="folder"` um `llama.cpp` zum Speichern an einem bestimmten Ort zu zwingen. Das Modell hat eine maximale `262,144` Kontextlänge.

Verwende einen der spezifischen Befehle unten, je nach Anwendungsfall:

**Denkmodus:**

```bash
export LLAMA_CACHE="unsloth/Kimi-K2.6-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Kimi-K2.6-GGUF:UD-Q2_K_XL \\
    --temp 1.0 \\
    --top-p 0.95
```

**Nicht-Denkmodus (Sofort):**

```bash
export LLAMA_CACHE="unsloth/Qwen3.6-35B-A3B-GGUF"
./llama.cpp/llama-cli \\
    -hf unsloth/Kimi-K2.6-GGUF:UD-Q2_K_XL \\
    --temp 0,6 \\
    --top-p 0.95 \\
    --chat-template-kwargs '{"enable_thinking":false}'
```

{% endstep %}

{% step %}
Lade das Modell über den untenstehenden Code herunter (nach der Installation von `pip install huggingface_hub hf_transfer`). Wenn Downloads hängen bleiben, siehe: [Hugging Face Hub, XET-Debugging](/docs/de/grundlagen/troubleshooting-and-faqs/hugging-face-hub-xet-debugging.md)

```bash
hf download unsloth/Kimi-K2.6-GGUF \\
    --local-dir unsloth/Kimi-K2.6-GGUF \\
    --include "*mmproj-F16*" \\
    --include "*UD-Q2_K_XL*" # Verwende "*UD-Q8_K_XL*" für volle Genauigkeit
```

{% endstep %}

{% step %}
Dann führe das Modell im Gesprächsmodus aus:

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \\
    --model unsloth/Kimi-K2.6-GGUF/UD-Q2_K_XL/Kimi-K2.6-UD-Q2_K_XL-00001-of-0008.gguf \\
    --mmproj unsloth/Kimi-K2.6-GGUF/mmproj-F16.gguf \\
    --temp 1.0 \\
    --top-p 0.95
```

{% endcode %}
{% endstep %}
{% endstepper %}

### 📊 Benchmarks

Du kannst weiter unten Benchmarks in Tabellenform ansehen:

<div data-with-frame="true"><figure><img src="/files/aedf83847f87b4048bbd04713c395677314b6716" alt="" width="563"><figcaption></figcaption></figure></div>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/de/modelle/kimi-k2.6.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.