For the complete documentation index, see llms.txt. This page is also available as Markdown.

🥝Kimi K2.6 - Wie man lokal ausführt

Schritt-für-Schritt-Anleitung zum Ausführen von Kimi-K2.6 auf deinem eigenen lokalen Gerät.

Kimi K2.6 ist ein Open-Model von Moonshot, das SOTA-Performance über Vision-, Coding-, agentische, Long-Context- und Chat-Aufgaben hinweg liefert. Das Hybrid-Reasoning-Modell mit 1T Parametern hat eine Kontextlänge von 256K, und die volle Präzision erfordert 610 GB Speicherplatz. Dynamic 2-bit erfordert 350 GB (-43 % Größe). Führen Sie Kimi K2.6 über Unsloth Dynamic aus Kimi-K2.6-GGUFs auf Unsloth Studio oder llama.cpp.

Dynamic 2-bit hebt wichtige Schichten auf 8-Bit an und benötigt 350 GB+ VRAM/RAM Setups. Für verlustfreie Kimi K2.6 verwenden Sie Q8 (UD-Q8_K_XL), was nur 10 GB größer ist als Q4 (UD-Q4_K_XL). Alle Uploads verwenden Dynamic 2.0 für SOTA-Quantisierungsleistung. Kimi-K2.6 GGUFs unterstützen außerdem Vision.

Tabelle: Hardwareanforderungen (Einheiten = Gesamtspeicher: RAM + VRAM oder einheitlicher Speicher)

Messung
Dynamic 2-bit
Q4
Q8 (verlustfrei)

Festplattenspeicher

340 GB

584 GB

595 GB

Perplexität

2.4131

1.8420

1.8419

📊 Quantisierungsanalyse

UD-Q8_K_XL ist verlustfrei, weil Kimi int4 für MoE-Gewichte und BF16 für alles andere verwendet, und Q8_K_XL folgt dem. UD-Q4_K_XL ist ähnlich, außer dass die übrigen Tensoren Q8_0sind, sodass es nahezu volle Präzision ist und 600 GB RAM/VRAM benötigt. Andere Nicht-Unsloth-GGUFs von anderen Anbietern können dem UD-Q4_K_XL Ansatz statt dem „wirklich verlustfreien“ UD-Q8_K_XL.

Wir folgten jukofyorks Erkenntnis, dass const float d = max / -7; anstelle des Standardwerts const float d = max / -8; während des Quantisierungsprozesses nur auf den MoE-Schichten. Dieser Bijektions-Patch auf INT4-nativen MoEs ermöglicht dem Q4_0 Quant-Typ, den absoluten Fehler von 1,8 % auf nahezu 0 % (Epsilon) zu reduzieren.

Wir müssen jedoch andere Schichten in BF16 belassen und zeigen unten die Fehlerdiagramme für beide im Vergleich zur BF16-Baseline. UD-Q8-K_XL ist wirklich „verlustfrei“ mit einem kleinen Unterschied im Maschinen-Epsilon beim Konvertieren von Q4_0 zu BF16. Die Perplexität für UD-Q8_K_XL betrug 1,8419 ± 0,00721 und UD-Q4_K_XL 1,8420 ± 0,00720. Beachten Sie, dass das Fehlerdiagramm unten RMSE geteilt durch die bfloat16-Epsilon ist, also eine kleine Fehlerskala.

Sehen Sie den Unterschied zwischen Q4_K_XL (blau) und Q8_K_XL (orange), das verlustfrei und 10 GB größer ist.

⚙️ Verwendungshandbuch

Denk- und Nicht-Denk-Modus erfordern unterschiedliche Einstellungen:

Standard (Denkmodus)
Sofortmodus

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

  • Empfohlene Kontextlänge = 98,304 (bis zu 262,144)

Wenn das Modell passt, erhalten Sie >40 Token/s bei Verwendung von B200s. Wir empfehlen UD-Q2_K_XL (350 GB) als guten Kompromiss zwischen Größe und Qualität. Beste Faustregel: RAM+VRAM ≈ Quantisierungsgröße; andernfalls funktioniert es trotzdem, nur langsamer wegen Auslagerung.

Chat-Vorlage für Kimi K2.6

Ausführen von tokenizer.apply_chat_template([{"role": "user", "content": "Was ist 1+1?"},]) ergibt:

Kimi K2.6-Ausführungshandbuch

🦥 Kimi-K2.6 in Unsloth Studio ausführen

Kimi K2.6 kann ausgeführt werden in Unsloth Studio, einer Open-Source-Web-UI für lokale KI. Unsloth Studio lagert automatisch in den RAM aus und erkennt Multi-GPU-Setups. Mit Unsloth Studio können Sie Modelle lokal ausführen auf MacOS, Windows, Linux und:

1

Unsloth installieren und starten

Um zu installieren, führen Sie in Ihrem Terminal aus:

MacOS, Linux, WSL:

Windows PowerShell:

Unsloth starten

MacOS, Linux, WSL und Windows:

Öffnen Sie dann http://localhost:8888 in Ihrem Browser.

2

Kimi-K2.6 suchen und herunterladen

Unsloth Studio lagert automatisch in den RAM aus und erkennt Multi-GPU-Setups. Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden.

Gehen Sie dann zum Studio Chat Tab und suchen Sie nach Kimi-K2.6 in der Suchleiste und laden Sie Ihr gewünschtes Modell und Ihre gewünschte Quantisierung herunter. Stellen Sie sicher, dass genügend Rechenleistung vorhanden ist, um das Modell auszuführen.

3

Kimi-K2.6 ausführen

Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden, Sie können sie jedoch weiterhin manuell ändern. Sie können außerdem die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.

Weitere Informationen finden Sie in unserem Unsloth Studio Inferenzhandbuch.

Beispiel für Qwen3.6 mit Tool-Calling

🦙 Kimi K2.6 in llama.cpp ausführen

Für dieses Handbuch verwenden wir die UD-Q2_K_XL-Quantisierung, die mindestens 350 GB RAM erfordert. Sie können den Quantisierungstyp gern ändern. GGUF: Kimi-K2.6-GGUF

Für diese Tutorials werden wir llama.cpp für schnelle lokale Inferenz verwenden, besonders wenn Sie eine CPU haben.

1

Holen Sie sich die neueste llama.cpp auf GitHub hier. Sie können auch den folgenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren Sie dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

2

Wenn Sie llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q2_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ähnelt ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen llama.cpp dass 262,144 an einem bestimmten Speicherort gespeichert wird. Das Modell hat eine maximale

Kontextlänge.

Verwenden Sie je nach Anwendungsfall einen der folgenden spezifischen Befehle:

Nicht-Denkmodus (Sofort):

3

Laden Sie das Modell über den folgenden Code herunter (nach der Installation von pip install huggingface_hub hf_transfer). Falls Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging

4

Dann führen Sie das Modell im Gesprächsmodus aus:

📊 Benchmarks

Weitere Benchmarks im Tabellenformat finden Sie weiter unten:

Zuletzt aktualisiert

War das hilfreich?