🥝Kimi K2.6 - Wie man lokal ausführt
Schritt-für-Schritt-Anleitung zum Ausführen von Kimi-K2.6 auf deinem eigenen lokalen Gerät.
Kimi K2.6 ist ein Open-Model von Moonshot, das SOTA-Performance über Vision-, Coding-, agentische, Long-Context- und Chat-Aufgaben hinweg liefert. Das Hybrid-Reasoning-Modell mit 1T Parametern hat eine Kontextlänge von 256K, und die volle Präzision erfordert 610 GB Speicherplatz. Dynamic 2-bit erfordert 350 GB (-43 % Größe). Führen Sie Kimi K2.6 über Unsloth Dynamic aus Kimi-K2.6-GGUFs auf Unsloth Studio oder llama.cpp.
Dynamic 2-bit hebt wichtige Schichten auf 8-Bit an und benötigt 350 GB+ VRAM/RAM Setups. Für verlustfreie Kimi K2.6 verwenden Sie Q8 (UD-Q8_K_XL), was nur 10 GB größer ist als Q4 (UD-Q4_K_XL). Alle Uploads verwenden Dynamic 2.0 für SOTA-Quantisierungsleistung. Kimi-K2.6 GGUFs unterstützen außerdem Vision.
Tabelle: Hardwareanforderungen (Einheiten = Gesamtspeicher: RAM + VRAM oder einheitlicher Speicher)
Festplattenspeicher
340 GB
584 GB
595 GB
Perplexität
2.4131
1.8420
1.8419
📊 Quantisierungsanalyse
UD-Q8_K_XL ist verlustfrei, weil Kimi int4 für MoE-Gewichte und BF16 für alles andere verwendet, und Q8_K_XL folgt dem. UD-Q4_K_XL ist ähnlich, außer dass die übrigen Tensoren Q8_0sind, sodass es nahezu volle Präzision ist und 600 GB RAM/VRAM benötigt. Andere Nicht-Unsloth-GGUFs von anderen Anbietern können dem UD-Q4_K_XL Ansatz statt dem „wirklich verlustfreien“ UD-Q8_K_XL.
Wir folgten jukofyorks Erkenntnis, dass const float d = max / -7; anstelle des Standardwerts const float d = max / -8; während des Quantisierungsprozesses nur auf den MoE-Schichten. Dieser Bijektions-Patch auf INT4-nativen MoEs ermöglicht dem Q4_0 Quant-Typ, den absoluten Fehler von 1,8 % auf nahezu 0 % (Epsilon) zu reduzieren.
Wir müssen jedoch andere Schichten in BF16 belassen und zeigen unten die Fehlerdiagramme für beide im Vergleich zur BF16-Baseline. UD-Q8-K_XL ist wirklich „verlustfrei“ mit einem kleinen Unterschied im Maschinen-Epsilon beim Konvertieren von Q4_0 zu BF16. Die Perplexität für UD-Q8_K_XL betrug 1,8419 ± 0,00721 und UD-Q4_K_XL 1,8420 ± 0,00720. Beachten Sie, dass das Fehlerdiagramm unten RMSE geteilt durch die bfloat16-Epsilon ist, also eine kleine Fehlerskala.

Q4_K_XL (blau) und Q8_K_XL (orange), das verlustfrei und 10 GB größer ist.⚙️ Verwendungshandbuch
Denk- und Nicht-Denk-Modus erfordern unterschiedliche Einstellungen:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
Empfohlene Kontextlänge =
98,304(bis zu262,144)
Wenn das Modell passt, erhalten Sie >40 Token/s bei Verwendung von B200s. Wir empfehlen UD-Q2_K_XL (350 GB) als guten Kompromiss zwischen Größe und Qualität. Beste Faustregel: RAM+VRAM ≈ Quantisierungsgröße; andernfalls funktioniert es trotzdem, nur langsamer wegen Auslagerung.
Chat-Vorlage für Kimi K2.6
Ausführen von tokenizer.apply_chat_template([{"role": "user", "content": "Was ist 1+1?"},]) ergibt:
Kimi K2.6-Ausführungshandbuch
🦥 Kimi-K2.6 in Unsloth Studio ausführen
Kimi K2.6 kann ausgeführt werden in Unsloth Studio, einer Open-Source-Web-UI für lokale KI. Unsloth Studio lagert automatisch in den RAM aus und erkennt Multi-GPU-Setups. Mit Unsloth Studio können Sie Modelle lokal ausführen auf MacOS, Windows, Linux und:
Suchen, herunterladen, GGUFs ausführen und Safetensor-Modelle
Selbstheilende Tool-Aufrufe + Websuche
Code-Ausführung (Python, Bash)
Automatische Inferenz Parameterabstimmung (Temp, Top-p usw.)
Schnelle CPU- + GPU-Inferenz über llama.cpp
LLMs trainieren 2x schneller mit 70 % weniger VRAM

Unsloth installieren und starten
Um zu installieren, führen Sie in Ihrem Terminal aus:
MacOS, Linux, WSL:
Windows PowerShell:
Unsloth starten
MacOS, Linux, WSL und Windows:
Öffnen Sie dann http://localhost:8888 in Ihrem Browser.
Kimi-K2.6 suchen und herunterladen
Unsloth Studio lagert automatisch in den RAM aus und erkennt Multi-GPU-Setups. Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu sichern, und sich später erneut anmelden.
Gehen Sie dann zum Studio Chat Tab und suchen Sie nach Kimi-K2.6 in der Suchleiste und laden Sie Ihr gewünschtes Modell und Ihre gewünschte Quantisierung herunter. Stellen Sie sicher, dass genügend Rechenleistung vorhanden ist, um das Modell auszuführen.

Kimi-K2.6 ausführen
Inferenzparameter sollten bei Verwendung von Unsloth Studio automatisch gesetzt werden, Sie können sie jedoch weiterhin manuell ändern. Sie können außerdem die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.
Weitere Informationen finden Sie in unserem Unsloth Studio Inferenzhandbuch.

🦙 Kimi K2.6 in llama.cpp ausführen
Für dieses Handbuch verwenden wir die UD-Q2_K_XL-Quantisierung, die mindestens 350 GB RAM erfordert. Sie können den Quantisierungstyp gern ändern. GGUF: Kimi-K2.6-GGUF
Für diese Tutorials werden wir llama.cpp für schnelle lokale Inferenz verwenden, besonders wenn Sie eine CPU haben.
Holen Sie sich die neueste llama.cpp auf GitHub hier. Sie können auch den folgenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz möchten. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren Sie dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Wenn Sie llama.cpp direkt zum Laden von Modellen verwenden möchten, können Sie Folgendes tun: (:Q2_K_XL) ist der Quantisierungstyp. Sie können auch über Hugging Face herunterladen (Punkt 3). Dies ähnelt ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen llama.cpp dass 262,144 an einem bestimmten Speicherort gespeichert wird. Das Modell hat eine maximale
Kontextlänge.
Verwenden Sie je nach Anwendungsfall einen der folgenden spezifischen Befehle:
Nicht-Denkmodus (Sofort):
Laden Sie das Modell über den folgenden Code herunter (nach der Installation von pip install huggingface_hub hf_transfer). Falls Downloads hängen bleiben, siehe: Hugging Face Hub, XET-Debugging
Dann führen Sie das Modell im Gesprächsmodus aus:
📊 Benchmarks
Weitere Benchmarks im Tabellenformat finden Sie weiter unten:

Zuletzt aktualisiert
War das hilfreich?

