🥝Kimi K2.5: Leitfaden zum Ausführen lokal
Leitfaden zum Ausführen von Kimi-K2.5 auf deinem eigenen lokalen Gerät!
Kimi-K2.5 ist das neue Modell von Moonshot, das SOTA-Performance bei Vision-, Coding-, agentischen und Chat-Aufgaben erreicht. Das hybride Reasoning-Modell mit 1T Parametern benötigt 600 GB Festplattenspeicher, während die quantisierte Unsloth Dynamic 1,8-Bit Version dies auf 240 GB reduziert (-60 % Größe): Kimi-K2.5-GGUF
Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA-Aider- und 5-Shot-MMLU-Performance. Sieh dir an, wie unsere dynamischen 1–2-Bit-GGUFs auf Coding-Benchmarks.
⚙️ Empfohlene Voraussetzungen
Du benötigst >240 GB Festplattenspeicher um den 1-Bit-Quant auszuführen!
Für die beste Leistung stelle sicher, dass dein insgesamt verfügbarer Speicher (VRAM + Systemspeicher) größer ist als die Größe der quantisierten Modelldatei, die du herunterlädst. Falls nicht, kann llama.cpp weiterhin über SSD/HDD-Offloading ausgeführt werden, aber die Inferenz wird langsamer sein.
Der 1,8-Bit-(UD-TQ1_0)-Quant läuft auf einer einzelnen 24-GB-GPU, wenn du alle MoE-Layer in den System-RAM (oder auf eine schnelle SSD) auslagerst. Mit ~256 GB RAM kannst du mit ~10 Token/s rechnen. Das vollständige Kimi-K2.5-Modell ist 630 GB groß und benötigt typischerweise mindestens 4× H200-GPUs.
Wenn das Modell hineinpasst, erhältst du >40 Token/s bei Verwendung einer B200.
Um das Modell in nahezu voller Präzisionauszuführen, kannst du die 4-Bit- oder 5-Bit-Quants verwenden. Du kannst auch jeden höheren Wert verwenden, nur um auf Nummer sicher zu gehen.
Für starke Leistung solltest du >240 GB einheitlichen Speicher (oder kombinierte RAM+VRAM) anpeilen, um 10+ Token/s zu erreichen. Wenn du darunter liegst, funktioniert es zwar, aber die Geschwindigkeit sinkt (llama.cpp kann weiterhin per mmap/Disk-Offload laufen) und kann von ~10 Token/s auf <2 Token/s fallen.
Wir empfehlen UD-Q2_K_XL (375 GB) als guten Kompromiss zwischen Größe und Qualität. Beste Faustregel: RAM+VRAM ≈ Quantgröße; andernfalls funktioniert es trotzdem, nur langsamer aufgrund des Offloadings.
🥝 Kimi-K2.5-Anleitung ausführen
Kimi-K2.5 benötigt für verschiedene Anwendungsfälle unterschiedliche Sampling-Parameter.
Derzeit gibt es keine Vision-Unterstützung für das Modell, aber hoffentlich unterstützt llama.cpp sie bald.
Um das Modell in voller Präzision auszuführen, musst du nur die 4-Bit- oder 5-Bit-Dynamic-GGUFs verwenden (z. B. UD_Q4_K_XL), da das Modell ursprünglich im INT4-Format veröffentlicht wurde.
Du kannst zur Sicherheit eine höhere Bit-Quantisierung wählen, falls es kleine Quantisierungsunterschiede gibt, aber in den meisten Fällen ist das unnötig.
🌙 Nutzungsanleitung:
Laut Moonshot AI sind dies die empfohlenen Einstellungen für die Inferenz von Kimi K2.5:
temperature = 0.6
temperature = 1.0
top_p = 0.95
top_p = 0.95
min_p = 0.01
min_p = 0.01
Setzen Sie die Temperatur 1,0 um Wiederholungen und Inkohärenz zu reduzieren.
Empfohlene Kontextlänge = 98.304 (bis zu 256K)
Hinweis: Die Verwendung verschiedener Tools kann unterschiedliche Einstellungen erfordern
Wir empfehlen, min_p auf 0,01 zu setzen um das Auftreten unwahrscheinlicher Tokens mit niedrigen Wahrscheinlichkeiten zu unterdrücken. Und repeat penalty deaktivieren oder auf 1,0 setzen falls nötig.
Chat-Template für Kimi K2.5
Ausführen tokenizer.apply_chat_template([{"role": "user", "content": "Was ist 1+1?"},]) ergibt:
🦥 Kimi-K2.5 in Unsloth Studio ausführen
Kimi-K2.5 kann ausgeführt werden in Unsloth Studio, unserer neuen Open-Source-Web-UI für lokale KI. Mit Unsloth Studio können Sie Modelle lokal ausführen auf MacOS, Windows, Linux und:
Suchen, herunterladen, GGUFs ausführen und Safetensor-Modelle
Selbstheilendes Tool-Calling + Websuche
Code-Ausführung (Python, Bash)
Automatische Inferenz Parameter-Tuning (Temp, Top-p usw.)
Schnelle CPU-+GPU-Inferenz via llama.cpp
LLMs trainieren 2x schneller mit 70% weniger VRAM

Unsloth installieren
Führen Sie es in Ihrem Terminal aus:
MacOS, Linux, WSL:
Windows PowerShell:
Die Installation geht schnell und dauert ungefähr 1-2 Minuten.
Unsloth starten
MacOS, Linux, WSL und Windows:
Dann öffnen Sie http://localhost:8888 in Ihrem Browser.
Kimi-K2.5 suchen und herunterladen
Beim ersten Start musst du ein Passwort erstellen, um dein Konto zu sichern, und dich später erneut anmelden. Danach siehst du einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und grundlegende Einstellungen auszuwählen. Du kannst ihn jederzeit überspringen und direkt zum Chat gehen.
Gehen Sie dann zur Studio Chat Tab und suche nach Kimi-K2.5 in der Suchleiste und lade dein gewünschtes Modell und den gewünschten Quant herunter. Stelle sicher, dass du genug Rechenleistung hast, um das Modell auszuführen.

Kimi-K2.5 ausführen
Inferenzparameter sollten bei der Verwendung von Unsloth Studio automatisch gesetzt werden; Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chat-Vorlage und andere Einstellungen bearbeiten.
Weitere Informationen finden Sie in unserer Unsloth Studio-Inferenzanleitung.

✨ Kimi K2.5 in llama.cpp ausführen
Für diese Anleitung verwenden wir den kleinsten 1-Bit-Quant, der 240 GB groß ist. Du kannst die Quantisierung gerne auf 2-Bit, 3-Bit usw. ändern. Um das Modell in nahezu voller Präzisionauszuführen, kannst du die 4-Bit- oder 5-Bit-Quants verwenden. Du kannst auch jeden höheren Wert verwenden, nur um auf Nummer sicher zu gehen.
Hole dir die neueste
llama.cppauf GitHub hier. Du kannst auch den untenstehenden Build-Anweisungen folgen. Ändere-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze-DGGML_CUDA=OFFund fahre dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Wenn du
llama.cppdirekt zum Laden von Modellen kannst du Folgendes tun: (:UD-TQ1_0) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Dies ist ähnlich zuollama run. Verwenden Sieexport LLAMA_CACHE="folder"um zu erzwingen, dassllama.cppum an einem bestimmten Speicherort zu speichern.
LLAMA_SET_ROWS=1 macht llama.cpp ein wenig schneller! Verwende es! --fit on ordnet Modelle automatisch und optimal auf all deinen GPUs und CPUs ein.
--fit onwird das Modell automatisch an dein System anpassen. Wenn du nicht--fit onund du etwa 360 GB gemeinsamen GPU-Speicher hast, entferne-ot ".ffn_.*_exps.=CPU"um maximale Geschwindigkeit zu erreichen.
Verwende --fit on für automatisches Einpassen auf GPUs und CPUs. Wenn das nicht funktioniert, siehe unten:
Bitte probieren Sie -ot ".ffn_.*_exps.=CPU" verwenden, um alle MoE-Layer auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Layer auf 1 GPU unterbringen, was die Generierungsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Layer unterzubringen, wenn Sie mehr GPU-Kapazität haben.
Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert die MoE-Layer für Up- und Down-Projektionen aus.
Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur die MoE-Layer für Up-Projektionen aus.
Und schließlich lagern Sie alle Layer aus via -ot ".ffn_.*_exps.=CPU" Dies verwendet am wenigsten VRAM.
Sie können den Regex auch anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Layer auszulagern, aber nur ab der 6. Schicht.
Lade das Modell herunter über (nach der Installation von
pip install huggingface_hub hf_transfer). Wir empfehlen, unseren 2-Bit-Dynamic-Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Alle Versionen unter: huggingface.co/unsloth/Kimi-K2.5-GGUF Wenn Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging
Wenn du feststellst, dass Downloads bei 90 bis 95 % oder so hängen bleiben, sieh dir bitte unsere Fehlerbehebungsanleitung.
Führe einen beliebigen Prompt aus.
Bearbeiten
--ctx-size 16384für die Kontextlänge an. Du kannst dies auch weglassen für die automatische Ermittlung der Kontextlänge über--fit on
Versuche beispielsweise: "Erstelle ein Flappy-Bird-Spiel in HTML", und du erhältst:

✨ Bereitstellen mit llama-server und der Completion-Bibliothek von OpenAI
Die Verwendung von --kv-unified kann die Inferenzbereitstellung in llama.cpp schneller machen! Siehe https://www.reddit.com/r/LocalLLaMA/comments/1qnwa33/glm_47_flash_huge_performance_improvement_with_kvu/
Nachdem du llama.cpp gemäß Kimi K2.5installiert hast, kannst du Folgendes verwenden, um einen OpenAI-kompatiblen Server zu starten:
Verwenden Sie anschließend die Python-Bibliothek von OpenAI nach pip install openai :
Und wir erhalten:

Und im anderen llama-server-Fenster:

📊 Benchmarks
Du kannst weiter unten Benchmarks in Tabellenform ansehen:

Reasoning & Knowledge
HLE-Full
30.1
34.5
30.8
37.5
25,1†
-
HLE-Full (mit Tools)
50.2
45.5
43.2
45.8
40,8†
-
AIME 2025
96.1
100
92.8
95.0
93.1
-
HMMT 2025 (Feb)
95.4
99.4
92.9*
97.3*
92.5
-
IMO-AnswerBench
81.8
86.3
78.5*
83.1*
78.3
-
GPQA-Diamond
87.6
92.4
87.0
91.9
82.4
-
MMLU-Pro
87.1
86.7*
89.3*
90.1
85.0
-
Bild & Video
MMMU-Pro
78.5
79.5*
74.0
81.0
-
69.3
CharXiv (RQ)
77.5
82.1
67.2*
81.4
-
66.1
MathVision
84.2
83.0
77.1*
86.1*
-
74.6
MathVista (mini)
90.1
82.8*
80.2*
89.8*
-
85.8
ZeroBench
9
9*
3*
8*
-
4*
ZeroBench (mit Tools)
11
7*
9*
12*
-
3*
OCRBench
92.3
80.7*
86.5*
90.3*
-
87.5
OmniDocBench 1.5
88.8
85.7
87.7*
88.5
-
82.0*
InfoVQA (val)
92.6
84*
76.9*
57.2*
-
89.5
SimpleVQA
71.2
55.8*
69.7*
69.7*
-
56.8*
WorldVQA
46.3
28.0
36.8
47.4
-
23.5
VideoMMMU
86.6
85.9
84.4*
87.6
-
80.0
MMVU
80.4
80.8*
77.3
77.5
-
71.1
MotionBench
70.4
64.8
60.3
70.3
-
-
VideoMME
87.4
86.0*
-
88.4*
-
79.0
LongVideoBench
79.8
76.5*
67.2*
77.7*
-
65.6*
LVBench
75.9
-
-
73.5*
-
63.6
Coding
SWE-Bench Verified
76.8
80.0
80.9
76.2
73.1
-
SWE-Bench Pro
50.7
55.6
55.4*
-
-
-
SWE-Bench Multilingual
73.0
72.0
77.5
65.0
70.2
-
Terminal Bench 2.0
50.8
54.0
59.3
54.2
46.4
-
PaperBench
63.5
63.7*
72.9*
-
47.1
-
CyberGym
41.3
-
50.6
39.9*
17.3*
-
SciCode
48.7
52.1
49.5
56.1
38.9
-
OJBench (cpp)
57.4
-
54.6*
68.5*
54.7*
-
LiveCodeBench (v6)
85.0
-
82.2*
87.4*
83.3
-
Langer Kontext
Longbench v2
61.0
54.5*
64.4*
68.2*
59.8*
-
AA-LCR
70.0
72.3*
71.3*
65.3*
64.3*
-
Agentische Suche
BrowseComp
60.6
65.8
37.0
37.8
51.4
-
BrowseComp (mit Kontextverwaltung)
74.9
65.8
57.8
59.2
67.6
-
BrowseComp (Agent Swarm)
78.4
-
-
-
-
-
WideSearch (item-f1)
72.7
-
76.2*
57.0
32.5*
-
WideSearch (item-f1 Agent Swarm)
79.0
-
-
-
-
-
DeepSearchQA
77.1
71.3*
76.1*
63.2*
60.9*
-
FinSearchCompT2&T3
67.8
-
66.2*
49.9
59.1*
-
Seal-0
57.4
45.0
47.7*
45.5*
49.5*
-
Hinweise
*= vom Autor neu bewertete Punktzahl (zuvor nicht öffentlich verfügbar).†= Die Punktzahl von DeepSeek V3.2 bezieht sich auf dessen Nur-Text-Untermenge (wie in den Fußnoten angegeben).-= nicht bewertet / nicht verfügbar.
Zuletzt aktualisiert
War das hilfreich?

