🥝Kimi K2.5: Anleitung zum lokalen Betrieb

Anleitung zum Ausführen von Kimi-K2.5 auf deinem eigenen lokalen Gerät!

Kimi-K2.5 ist das neue Modell von Moonshot, das SOTA-Leistung in Vision-, Coding-, Agentic- und Chat-Aufgaben erreicht. Das 1T-Parameter-Hybrid-Reasoning-Modell benötigt 600 GB Festplattenspeicher, während die quantisierte Unsloth Dynamic 1,8-Bit Version dies auf 240 GB reduziert (-60% Größe): Kimi-K2.5-GGUFarrow-up-right

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA Aider- und 5-shot MMLU-Leistung. Siehe, wie unsere Dynamic 1–2 Bit GGUFs bei Coding-Benchmarks.

⚙️ Empfohlene Anforderungen

circle-info

Du brauchst >240 GB Festplattenspeicher um das 1-Bit-Quant laufen zu lassen!

Die einzige Voraussetzung ist Festplattenspeicher + RAM + VRAM ≥ 240 GB. Das bedeutet, du musst nicht so viel RAM oder VRAM (GPU) haben, um das Modell auszuführen, aber es wird deutlich langsamer sein.

Das 1,8-Bit (UD-TQ1_0) Quant läuft auf einer einzelnen 24GB-GPU, wenn du alle MoE-Schichten in den System-RAM (oder eine schnelle SSD) auslagerst. Mit ~256GB RAM sind etwa ~10 Tokens/s zu erwarten. Das vollständige Kimi K2.5-Modell ist 630GB groß und benötigt typischerweise mindestens 4× H200-GPUs.

Wenn das Modell passt, erhältst du >40 Tokens/s bei Verwendung einer B200.

Um das Modell in nahezu voller Präzisionzu betreiben, kannst du die 4-Bit- oder 5-Bit-Quants verwenden. Du kannst auch eine höhere Bit-Breite verwenden, um auf der sicheren Seite zu sein.

Für starke Leistung strebe >240GB einheitlichen Speicher (oder kombinierten RAM+VRAM) an, um 10+ Tokens/s zu erreichen. Wenn du darunter liegst, funktioniert es zwar, aber die Geschwindigkeit wird sinken (llama.cpp kann weiterhin über mmap/disk offload laufen) und kann von ~10 Tokens/s auf <2 Tokens/s fallen.

Wir empfehlen UD-Q2_K_XL (375GB) als guten Kompromiss zwischen Größe und Qualität. Faustregel: RAM+VRAM ≈ Quant-Größe; ansonsten funktioniert es weiterhin, nur langsamer wegen Auslagerung.

🥝 Kimi K2.5 Anleitung ausführen

Kimi-K2.5 benötigt unterschiedliche Sampling-Parameter für verschiedene Anwendungsfälle.

Derzeit gibt es keine Vision-Unterstützung für das Modell, aber hoffentlich wird llama.cpp dies bald unterstützen.

circle-check

Unterschiede von Kimi K2.5 zu Kimi K2 Thinking

  • Beide Modelle verwenden eine modifizierte DeepSeek V3 MoE-Architektur.

  • rope_scaling.beta_fast K2.5 verwendet 32.0 vs K2 Thinking's 1.0.

  • MoonViT ist der native Auflösungs-Vision-Encoder mit 200M Parametern. Er ist ähnlich demjenigen, der in Kimi-VL-A3B-Instruct verwendet wird.

🌙 Gebrauchsanleitung:

Laut Moonshot AI sind dies die empfohlenen Einstellungen für die Kimi K2.5 Inferenz:

Standardeinstellungen (Sofortmodus)
Denkmodus

temperature = 0.6

temperature = 1.0

top_p = 0.95

top_p = 0.95

min_p = 0.01

min_p = 0.01

  • Setzen Sie die Temperatur 1.0 um Wiederholungen und Inkohärenz zu reduzieren.

  • Vorgeschlagene Kontextlänge = 98.304 (bis zu 256K)

  • Hinweis: Die Verwendung unterschiedlicher Tools kann unterschiedliche Einstellungen erfordern

circle-info

Wir empfehlen, min_p auf 0,01 um das Auftreten unwahrscheinlicher Tokens mit niedrigen Wahrscheinlichkeiten zu unterdrücken. Und deaktiviere oder setze repeat penalty = 1.0 falls nötig.

Chat-Vorlage für Kimi K2.5

Ausführen tokenizer.apply_chat_template([{"role": "user", "content": "What is 1+1?"},]) ergibt:

✨ Kimi K2.5 in llama.cpp ausführen

Für diese Anleitung verwenden wir das kleinste 1-Bit-Quant mit 240GB Größe. Du kannst die Quantisierungsart gern auf 2-Bit, 3-Bit usw. ändern. Um das Modell in nahezu voller Präzisionzu betreiben, kannst du die 4-Bit- oder 5-Bit-Quants verwenden. Du kannst auch eine höhere Bit-Breite verwenden, um auf der sicheren Seite zu sein.

  1. Holen Sie sich die neueste llama.cpp auf GitHub hierarrow-up-right. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.

  1. Wenn Sie llama.cpp direkt zum Laden von Modellen kannst du Folgendes tun: (:UD-TQ1_0) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwenden Sie export LLAMA_CACHE="folder" um zu erzwingen, dass llama.cpp an einem bestimmten Ort zu speichern.

circle-check
  1. --fit on wird das Modell automatisch an dein System anpassen. Wenn du nicht --fit on verwendest und du ungefähr 360GB kombinierten GPU-Speicher hast, entferne -ot ".ffn_.*_exps.=CPU" um maximale Geschwindigkeit zu erzielen.

circle-info

Verwenden Sie --fit on für automatisches Anpassen auf GPUs und CPUs. Wenn das nicht funktioniert, siehe unten:

Bitte probieren Sie aus -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dies ermöglicht es effektiv, alle Nicht-MoE-Schichten auf einer GPU unterzubringen und die Generationsgeschwindigkeit zu verbessern. Sie können den Regex-Ausdruck anpassen, um mehr Schichten auszulagern, wenn Sie mehr GPU-Kapazität haben.

Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert up- und down-Projektions-MoE-Schichten aus.

Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur up-Projektions-MoE-Schichten aus.

Und schließlich alle Schichten auslagern über -ot ".ffn_.*_exps.=CPU" Dies verwendet am wenigsten VRAM.

Sie können den Regex auch anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, jedoch nur ab der 6. Schicht.

  1. Laden Sie das Modell herunter über (nach Installation von pip install huggingface_hub hf_transfer ). Wir empfehlen die Verwendung unseres 2-Bit-Dynamic-Quants UD-Q2_K_XL, um Größe und Genauigkeit auszugleichen. Alle Versionen unter: huggingface.co/unsloth/Kimi-K2.5-GGUFarrow-up-right

circle-info

Wenn du feststellst, dass Downloads bei 90 bis 95% oder so stecken bleiben, siehe bitte unsere Fehlerbehebungsanleitungarrow-up-right.

  1. Führe beliebige Prompts aus.

  2. Bearbeiten --ctx-size 16384 für Kontextlänge. Du kannst dies auch weglassen für automatische Kontextlängen-Erkennung via --fit on

  1. Als Beispiel versuche: "Erstelle ein Flappy Bird Spiel in HTML", und du erhältst:

✨ Mit llama-server und OpenAIs Completion-Bibliothek bereitstellen

circle-check

Nachdem du llama.cpp wie in Kimi K2.5installiert hast, kannst du das Folgende verwenden, um einen OpenAI-kompatiblen Server zu starten:

Verwenden Sie anschließend die OpenAI-Python-Bibliothek nachdem Sie pip install openai :

Und wir erhalten:

Und im anderen llama-server-Fenster:

📊 Benchmarks

Unten kannst du weitere Benchmarks in Tabellenform sehen:

Reasoning & Wissen

Benchmark
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

HLE-Full

30.1

34.5

30.8

37.5

25.1†

-

HLE-Full (mit Tools)

50.2

45.5

43.2

45.8

40.8†

-

AIME 2025

96.1

100

92.8

95.0

93.1

-

HMMT 2025 (Feb)

95.4

99.4

92.9*

97.3*

92.5

-

IMO-AnswerBench

81.8

86.3

78.5*

83.1*

78.3

-

GPQA-Diamond

87.6

92.4

87.0

91.9

82.4

-

MMLU-Pro

87.1

86.7*

89.3*

90.1

85.0

-

Bild & Video

Benchmark
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

MMMU-Pro

78.5

79.5*

74.0

81.0

-

69.3

CharXiv (RQ)

77.5

82.1

67.2*

81.4

-

66.1

MathVision

84.2

83.0

77.1*

86.1*

-

74.6

MathVista (mini)

90.1

82.8*

80.2*

89.8*

-

85.8

ZeroBench

9

9*

3*

8*

-

4*

ZeroBench (mit Tools)

11

7*

9*

12*

-

3*

OCRBench

92.3

80.7*

86.5*

90.3*

-

87.5

OmniDocBench 1.5

88.8

85.7

87.7*

88.5

-

82.0*

InfoVQA (val)

92.6

84*

76.9*

57.2*

-

89.5

SimpleVQA

71.2

55.8*

69.7*

69.7*

-

56.8*

WorldVQA

46.3

28.0

36.8

47.4

-

23.5

VideoMMMU

86.6

85.9

84.4*

87.6

-

80.0

MMVU

80.4

80.8*

77.3

77.5

-

71.1

MotionBench

70.4

64.8

60.3

70.3

-

-

VideoMME

87.4

86.0*

-

88.4*

-

79.0

LongVideoBench

79.8

76.5*

67.2*

77.7*

-

65.6*

LVBench

75.9

-

-

73.5*

-

63.6

Coding

Benchmark
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

SWE-Bench Verifiziert

76.8

80.0

80.9

76.2

73.1

-

SWE-Bench Pro

50.7

55.6

55.4*

-

-

-

SWE-Bench Mehrsprachig

73.0

72.0

77.5

65.0

70.2

-

Terminal Bench 2.0

50.8

54.0

59.3

54.2

46.4

-

PaperBench

63.5

63.7*

72.9*

-

47.1

-

CyberGym

41.3

-

50.6

39.9*

17.3*

-

SciCode

48.7

52.1

49.5

56.1

38.9

-

OJBench (cpp)

57.4

-

54.6*

68.5*

54.7*

-

LiveCodeBench (v6)

85.0

-

82.2*

87.4*

83.3

-

Langer Kontext

Benchmark
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

Longbench v2

61.0

54.5*

64.4*

68.2*

59.8*

-

AA-LCR

70.0

72.3*

71.3*

65.3*

64.3*

-

Benchmark
Kimi K2.5
GPT-5.2
Claude 4.5 Opus
Gemini 3 Pro
DeepSeek V3.2
Qwen3-VL-235B-A22B-Thinking

BrowseComp

60.6

65.8

37.0

37.8

51.4

-

BrowseComp (mit ctx-Management)

74.9

65.8

57.8

59.2

67.6

-

BrowseComp (Agent Swarm)

78.4

-

-

-

-

-

WideSearch (item-f1)

72.7

-

76.2*

57.0

32.5*

-

WideSearch (item-f1 Agent Swarm)

79.0

-

-

-

-

-

DeepSearchQA

77.1

71.3*

76.1*

63.2*

60.9*

-

FinSearchCompT2&T3

67.8

-

66.2*

49.9

59.1*

-

Seal-0

57.4

45.0

47.7*

45.5*

49.5*

-

Anmerkungen

  • * = Wertung, neu bewertet von den Autoren (vorher nicht öffentlich verfügbar).

  • = DeepSeek V3.2 Wertung entspricht seinem Text-only-Subset (wie in den Fußnoten vermerkt).

  • - = nicht bewertet / nicht verfügbar.

Zuletzt aktualisiert

War das hilfreich?