🌙Kimi K2 Thinking: Anleitung zum lokalen Betrieb

Anleitung zum Ausführen von Kimi-K2-Thinking und Kimi-K2 auf dem eigenen lokalen Gerät!

Kimi-K2-Thinking wurde veröffentlicht. Lies unseren Thinking-Leitfaden oder greife zu GGUFs hier.

Wir haben auch mit dem Kimi-Team zusammengearbeitet an System-Prompt-Fix für Kimi-K2-Thinking.

Kimi-K2 und Kimi-K2-Thinking erreichen SOTA-Leistung in Wissen, Schlussfolgerung, Kodierung und agentischen Aufgaben. Die vollständigen 1T-Parameter-Modelle von Moonshot AI benötigen 1,09 TB Festplattenspeicher, während die quantisierte Unsloth Dynamic 1,8-Bit Version dies auf nur 230 GB reduziert (-80% Größe): Kimi-K2-GGUF

Du kannst jetzt auch unsere Kimi-K2-Thinking GGUFs.

Alle Uploads verwenden Unsloth Dynamic 2.0 für SOTA Aider Polyglot und 5-shot MMLU-Leistung ausführen. Sieh, wie unsere Dynamic 1–2 Bit GGUFs bei Coding-Benchmarks hier.

Thinking ausführen Instruct ausführen

⚙️ Empfohlene Anforderungen

Du benötigst 247 GB Festplattenspeicher um das 1bit-Quant auszuführen!

Die einzige Voraussetzung ist Festplattenspeicher + RAM + VRAM ≥ 247GB. Das bedeutet, dass du nicht so viel RAM oder VRAM (GPU) haben musst, um das Modell auszuführen, aber es wird deutlich langsamer sein.

Das 1,8-Bit (UD-TQ1_0) Quant passt in eine 1x 24GB GPU (mit allen MoE-Schichten ausgelagert in System-RAM oder auf eine schnelle Festplatte). Erwartet etwa ~1–2 Token/s mit dieser Konfiguration, wenn du zusätzlich 256GB RAM hast. Das vollständige Kimi K2 Q8 Quant hat eine Größe von 1,09 TB und benötigt mindestens 8 x H200 GPUs.

Für optimale Leistung benötigst du mindestens 247GB vereinheitlichten Speicher oder 247GB kombinierte RAM+VRAM für 5+ Token/s. Wenn du weniger als 247GB kombinierte RAM+VRAM hast, wird die Geschwindigkeit des Modells definitiv darunter leiden.

Wenn du nicht 247GB RAM+VRAM hast, kein Problem! llama.cpp hat von Haus aus Festplatten-Auslagerung, sodass es durch mmaping trotzdem funktioniert, nur langsamer — zum Beispiel könntest du vorher 5 bis 10 Token/Sekunde bekommen haben, jetzt sind es unter 1 Token.

Wir empfehlen die Verwendung unseres UD-Q2_K_XL (360GB) Quants, um Größe und Genauigkeit auszugleichen!

Für beste Leistung sollte dein VRAM + RAM zusammen der Größe des heruntergeladenen Quants entsprechen. Wenn nicht, funktioniert es weiterhin über Festplatten-Auslagerung, es wird nur langsamer!

💭Kimi-K2-Thinking Leitfaden

Kimi-K2-Thinking sollte im Allgemeinen denselben Anweisungen wie das Instruct-Modell folgen, mit einigen wichtigen Unterschieden, insbesondere bei Einstellungen und der Chat-Vorlage.

Um das Modell in voller Präzision zu betreiben, musst du nur die 4-Bit- oder 5-Bit-Dynamic-GGUFs verwenden (z. B. UD_Q4_K_XL), weil das Modell ursprünglich im INT4-Format veröffentlicht wurde.

Du kannst eine höherbitige Quantisierung wählen, um auf der sicheren Seite zu sein bei kleinen Quantisierungsunterschieden, aber in den meisten Fällen ist das unnötig.

🌙 Offiziell empfohlene Einstellungen:

Laut Moonshot AIsind dies die empfohlenen Einstellungen für die Kimi-K2-Thinking Inferenz:

Setze das Temperatur 1.0 um Wiederholungen und Inkohärenz zu reduzieren.
Vorgeschlagene Kontextlänge = 98.304 (bis zu 256K)
Hinweis: Die Verwendung unterschiedlicher Tools kann unterschiedliche Einstellungen erfordern

Wir empfehlen, min_p auf 0,01 zu setzen um das Auftreten unwahrscheinlicher Token mit niedrigen Wahrscheinlichkeiten zu unterdrücken.

Zum Beispiel erhalten wir bei einer Nutzerfrage "Was ist 1+1?":

<|im_system|>system<|im_middle|>Du bist Kimi, ein von Moonshot AI erstellter KI-Assistent.<|im_end|><|im_user|>user<|im_middle|>Was ist 1+1?<|im_end|><|im_assistant|>assistant<|im_middle|>

✨ Kimi K2 Thinking in llama.cpp ausführen

Du kannst jetzt das neueste Update von llama.cpp verwenden, um das Modell auszuführen:

Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp

Wenn du llama.cpp direkt zum Laden von Modellen kannst du Folgendes tun: (:UD-TQ1_0) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwenden Sie export LLAMA_CACHE="folder" um llama.cpp um an einen bestimmten Ort zu speichern.

export LLAMA_CACHE="unsloth/Kimi-K2-Thinking-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Kimi-K2-Thinking-GGUF:UD-TQ1_0 \
    --n-gpu-layers 99 \
    --temp 1.0 \
    --min-p 0.01 \
    --ctx-size 16384 \
    --seed 3407 \
    -ot ".ffn_.*_exps.=CPU"

Obiges wird etwa 8GB GPU-Speicher verwenden. Wenn du etwa 360GB kombinierten GPU-Speicher hast, entferne -ot ".ffn_.*_exps.=CPU" um maximale Geschwindigkeit zu erzielen!

Bitte probieren Sie -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf einer GPU unterbringen, was die Generationsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Schichten zu verschieben, wenn Sie mehr GPU-Kapazität haben.

Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert Up- und Down-Projektions-MoE-Schichten aus.

Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur Up-Projektions-MoE-Schichten aus.

Und schließlich lagern Sie alle Schichten über -ot ".ffn_.*_exps.=CPU" aus.

Sie können auch den Regex anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, aber nur ab der 6. Schicht.

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Wir empfehlen unser 2-Bit Dynamic Quant UD-Q2_K_XL zu verwenden, um Größe und Genauigkeit auszubalancieren. Alle Versionen unter: huggingface.co/unsloth/Kimi-K2-Thinking-GGUF

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Kann manchmal Ratenbegrenzung verursachen, also auf 0 setzen, um zu deaktivieren
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Kimi-K2-Thinking-GGUF",
    local_dir = "unsloth/Kimi-K2-Thinking-GGUF",
    allow_patterns = ["*UD-TQ1_0*"], # Verwende "*UD-Q2_K_XL*" für Dynamic 2bit (381GB)
)

Wenn du feststellst, dass Downloads bei etwa 90 bis 95% stecken bleiben, siehe bitte https://docs.unsloth.ai/basics/troubleshooting-and-faqs#downloading-gets-stuck-at-90-to-95

Führe beliebige Prompts aus.
Bearbeiten --threads -1 für die Anzahl der CPU-Threads (standardmäßig ist es auf die maximale Anzahl der CPU-Threads gesetzt), für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 --n-gpu-layers 99 für GPU-Auslagerung, auf wie viele Schichten. Setze es auf 99 in Kombination mit MoE-CPU-Auslagerung, um die beste Leistung zu erzielen. Versuche es anzupassen, wenn deine GPU keinen Speicher mehr hat. Entferne es auch, wenn du nur CPU-Inferenz nutzt.

./llama.cpp/llama-cli \
    --model unsloth/Kimi-K2-Thinking-GGUF/UD-TQ1_0/Kimi-K2-Thinking-UD-TQ1_0-00001-of-00006.gguf \
    --n-gpu-layers 99 \
    --temp 1.0 \
    --min_p 0.01 \
    --ctx-size 16384 \
    --seed 3407 \
    -ot ".ffn_.*_exps.=CPU"

🤔Keine Thinking-Tags?

Du wirst vielleicht bemerken, dass keine Denken Tags vorhanden sind, wenn du das Modell ausführst. Das ist normales und beabsichtigtes Verhalten.

In deinem llama.cpp Skript, stelle sicher, dass du das --special Flag ganz am Ende deines Befehls einschließt. Sobald du das tust, wirst du das <think> Token wie erwartet erscheinen sehen.

OLLAMA_MODELS=unsloth ollama run merged_file.gguf

Nachdem du llama.cpp gemäß Kimi K2 Thinkinginstalliert hast, kannst du Folgendes verwenden, um einen OpenAI-kompatiblen Server zu starten:

./llama.cpp/llama-server \
    --model unsloth/Kimi-K2-Thinking-GGUF/UD-TQ1_0/Kimi-K2-Thinking-UD-TQ1_0-00001-of-00006.gguf \
    --alias "unsloth/Kimi-K2-Thinking" \
    -fa on \
    --n-gpu-layers 999 \
    -ot ".ffn_.*_exps.=CPU" \
    --min_p 0.01 \
    --ctx-size 16384 \
    --port 8001 \
    --jinja

--port 8001 \ pip install openai :

from openai import OpenAI
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Kimi-K2-Thinking",
    messages = [{"role": "user", "content": "Was ist 2+2?"},],
)
print(completion.choices[0].message.content)

🔍Tokenizer-Eigenheiten und Fehlerbehebungen

7. November 2025: Wir haben das Kimi-Team informiert und den Standard-System-Prompt von Du bist Kimi, ein von Moonshot AI erstellter KI-Assistent. beim ersten Nutzer-Prompt nicht angezeigt! behoben Tool Calling mit GLM 4.7 https://huggingface.co/moonshotai/Kimi-K2-Thinking/discussions/12

Großen Dank an das Moonshot Kimi-Team für ihre extrem schnelle Reaktionszeit auf unsere Anfragen und dafür, das Problem so schnell wie möglich zu beheben!

16. Juli 2025: Kimi K2 hat seinen Tokenizer aktualisiert, um mehrere Tool-Aufrufe zu ermöglichen laut https://x.com/Kimi_Moonshot/status/1945050874067476962

18. Juli 2025: Wir haben einen System-Prompt behoben – Kimi hat unseren Fix ebenfalls hier getwittert: https://x.com/Kimi_Moonshot/status/1946130043446690030. Die Korrektur wurde auch hier beschrieben: https://huggingface.co/moonshotai/Kimi-K2-Instruct/discussions/28

Wenn du die alten Checkpoints heruntergeladen hast – keine Sorge – lade einfach das erste GGUF-Split herunter, das geändert wurde. ODER wenn du keine neuen Dateien herunterladen möchtest, mache:

wget https://huggingface.co/unsloth/Kimi-K2-Instruct/raw/main/chat_template.jinja
./llama.cpp ... --chat-template-file /dir/to/chat_template.jinja

Der Kimi K2 Tokenizer war interessant zum Ausprobieren - er verhält sich größtenteils ähnlich wie der Tokenizer von GPT-4o! Wir sehen zuerst in der tokenization_kimi.py Datei den folgenden regulären Ausdruck (Regex), den Kimi K2 verwendet:

pat_str = "|".join(
    [
        r"""[\p{Han}]+""",
        r"""[^\r\n\p{L}\p{N}]?[\p{Lu}\p{Lt}\p{Lm}\p{Lo}\p{M}&&[^\p{Han}]]*[\p{Ll}\p{Lm}\p{Lo}\p{M}&&[^\p{Han}]]+(?i:'s|'t|'re|'ve|'m|'ll|'d)?""",
        r"""[^\r\n\p{L}\p{N}]?[\p{Lu}\p{Lt}\p{Lm}\p{Lo}\p{M}&&[^\p{Han}]]+[\p{Ll}\p{Lm}\p{Lo}\p{M}&&[^\p{Han}]]*(?i:'s|'t|'re|'ve|'m|'ll|'d)?""",
        r"""\p{N}{1,3}""",
        r""" ?[^\s\p{L}\p{N}]+[\r\n]*""",
        r"""\s*[\r\n]+""",
        r"""\s+(?!\S)""",
        r"""\s+""",
    ]
)

Nach sorgfältiger Überprüfung stellen wir fest, dass Kimi K2 dem Regex des GPT-4o-Tokenizers nahezu identisch ist, welcher zu finden ist in llama.cpp Quellcode.

[^\r\n\p{L}\p{N}]?[\p{Lu}\p{Lt}\p{Lm}\p{Lo}\p{M}]*[\p{Ll}\p{Lm}\p{Lo}\p{M}]+(?i:'s|'t|'re|'ve|'m|'ll|'d)?|[^\r\n\p{L}\p{N}]?[\p{Lu}\p{Lt}\p{Lm}\p{Lo}\p{M}]+[\p{Ll}\p{Lm}\p{Lo}\p{M}]*(?i:'s|'t|'re|'ve|'m|'ll|'d)?|\p{N}{1,3}| ?[^\s\p{L}\p{N}]+[\r\n/]*|\s*[\r\n]+|\s+(?!\S)|\s+

Beide tokenisieren Zahlen in Gruppen von 1 bis 3 Ziffern (9, 99, 999) und verwenden ähnliche Muster. Der einzige Unterschied scheint die Handhabung von "Han" oder chinesischen Zeichen zu sein, mit der Kimis Tokenizer stärker umgeht. Der PR von https://github.com/gabriellarson behandelt diese Unterschiede gut nach einigen Diskussionen hier.

Wir stellen auch fest, dass das korrekte EOS-Token nicht [EOS] sein sollte, sondern vielmehr <|im_end|>, was wir ebenfalls in unseren Modellkonversionen korrigiert haben.

🌝Kimi-K2-Instruct Leitfaden

Schritt-für-Schritt-Anleitung zum Ausführen der Instruct Kimi K2-Modelle einschließlich Kimi K2 0905 – dem Update vom 5. September.

🌙 Offiziell empfohlene Einstellungen:

Laut Moonshot AI, dies sind die empfohlenen Einstellungen für die Kimi K2 Inferenz:

Setze das Temperatur 0,6 um Wiederholungen und Inkohärenz zu reduzieren.
Ursprünglicher Standard-System-Prompt ist:
```
Du bist ein hilfreicher Assistent
```
(Optional) Moonshot schlägt außerdem Folgendes für den System-Prompt vor:
```
Du bist Kimi, ein von Moonshot AI erstellter KI-Assistent.
```

Wir empfehlen, min_p auf 0,01 zu setzen um das Auftreten unwahrscheinlicher Token mit niedrigen Wahrscheinlichkeiten zu unterdrücken.

🔢 Chat-Vorlage und Prompt-Format

<|im_system|>system<|im_middle|>Du bist ein hilfreicher Assistent<|im_end|><|im_user|>user<|im_middle|>Was ist 1+1?<|im_end|><|im_assistant|>assistant<|im_middle|>2<|im_end|>

Um die konversationellen Grenzen zu trennen (du musst jede neue Zeile entfernen), erhalten wir:

<|im_system|>system<|im_middle|>Du bist ein hilfreicher Assistent<|im_end|>
<|im_user|>user<|im_middle|>Was ist 1+1?<|im_end|>
<|im_assistant|>assistant<|im_middle|>2<|im_end|>

💾 Modell-Uploads

ALLE unsere Uploads - einschließlich solcher, die nicht imatrix-basiert oder dynamisch sind, nutze unseren Kalibrierungsdatensatz, der speziell für konversationelle, Kodierungs- und Schlussfolgerungsaufgaben optimiert ist.

MoE Bits

Typ + Link

Platzbedarf auf Datenträger

Details

1,66bit

UD-TQ1_0

245GB

1,92/1,56bit

1,78bit

UD-IQ1_S

281GB

2,06/1,56bit

1,93bit

UD-IQ1_M

304GB

2.5/2.06/1.56

2,42bit

UD-IQ2_XXS

343GB

2,5/2,06bit

2,71bit

empfehlen die Verwendung unseres 2,7-Bit Dynamic Quant

381GB

3,5/2,5bit

3,12bit

UD-IQ3_XXS

417GB

3,5/2,06bit

3,5bit

UD-Q3_K_XL

452GB

4,5/3,5bit

4,5bit

UD-Q4_K_XL

588GB

5,5/4,5bit

5,5bit

UD-Q5_K_XL

732GB

6,5/5,5bit

Wir haben auch Versionen in BF16-Format.

✨ Instruct in llama.cpp ausführen

Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split llama-mtmd-cli
cp llama.cpp/build/bin/llama-* llama.cpp

Wenn du llama.cpp direkt zum Laden von Modellen kannst du Folgendes tun: (:UD-IQ1_S) ist der Quantisierungstyp. Du kannst auch über Hugging Face herunterladen (Punkt 3). Das ist ähnlich wie ollama run . Verwenden Sie export LLAMA_CACHE="folder" um llama.cpp um an einen bestimmten Ort zu speichern. Um das neue September-2025-Update für das Modell auszuführen, ändere den Modellnamen von 'Kimi-K2-Instruct' zu 'Kimi-K2-Instruct-0905'.

Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert Up- und Down-Projektions-MoE-Schichten aus.

Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur Up-Projektions-MoE-Schichten aus.

Und schließlich lagern Sie alle Schichten über -ot ".ffn_.*_exps.=CPU" aus.

export LLAMA_CACHE="unsloth/Kimi-K2-Instruct-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Kimi-K2-Instruct-GGUF:TQ1_0 \
    --n-gpu-layers 99 \
    --temp 0.6 \
    --min-p 0.01 \
    --ctx-size 16384 \
    --seed 3407 \
    -ot ".ffn_.*_exps.=CPU"

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können wählen UD-TQ1_0(dynamisches 1,8bit Quant) oder andere quantisierte Versionen wie Q2_K_XL Q4_K_XL wir empfehlen die Verwendung unseres 2-Bit Dynamic Quants empfehlen die Verwendung unseres 2,7-Bit Dynamic Quant UD-Q2_K_XL. Mehr Versionen unter: huggingface.co/unsloth/Kimi-K2-Instruct-GGUF

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Kann manchmal Ratenbegrenzung verursachen, also auf 0 setzen, um zu deaktivieren
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Kimi-K2-Instruct-GGUF",
    local_dir = "unsloth/Kimi-K2-Instruct-GGUF",
    allow_patterns = ["*UD-TQ1_0*"], # Dynamic 1bit (281GB) Verwende "*UD-Q2_K_XL*" für Dynamic 2bit (381GB)
)

Wenn du feststellst, dass Downloads bei etwa 90 bis 95% stecken bleiben, siehe bitte https://docs.unsloth.ai/basics/troubleshooting-and-faqs#downloading-gets-stuck-at-90-to-95

Führe beliebige Prompts aus.
Bearbeiten --threads -1 für die Anzahl der CPU-Threads (standardmäßig ist es auf die maximale Anzahl der CPU-Threads gesetzt), für die Anzahl der CPU-Threads bearbeiten, --ctx-size 16384 --n-gpu-layers 99 für GPU-Auslagerung, auf wie viele Schichten. Setze es auf 99 in Kombination mit MoE-CPU-Auslagerung, um die beste Leistung zu erzielen. Versuche es anzupassen, wenn deine GPU keinen Speicher mehr hat. Entferne es auch, wenn du nur CPU-Inferenz nutzt.

./llama.cpp/llama-cli \
    --model unsloth/Kimi-K2-Instruct-GGUF/UD-TQ1_0/Kimi-K2-Instruct-UD-TQ1_0-00001-of-00005.gguf \
    --n-gpu-layers 99 \
    --temp 0.6 \
    --min_p 0.01 \
    --ctx-size 16384 \
    --seed 3407 \
    -ot ".ffn_.*_exps.=CPU"

🐦 Flappy Bird + andere Tests

Wir haben den Flappy Bird-Test eingeführt, als unsere 1,58bit Quants für DeepSeek R1 bereitgestellt wurden. Wir fanden Kimi K2 eines der wenigen Modelle, die alle unsere Aufgaben im One-Shot gelöst haben, einschließlich dieses hier, Heptagon und andere Tests sogar bei 2-Bit. Das Ziel ist es, das LLM zu bitten, ein Flappy Bird-Spiel zu erstellen, aber einige spezifische Anweisungen zu befolgen:

Erstelle ein Flappy Bird-Spiel in Python. Du musst Folgendes einbeziehen:
1. Du musst pygame verwenden.
2. Die Hintergrundfarbe sollte zufällig gewählt sein und einen hellen Ton haben. Beginne mit einer hellblauen Farbe.
3. Mehrmaliges Drücken der LEERTASTE beschleunigt den Vogel.
4. Die Form des Vogels sollte zufällig als Quadrat, Kreis oder Dreieck gewählt werden. Die Farbe sollte zufällig als dunkle Farbe gewählt werden.
5. Platziere unten etwas Land, das zufällig dunkelbraun oder gelb gefärbt ist.
6. Zeige eine Punktzahl oben rechts an. Erhöhe sie, wenn du Rohre passiert und nicht getroffen hast.
7. Erzeuge zufällig platzierte Rohre mit genügend Abstand. Färbe sie zufällig dunkelgrün oder hellbraun oder in einem dunklen Grauton.
8. Wenn du verlierst, zeige die Bestpunktzahl. Mache den Text innerhalb des Bildschirms. Das Drücken von q oder Esc beendet das Spiel. Neustarten erfolgt durch erneutes Drücken der LEERTASTE.
Das endgültige Spiel sollte innerhalb eines Markdown-Abschnitts in Python sein. Überprüfe deinen Code auf Fehler und behebe sie vor dem finalen Markdown-Abschnitt.

Du kannst die dynamischen Quants auch über den Heptagon-Test testen, laut r/Localllama welches das Modell darin testet, eine grundlegende Physik-Engine zu erstellen, um Kugeln rotierend in einer sich bewegenden, eingeschlossenen Heptagon-Form zu simulieren.

Das Ziel ist, das Heptagon rotieren zu lassen, und die Kugeln im Heptagon sollten sich bewegen. Die Prompt ist unten:

Schreibe ein Python-Programm, das 20 Bälle zeigt, die in einem rotierenden Heptagon aufspringen:\n- Alle Bälle haben denselben Radius.\n- Alle Bälle haben eine Nummer von 1 bis 20.\n- Alle Bälle fallen beim Start vom Zentrum des Heptagons.\n- Farben sind: #f8b862, #f6ad49, #f39800, #f08300, #ec6d51, #ee7948, #ed6d3d, #ec6800, #ec6800, #ee7800, #eb6238, #ea5506, #ea5506, #eb6101, #e49e61, #e45e32, #e17b34, #dd7a56, #db8449, #d66a35\n- Die Bälle sollten von Schwerkraft und Reibung beeinflusst werden und müssen realistisch von den rotierenden Wänden abprallen. Es sollte auch Kollisionen zwischen den Bällen geben.\n- Das Material aller Bälle bestimmt, dass ihre Aufprall-Rücksprunghöhe den Radius des Heptagons nicht überschreiten wird, aber höher als der Ballradius sein soll.\n- Alle Bälle rotieren mit Reibung, die Zahlen auf den Bällen können verwendet werden, um die Rotation der Bälle anzuzeigen.\n- Das Heptagon dreht sich um sein Zentrum, und die Drehgeschwindigkeit beträgt 360 Grad pro 5 Sekunden.\n- Die Größe des Heptagons sollte groß genug sein, um alle Bälle zu enthalten.\n- Verwende nicht die pygame-Bibliothek; implementiere Kollisionsdetektionsalgorithmen und Kollisionsantworten etc. selbst. Die folgenden Python-Bibliotheken sind erlaubt: tkinter, math, numpy, dataclasses, typing, sys.\n- Alle Codes sollten in einer einzigen Python-Datei abgelegt werden.

VorherigeDeepSeek-OCR NächsteGLM-4.6

Zuletzt aktualisiert vor 10 Stunden

War das hilfreich?

hashtag⚙️ Empfohlene Anforderungen

hashtag💭Kimi-K2-Thinking Leitfaden

hashtag🌙 Offiziell empfohlene Einstellungen:

hashtag✨ Kimi K2 Thinking in llama.cpp ausführen

hashtag🤔Keine Thinking-Tags?

hashtagOLLAMA_MODELS=unsloth ollama run merged_file.gguf

hashtag🔍Tokenizer-Eigenheiten und Fehlerbehebungen

hashtag🌝Kimi-K2-Instruct Leitfaden

hashtag🌙 Offiziell empfohlene Einstellungen:

hashtag🔢 Chat-Vorlage und Prompt-Format

hashtag💾 Modell-Uploads

hashtag✨ Instruct in llama.cpp ausführen

hashtag🐦 Flappy Bird + andere Tests

⚙️ Empfohlene Anforderungen

💭Kimi-K2-Thinking Leitfaden

🌙 Offiziell empfohlene Einstellungen:

✨ Kimi K2 Thinking in llama.cpp ausführen

🤔Keine Thinking-Tags?

OLLAMA_MODELS=unsloth ollama run merged_file.gguf

🔍Tokenizer-Eigenheiten und Fehlerbehebungen

🌝Kimi-K2-Instruct Leitfaden

🌙 Offiziell empfohlene Einstellungen:

🔢 Chat-Vorlage und Prompt-Format

💾 Modell-Uploads

✨ Instruct in llama.cpp ausführen

🐦 Flappy Bird + andere Tests