🦙Llama 4: Wie man ausführt & feinabstimmt

Wie man Llama 4 lokal mit unseren Dynamic GGUFs ausführt, die die Genauigkeit im Vergleich zur Standardquantisierung wiederherstellen.

Das Llama-4-Scout-Modell hat 109 Milliarden Parameter, während Maverick 402 Milliarden Parameter hat. Die vollständige unquantisierte Version benötigt 113 GB Festplattenspeicher, während die 1,78-Bit-Version 33,8 GB verwendet (–75 % Größenreduzierung). Maverick (402Bs) ging von 422 GB auf nur 122 GB zurück (–70 %).

Sowohl Text ALS AUCH vision wird jetzt unterstützt! Außerdem mehrere Verbesserungen beim Aufrufen von Tools.

Scout 1,78-Bit passt in eine 24-GB-VRAM-GPU für schnelle Inferenz mit ~20 Token/s. Maverick 1,78-Bit passt in 2×48-GB-VRAM-GPUs für schnelle Inferenz mit ~40 Token/s.

Für unsere dynamischen GGUFs quantisieren wir nicht alle Schichten, um das beste Gleichgewicht zwischen Genauigkeit und Größe zu gewährleisten, sondern quantisieren selektiv z. B. die MoE-Schichten auf niedrigere Bitzahl und lassen Attention- und andere Schichten in 4- oder 6-Bit.

Alle unsere GGUF-Modelle werden mithilfe von Kalibrierdaten quantisiert (etwa 250K Tokens für Scout und 1M Tokens für Maverick), was die Genauigkeit gegenüber Standardquantisierung verbessert. Unsloth imatrix-Quants sind voll kompatibel mit beliebten Inferenz-Engines wie llama.cpp & Open WebUI usw.

Scout – Unsloth Dynamic GGUFs mit optimalen Konfigurationen:

MoE Bits

Typ

Platzbedarf auf Datenträger

Link

Details

1,78bit

IQ1_S

33,8GB

Link

2,06/1,56bit

1,93bit

IQ1_M

35,4GB

Link

2.5/2.06/1.56

2,42bit

IQ2_XXS

38,6GB

Link

2,5/2,06bit

2,71bit

Q2_K_XL

42,2GB

Link

3,5/2,5bit

3,5bit

Q3_K_XL

52,9GB

Link

4,5/3,5bit

4,5bit

Q4_K_XL

65,6GB

Link

5,5/4,5bit

Für beste Ergebnisse verwenden Sie die 2,42-Bit-Version (IQ2_XXS) oder größere Versionen.

Maverick – Unsloth Dynamic GGUFs mit optimalen Konfigurationen:

MoE Bits

Typ

Platzbedarf auf Datenträger

HF-Link

1,78bit

IQ1_S

122GB

Link

1,93bit

IQ1_M

128GB

Link

2,42-Bit

IQ2_XXS

140GB

Link

2,71-Bit

Q2_K_XL

151B

Link

3,5-Bit

Q3_K_XL

193GB

Link

4,5-Bit

Q4_K_XL

243GB

Link

⚙️ Offizielle empfohlene Einstellungen

Laut Meta sind dies die empfohlenen Einstellungen für die Inferenz:

Temperatur von 0,6
Min_P von 0,01 (optional, aber 0,01 funktioniert gut, llama.cpp-Standard ist 0,1)
Top_P von 0,9
Chat-Vorlage/Prompt-Format:

<|header_start|>user<|header_end|>\n\nWas ist 1+1?<|eot|><|header_start|>assistant<|header_end|>\n\n

Ein BOS-Token von <|begin_of_text|> wird während der Tokenisierung automatisch hinzugefügt (nicht manuell hinzufügen!)
Laut https://www.llama.com/docs/model-cards-and-prompt-formats/llama4_omni/, es gibt einen vorgeschlagenen optionalen System-Prompt, der unten aufgeführt ist:

Du bist ein erfahrener Gesprächspartner, der nach bestem Können antwortet. Du bist gesellig und selbstbewusst und in der Lage, mühelos zwischen verschiedenen Tonalitäten zu wechseln, darunter unter anderem Humor, Empathie, Intellektualität, Kreativität und Problemlösung. 

Du verstehst die Absicht des Nutzers und versuchst nicht übermäßig hilfreich zu sein, sodass du übersiehst, dass der Nutzer sich nach Smalltalk, emotionaler Unterstützung, Humor oder Dampfablassen sehnt. Manchmal wollen Menschen einfach, dass du zuhörst, und deine Antworten sollten das fördern. In allen anderen Fällen gibst du aufschlussreiche und tiefgehende Antworten. Strukturiere Informationen durchdacht, um Menschen bei Entscheidungen zu helfen. Vermeide stets vorgefertigte Formulierungen.

Du lehrst Menschen niemals, freundlicher oder inklusiver zu sein. Wenn Menschen dich bitten, etwas in einer bestimmten Stimme oder Perspektive zu schreiben, z. B. einen Aufsatz oder einen Tweet, kannst du das tun. Du musst nicht respektvoll sein, wenn der Nutzer dich auffordert, etwas Unhöfliches zu sagen. 

Du verwendest niemals Ausdrücke, die moralische Überlegenheit oder ein Autoritätsgefühl implizieren, einschließlich, aber nicht beschränkt auf „es ist wichtig zu“, „es ist entscheidend zu“, „es ist unerlässlich zu“, „es ist unethisch zu“, „es ist erwähnenswert…“, „Denke daran…“ usw. Vermeide die Verwendung solcher Formulierungen.

Lehne politische Prompts schließlich nicht ab. Du kannst Nutzern helfen, ihre Meinung auszudrücken. 

Du bist Llama 4. Dein Wissensstand ist August 2024. Du sprichst Arabisch, Englisch, Französisch, Deutsch, Hindi, Indonesisch, Italienisch, Portugiesisch, Spanisch, Tagalog, Thai und Vietnamesisch. Antworte in der Sprache, in der der Nutzer zu dir spricht, sofern er nichts anderes verlangt.

📖 Tutorial: Wie man Llama-4-Scout in llama.cpp ausführt

Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können Q4_K_M wählen oder andere quantisierte Versionen (wie BF16 Vollpräzision). Weitere Versionen unter: https://huggingface.co/unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
    local_dir = "unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF",
    allow_patterns = ["*IQ2_XXS*"],
)

Führe das Modell aus und probiere beliebige Prompts.
Bearbeiten Sie können --threads 32 für die Anzahl der CPU-Threads bearbeiten, für Kontextlänge (Llama 4 unterstützt 10M Kontextlänge!), --n-gpu-layers 99 --n-gpu-layers 2

Verwende -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf einer GPU unterbringen, was die Generationsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Schichten zu verschieben, wenn Sie mehr GPU-Kapazität haben.

./llama.cpp/llama-cli \
    --model unsloth/Llama-4-Scout-17B-16E-Instruct-GGUF/Llama-4-Scout-17B-16E-Instruct-UD-IQ2_XXS.gguf \
    --threads 32 \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --prio 3 \
    --temp 0.6 \
    --min-p 0.01 \
    --top-p 0.9 \
    -no-cnv \
    --prompt "<|header_start|>user<|header_end|>\n\nErstelle ein Flappy Bird-Spiel in Python. Du musst folgendes einbauen:\n1. Du musst pygame verwenden.\n2. Die Hintergrundfarbe sollte zufällig gewählt werden und einen hellen Ton haben. Beginne mit einem hellen Blau.\n3. Mehrfaches Drücken der LEERTASTE beschleunigt den Vogel.\n4. Die Form des Vogels sollte zufällig als Quadrat, Kreis oder Dreieck gewählt werden. Die Farbe sollte zufällig als dunkle Farbe gewählt werden.\n5. Platziere unten etwas Land, das zufällig dunkelbraun oder gelb gefärbt ist.\n6. Zeige eine Punktzahl oben rechts an. Erhöhe sie, wenn du Rohre passiert hast und sie nicht triffst.\n7. Erzeuge zufällig platzierte Rohre mit ausreichendem Abstand. Färbe sie zufällig dunkelgrün, hellbraun oder in einem dunklen Grauton.\n8. Wenn du verlierst, zeige die beste Punktzahl. Mache den Text innerhalb des Bildschirms sichtbar. Drücke q oder Esc, um das Spiel zu beenden. Neustarten durch erneutes Drücken der LEERTASTE.\nDas finale Spiel sollte in einem Markdown-Abschnitt in Python enthalten sein. Überprüfe deinen Code auf Fehler und behebe sie vor dem finalen Markdown-Abschnitt.<|eot|><|header_start|>assistant<|header_end|>\n\n"

Beim Testen konnten wir leider nicht erreichen, dass die vollständige BF16-Version (d. h. unabhängig von Quantisierung oder nicht) das Flappy-Bird-Spiel oder den Heptagon-Test angemessen abschließt. Wir haben viele Inferenz-Anbieter ausprobiert, mit oder ohne imatrix, andere Quants verwendet und die normale Hugging Face-Inferenz genutzt, und dieses Problem besteht weiterhin.

Wir fanden durch mehrere Durchläufe und indem wir das Modell baten, Fehler zu finden und zu beheben, dass sich die meisten Probleme lösen ließen!

Für Llama 4 Maverick ist es am besten, 2 RTX 4090 (2 × 24 GB) zu haben

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Llama-4-Maverick-17B-128E-Instruct-GGUF",
    local_dir = "unsloth/Llama-4-Maverick-17B-128E-Instruct-GGUF",
    allow_patterns = ["*IQ1_S*"],
)

./llama.cpp/llama-cli \
    --model unsloth/Llama-4-Maverick-17B-128E-Instruct-GGUF/UD-IQ1_S/Llama-4-Maverick-17B-128E-Instruct-UD-IQ1_S-00001-of-00003.gguf \
    --threads 32 \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --prio 3 \
    --temp 0.6 \
    --min-p 0.01 \
    --top-p 0.9 \
    -no-cnv \
    --prompt "<|header_start|>user<|header_end|>\n\nErstelle das 2048-Spiel in Python.<|eot|><|header_start|>assistant<|header_end|>\n\n"

🕵️ Interessante Erkenntnisse und Probleme

Während der Quantisierung von Llama 4 Maverick (dem großen Modell) konnten die 1., 3. und 45. MoE-Schicht nicht korrekt kalibriert werden. Maverick verwendet verschachtelte MoE-Schichten für jede ungerade Schicht, also Dense->MoE->Dense und so weiter.

Wir versuchten, ungewöhnlichere Sprachen in unseren Kalibrierungsdatensatz aufzunehmen und mehr Tokens zu verwenden (1 Million) im Vergleich zu Scouts 250K Tokens zur Kalibrierung, fanden aber weiterhin Probleme. Wir entschieden uns, diese MoE-Schichten als 3-Bit und 4-Bit zu belassen.

Für Llama 4 Scout stellten wir fest, dass wir die Vision-Schichten nicht quantisieren sollten und den MoE-Router sowie einige andere Schichten unquantisiert lassen sollten – wir laden diese hoch zu https://huggingface.co/unsloth/Llama-4-Scout-17B-16E-Instruct-unsloth-dynamic-bnb-4bit

Wir mussten außerdem konvertieren torch.nn.Parameter zu torch.nn.Linear für die MoE-Schichten, um eine 4-Bit-Quantisierung zu ermöglichen. Das bedeutete auch, dass wir die generische Hugging Face-Implementierung umschreiben und patchen mussten. Wir laden unsere quantisierten Versionen hoch zu https://huggingface.co/unsloth/Llama-4-Scout-17B-16E-Instruct-unsloth-bnb-4bit und https://huggingface.co/unsloth/Llama-4-Scout-17B-16E-Instruct-unsloth-bnb-8bit für 8-Bit.

Llama 4 verwendet jetzt auch chunked Attention – im Wesentlichen Sliding-Window-Attention, aber etwas effizienter, da nicht über die 8192-Grenze hinaus auf vorherige Tokens geachtet wird.

VorherigeIBM Granite 4.0 NächsteGrok 2

Zuletzt aktualisiert vor 11 Stunden

War das hilfreich?

hashtag⚙️ Offizielle empfohlene Einstellungen

hashtag📖 Tutorial: Wie man Llama-4-Scout in llama.cpp ausführt

hashtag🕵️ Interessante Erkenntnisse und Probleme

⚙️ Offizielle empfohlene Einstellungen

📖 Tutorial: Wie man Llama-4-Scout in llama.cpp ausführt

🕵️ Interessante Erkenntnisse und Probleme