🌠Qwen3-2507: Anleitung zum lokalen Betrieb

Führe Qwen3-30B-A3B-2507 und 235B-A22B Thinking- und Instruct-Versionen lokal auf deinem Gerät aus!

Qwen veröffentlichte im Juli 2025 (2507) Updates für ihre Qwen3 4B-, 30B- und 235B-Modelle und führte sowohl „Thinking“- als auch „Non-Thinking“-Varianten ein. Das Non-Thinking 'Qwen3-30B-A3B-Instruct-2507' und 'Qwen3-235B-A22B-Instruct-2507' verfügt über ein 256K-Kontextfenster, verbesserte Anweisungsfolgebefolgung, mehrsprachige Fähigkeiten und Alignment.

Die Thinking-Modelle 'Qwen3-30B-A3B-Thinking-2507' und 'Qwen3-235B-A22B-Thinking-2507' zeichnen sich durch Schlussfolgerungsfähigkeiten aus; das 235B erreicht SOTA-Ergebnisse in Logik, Mathematik, Naturwissenschaften, Programmierung und fortgeschrittenen akademischen Aufgaben.

Unsloth unterstützt jetzt auch Fine-Tuning und Verstärkungslernen (Reinforcement Learning, RL) der Qwen3-2507-Modelle — 2x schneller, mit 70% weniger VRAM und 8x längeren Kontextlängen

30B-A3B ausführen 235B-A22B ausführen Qwen3-2507 feinabstimmen

Unsloth Dynamic 2.0 GGUFs:

Modell

GGUFs zum Ausführen:

Qwen3-4B-2507

Instruct • Thinking

Qwen3-30B-A3B-2507

Instruct • Thinking

Qwen3-235B-A22B-2507

Instruct • Thinking

⚙️Beste Praktiken

Die Einstellungen für das Thinking- und das Instruct-Modell sind unterschiedlich. Das Thinking-Modell verwendet temperature = 0.6, das Instruct-Modell verwendet jedoch temperature = 0.7 Das Thinking-Modell verwendet top_p = 0.95, das Instruct-Modell verwendet jedoch top_p = 0.8

Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen:

Instruct-Modell-Einstellungen:

Thinking-Modell-Einstellungen:

Temperatur = 0,7

Temperature = 0.6

Min_P = 0.00 (llama.cpps Standard ist 0.1)

Top_P = 0.80

Top_P = 0,95

TopK = 20

presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden)

Angemessene Ausgabelänge: Verwenden Sie eine Ausgabelänge von 32,768 Token für die meisten Anfragen, was für die meisten Anfragen ausreichend ist.

Chat-Vorlage für beide: Thinking (Thinking hat <think></think>) und Instruct ist unten:

<|im_start|>user
Hey there!<|im_end|>
<|im_start|>assistant
What is 1+1?<|im_end|>
<|im_start|>user
2<|im_end|>
<|im_start|>assistant

📖 Qwen3-30B-A3B-2507 Tutorials ausführen

Unten stehen Anleitungen für die Thinking und Instruct Versionen des Modells.

Instruct: Qwen3-30B-A3B-Instruct-2507

Da dies ein Non-Thinking-Modell ist, ist es nicht notwendig, thinking=False und das Modell erzeugt nicht <think> </think> Blöcke.

⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:

Wir empfehlen die Verwendung von temperature=0.7, top_p=0.8, top_k=20 und min_p=0.0 presence_penalty zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.
temperature = 0.7
top_k = 20
min_p = 0.00 (llama.cpps Standard ist 0.1)
top_p = 0.80
presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.
Unterstützt bis zu 262,144 Kontext nativ, aber Sie können ihn auf 32,768 Token für weniger RAM-Verbrauch setzen

🦙 Ollama: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

In Ollama ausführen Installieren Sie falls Sie es noch nicht getan haben! Sie können nur Modelle bis zu einer Größe von 32B ausführen.

apt-get update
siehe hier
apt-get install pciutils -y

curl -fsSL https://ollama.com/install.sh | sh Führen Sie das Modell aus! Beachten Sie, dass Sieollama serve in einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in params

ollama run hf.co/unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:UD-Q4_K_XL

✨ Llama.cpp: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Sie können direkt von HuggingFace ziehen via:

./llama.cpp/llama-cli \
    -hf unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32768 \
    --temp 0.7 --min-p 0.0 --top-p 0.80 --top-k 20 --presence-penalty 1.0

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können UD_Q4_K_XL oder andere quantisierte Versionen wählen.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF",
    local_dir = "unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

Thinking: Qwen3-30B-A3B-Thinking-2507

Dieses Modell unterstützt nur den Thinking-Modus und ein 256K-Kontextfenster nativ. Die Standard-Chat-Vorlage fügt <think> automatisch hinzu, sodass Sie möglicherweise nur ein schließendes </think> Tag in der Ausgabe sehen.

⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:

Wir empfehlen die Verwendung von temperature=0.6, top_p=0.95, top_k=20 und min_p=0.0 presence_penalty zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.
temperature = 0.6
top_k = 20
min_p = 0.00 (llama.cpps Standard ist 0.1)
top_p = 0.95
presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.
Unterstützt bis zu 262,144 Kontext nativ, aber Sie können ihn auf 32,768 Token für weniger RAM-Verbrauch setzen

🦙 Ollama: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

In Ollama ausführen Installieren Sie falls Sie es noch nicht getan haben! Sie können nur Modelle bis zu einer Größe von 32B ausführen. Um die vollständigen 235B-A22B-Modelle auszuführen, falls Sie es noch nicht getan haben! Um weitere Varianten des Modells auszuführen,.

apt-get update
siehe hier
apt-get install pciutils -y

curl -fsSL https://ollama.com/install.sh | sh Führen Sie das Modell aus! Beachten Sie, dass Sieollama serve in einem anderen Terminal aufrufen können, wenn es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) in params

ollama run hf.co/unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:UD-Q4_K_XL

✨ Llama.cpp: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Sie können direkt von Hugging Face ziehen via:

./llama.cpp/llama-cli \
    -hf unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF:Q4_K_XL \
    --jinja -ngl 99 --ctx-size 32768 \
    --temp 0.6 --min-p 0.0 --top-p 0.95 --top-k 20 --presence-penalty 1.0

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Sie können UD_Q4_K_XL oder andere quantisierte Versionen wählen.

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF",
    local_dir = "unsloth/Qwen3-30B-A3B-Thinking-2507-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*"],
)

📖 Ausführen Qwen3-235B-A22B-2507 Tutorials

Unten stehen Anleitungen für die Thinking und Instruct Versionen des Modells.

Thinking: Qwen3-235B-A22B-Thinking-2507

⚙️ Beste Praktiken

Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen für das Thinking-Modell:

temperature = 0.6
top_k = 20
min_p = 0.00 (llama.cpps Standard ist 0.1)
top_p = 0.95
presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard deaktiviert es, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie z. B. 1.0.
Angemessene Ausgabelänge: Verwenden Sie eine Ausgabelänge von 32,768 Token für die meisten Anfragen, was für die meisten Anfragen ausreichend ist.

✨Qwen3-235B-A22B-Thinking via llama.cpp ausführen:

Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen verwenden.

Wenn Sie eine vollpräzise unquantisierte Version, verwenden Sie unser Q8_K_XL, Q8_0 oder BF16 Versionen!

Hole dir die neueste llama.cpp auf GitHub hier. Du kannst auch den Build-Anweisungen unten folgen. Ändere -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Sie können llama.cpp direkt verwenden, um das Modell herunterzuladen, aber ich empfehle normalerweise die Verwendung von huggingface_hub Um llama.cpp direkt zu verwenden, führen Sie aus:

./llama.cpp/llama-cli \
    -hf unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF:Q2_K_XL \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --temp 0.6 \
    --min-p 0.0 \
    --top-p 0.95 \
    --top-k 20 \
    --presence-penalty 1.0

Laden Sie das Modell herunter (nach der Installation pip install huggingface_hub hf_transfer ). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Kann manchmal Ratenbegrenzung verursachen, also auf 0 setzen, um zu deaktivieren
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF",
    local_dir = "unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"],
)

Führe das Modell aus und probiere beliebige Prompts.
Bearbeiten --threads -1 --threads 32 --ctx-size 262114 für Kontextlänge, --n-gpu-layers 99 --n-gpu-layers 2

Verwende -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle Nicht-MoE-Schichten auf einer GPU unterbringen, was die Generationsgeschwindigkeit verbessert. Sie können den Regex-Ausdruck anpassen, um mehr Schichten zu verschieben, wenn Sie mehr GPU-Kapazität haben.

./llama.cpp/llama-cli \
    --model unsloth/Qwen3-235B-A22B-Thinking-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Thinking-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --seed 3407 \
    --temp 0.6 \
    --min-p 0.0 \
    --top-p 0.95 \
    --top-k 20
    --presence-penalty 1.0

Instruct: Qwen3-235B-A22B-Instruct-2507

Da dies ein Non-Thinking-Modell ist, ist es nicht notwendig, thinking=False und das Modell erzeugt nicht <think> </think> Blöcke.

⚙️Beste Praktiken

Um optimale Leistung zu erzielen, empfehlen wir die folgenden Einstellungen:

1. Sampling-Parameter: Wir schlagen vor, temperature=0.7, top_p=0.8, top_k=20 und min_p=0. presence_penalty zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.

2. Angemessene Ausgabelänge: Wir empfehlen die Verwendung einer Ausgabelänge von 16,384 Token für die meisten Anfragen, was für Instruct-Modelle ausreichend ist.

3. Ausgabeformat standardisieren: Wir empfehlen die Verwendung von Prompts, um Modell-Ausgaben beim Benchmarking zu standardisieren.

Mathematikaufgaben: Einschließen Bitte denken Sie Schritt für Schritt nach und geben Sie Ihre endgültige Antwort innerhalb von \boxed{} an. im Prompt.
Multiple-Choice-Fragen: Fügen Sie die folgende JSON-Struktur in den Prompt ein, um Antworten zu standardisieren: "Bitte zeigen Sie Ihre Wahl im Feld `answer` nur mit dem Buchstaben der Wahl, z. B. `"answer": "C".

✨Qwen3-235B-A22B-Instruct via llama.cpp ausführen:

Für Qwen3-235B-A22B werden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen verwenden.

Wenn Sie eine vollpräzise unquantisierte Version, verwenden Sie unser Q8_K_XL, Q8_0 oder BF16 Versionen!

Holen Sie sich das neueste llama.cpp auf GitHub hier. Sie können auch den untenstehenden Build-Anweisungen folgen. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn du keine GPU hast oder nur CPU-Inferenz möchtest. Für Apple Mac / Metal-Geräte, setze -DGGML_CUDA=OFF dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

2. Sie können llama.cpp direkt verwenden, um das Modell herunterzuladen, aber ich empfehle normalerweise die Verwendung von huggingface_hub Um llama.cpp direkt zu verwenden, führen Sie aus:\

./llama.cpp/llama-cli \
    -hf unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF:Q2_K_XL \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --temp 0.7 \
    --min-p 0.0 \
    --top-p 0.8 \
    --top-k 20 \
    --repeat-penalty 1.0

3. Laden Sie das Modell herunter via (nach der Installation von pip install huggingface_hub hf_transfer ). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "0" # Kann manchmal Ratenbegrenzung verursachen, also auf 0 setzen, um zu deaktivieren
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    local_dir = "unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*"],
)

4. Führen Sie das Modell aus und probieren Sie beliebige Prompts. 5. Bearbeiten Sie --threads -1 --threads 32 --ctx-size 262114 für Kontextlänge, --n-gpu-layers 99 --n-gpu-layers 2

./llama.cpp/llama-cli \
    --model unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF/UD-Q2_K_XL/Qwen3-235B-A22B-Instruct-2507-UD-Q2_K_XL-00001-of-00002.gguf \
    --ctx-size 16384 \
    --n-gpu-layers 99 \
    -ot ".ffn_.*_exps.=CPU" \
    --temp 0.7 \
    --min-p 0.0 \
    --top-p 0.8 \
    --top-k 20

🛠️ Generationsgeschwindigkeit verbessern

Wenn Sie mehr VRAM haben, können Sie versuchen, mehr MoE-Schichten auszulagern oder ganze Schichten selbst auszulagern.

Normalerweise, -ot ".ffn_.*_exps.=CPU" lagert alle MoE-Schichten auf die CPU aus! Dies ermöglicht effektiv, alle Nicht-MoE-Schichten auf 1 GPU unterzubringen und verbessert die Generationsgeschwindigkeit. Sie können den Regex-Ausdruck anpassen, um mehr Schichten unterzubringen, wenn Sie mehr GPU-Kapazität haben.

Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert Up- und Down-Projektions-MoE-Schichten aus.

Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur Up-Projektions-MoE-Schichten aus.

Sie können auch den Regex anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, aber nur ab der 6. Schicht.

Die neueste llama.cpp-Version führt außerdem einen Hochdurchsatzmodus ein. Verwenden Sie llama-parallel. Lesen Sie mehr darüber hier. Sie können auch den KV-Cache z. B. auf 4 Bit quantisieren, um z. B. VRAM-/RAM-Bewegungen zu reduzieren, was den Generationsprozess ebenfalls beschleunigen kann. Die nächste Abschnitt bespricht die KV-Cache-Quantisierung.

📐Wie man langen Kontext unterbringt

Um längeren Kontext unterzubringen, können Sie KV-Cache-Quantisierung verwenden, um die K- und V-Caches auf niedrigere Bits zu quantisieren. Dies kann auch die Generationsgeschwindigkeit erhöhen aufgrund reduzierter RAM-/VRAM-Datenbewegungen. Die erlaubten Optionen für K-Quantisierung (Standard ist f16) umfassen die untenstehenden.

--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1

Sie sollten die _1 Varianten für etwas erhöhte Genauigkeit verwenden, obwohl sie etwas langsamer sind. Zum Beispiel q4_1, q5_1 Probieren Sie also --cache-type-k q4_1

Sie können auch den V-Cache quantisieren, aber Sie müssen llama.cpp mit Flash Attention kompilieren Unterstützung via -DGGML_CUDA_FA_ALL_QUANTS=ON, und verwenden --flash-attn um es zu aktivieren. Nach der Installation von Flash Attention können Sie dann --cache-type-v q4_1

🦥 Qwen3-2507 mit Unsloth feinabstimmen

Unsloth macht Qwen3 und Qwen3-2507-Fine-Tuning 2x schneller, verwendet 70% weniger VRAM und unterstützt 8x längere Kontextlängen. Da Qwen3-2507 nur in einer 30B-Variante veröffentlicht wurde, bedeutet dies, dass Sie etwa eine 40GB A100-GPU benötigen, um das Modell mit QLoRA (4-Bit) feinabzustimmen.

Für ein Notebook: Da das Modell nicht in Colabs kostenlose 16GB-GPUs passt, müssen Sie eine 40GB A100 verwenden. Sie können unser Conversational-Notebook verwenden, aber den Datensatz durch einen Ihrer Wahl ersetzen. Diesmal müssen Sie in Ihrem Datensatz kein kombiniertes Reasoning aufnehmen, da das Modell kein Reasoning hat.

Qwen3 (14B) Reasoning- + Conversational-Notebook

Wenn Sie eine alte Version von Unsloth haben und/oder lokal feinabstimmen, installieren Sie die neueste Version von Unsloth:

pip install --upgrade --force-reinstall --no-cache-dir unsloth unsloth_zoo

Qwen3-2507 MOE-Modelle Fine-Tuning

Das Fine-Tuning unterstützt MOE-Modelle: 30B-A3B und 235B-A22B. Qwen3-30B-A3B funktioniert mit 30GB VRAM mit Unsloth. Beim Fine-Tuning von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht feinzuabstimmen, daher haben wir sie standardmäßig deaktiviert.

Qwen3-2507-4B-Notebooks für: Thinking und Instruct

Der 30B-A3B passt in 30GB VRAM, aber Sie könnten RAM- oder Festplattenspeicher vermissen, da das vollständige 16-Bit-Modell heruntergeladen und für QLoRA-Fine-Tuning on-the-fly in 4-Bit konvertiert werden muss. Dies liegt an Problemen beim direkten Import von 4-Bit BnB MOE-Modellen. Dies betrifft nur MOE-Modelle.

Wenn Sie die MOE-Modelle feinabstimmen, verwenden Sie bitte FastModel und nicht FastLanguageModel

from unsloth import FastModel
import torch
model, tokenizer = FastModel.from_pretrained(
    model_name = "unsloth/Qwen3-30B-A3B-Instruct-2507",
    max_seq_length = 2048, # Wählen Sie beliebige Werte für langen Kontext!
    load_in_4bit = True,  # 4-Bit-Quantisierung zur Reduzierung des Speichers
    load_in_8bit = False, # [NEU!] Etwas genauer, verwendet 2x Speicher
    full_finetuning = False, # [NEU!] Wir haben jetzt vollständige Feinabstimmung!
    # token = "hf_...", # verwenden Sie einen, wenn Sie gegatterte Modelle verwenden
)

VorherigeQwen3-VL NächsteComplete LLM Directory

Zuletzt aktualisiert vor 14 Stunden

War das hilfreich?

hashtag⚙️Beste Praktiken

hashtag📖 Qwen3-30B-A3B-2507 Tutorials ausführen

hashtagInstruct: Qwen3-30B-A3B-Instruct-2507

hashtag⚙️Beste Praktiken

hashtag🦙 Ollama: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

hashtag✨ Llama.cpp: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

hashtagThinking: Qwen3-30B-A3B-Thinking-2507

hashtag⚙️Beste Praktiken

hashtag🦙 Ollama: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

hashtag✨ Llama.cpp: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

hashtag📖 Ausführen Qwen3-235B-A22B-2507 Tutorials

hashtagThinking: Qwen3-235B-A22B-Thinking-2507

hashtag⚙️ Beste Praktiken

hashtag✨Qwen3-235B-A22B-Thinking via llama.cpp ausführen:

hashtagInstruct: Qwen3-235B-A22B-Instruct-2507

hashtag⚙️Beste Praktiken

hashtag✨Qwen3-235B-A22B-Instruct via llama.cpp ausführen:

hashtag🛠️ Generationsgeschwindigkeit verbessern

hashtag📐Wie man langen Kontext unterbringt

hashtag🦥 Qwen3-2507 mit Unsloth feinabstimmen

hashtagQwen3-2507 MOE-Modelle Fine-Tuning

⚙️Beste Praktiken

📖 Qwen3-30B-A3B-2507 Tutorials ausführen

Instruct: Qwen3-30B-A3B-Instruct-2507

⚙️Beste Praktiken

🦙 Ollama: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

✨ Llama.cpp: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

Thinking: Qwen3-30B-A3B-Thinking-2507

⚙️Beste Praktiken

🦙 Ollama: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

✨ Llama.cpp: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen

📖 Ausführen Qwen3-235B-A22B-2507 Tutorials

Thinking: Qwen3-235B-A22B-Thinking-2507

⚙️ Beste Praktiken

✨Qwen3-235B-A22B-Thinking via llama.cpp ausführen:

Instruct: Qwen3-235B-A22B-Instruct-2507

⚙️Beste Praktiken

✨Qwen3-235B-A22B-Instruct via llama.cpp ausführen:

🛠️ Generationsgeschwindigkeit verbessern

📐Wie man langen Kontext unterbringt

🦥 Qwen3-2507 mit Unsloth feinabstimmen

Qwen3-2507 MOE-Modelle Fine-Tuning