🌠Qwen3-2507: Anleitung zum lokalen Betrieb
Führe Qwen3-30B-A3B-2507 und 235B-A22B Thinking- und Instruct-Versionen lokal auf deinem Gerät aus!
Qwen veröffentlichte im Juli 2025 (2507) Updates für ihre Qwen3 4B-, 30B- und 235B-Modelle und führt sowohl „denkende“ als auch „nicht-denkende“ Varianten ein. Das nicht-denkende 'Qwen3-30B-A3B-Instruct-2507' und 'Qwen3-235B-A22B-Instruct-2507' verfügt über ein 256K-Kontextfenster, verbesserte Instruktionsfolgebarkeit, mehrsprachige Fähigkeiten und Ausrichtung.
Die denkenden Modelle 'Qwen3-30B-A3B-Thinking-2507' und 'Qwen3-235B-A22B-Thinking-2507' zeichnen sich durch Schlussfolgerungsfähigkeiten aus, wobei das 235B SOTA-Ergebnisse in Logik, Mathematik, Naturwissenschaften, Programmierung und fortgeschrittenen akademischen Aufgaben erzielt.
Unsloth unterstützt jetzt auch Feintuning und Verstärkendes Lernen (RL) der Qwen3-2507-Modelle — 2x schneller, mit 70% weniger VRAM und 8x längeren Kontextlängen
30B-A3B ausführen235B-A22B ausführenQwen3-2507 feinabstimmen
Unsloth Dynamic 2.0 GGUFs:
Qwen3-4B-2507
Qwen3-30B-A3B-2507
Qwen3-235B-A22B-2507
⚙️Beste Praktiken
Die Einstellungen für das Thinking- und das Instruct-Modell sind unterschiedlich. Das Thinking-Modell verwendet temperature = 0.6, das Instruct-Modell hingegen temperature = 0.7 Das Thinking-Modell verwendet top_p = 0.95, das Instruct-Modell jedoch top_p = 0.8
Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen:
Temperatur = 0,7
Temperature = 0.6
Min_P = 0.00 (llama.cpps Standard ist 0.1)
Min_P = 0.00 (llama.cpps Standard ist 0.1)
Top_P = 0.80
Top_P = 0,95
TopK = 20
TopK = 20
presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard schaltet es aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden)
presence_penalty = 0.0 bis 2.0 (llama.cpp-Standard schaltet es aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden)
Angemessene Ausgabelänge: Verwenden Sie eine Ausgabelänge von 32,768 Token für die meisten Anfragen, was für die meisten Abfragen ausreichend ist.
Chatvorlage für beide, Thinking (Thinking hat <think></think>) und Instruct ist unten:
📖 Qwen3-30B-A3B-2507 Tutorials ausführen
Unten sind Anleitungen für die Denken und Instruktion Versionen des Modells.
Instruct: Qwen3-30B-A3B-Instruct-2507
Da dies ein nicht-denkendes Modell ist, ist es nicht nötig, thinking=False zu setzen und das Modell generiert nicht <think> </think> Blöcke.
⚙️Beste Praktiken
Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:
Wir empfehlen die Verwendung von
temperature=0.7, top_p=0.8, top_k=20 und min_p=0.0presence_penaltyzwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.temperature = 0.7top_k = 20min_p = 0.00(llama.cpps Standard ist 0.1)top_p = 0.80presence_penalty = 0.0 bis 2.0(llama.cpp-Standard schaltet es aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie zum Beispiel 1.0.Unterstützt nativ bis zu
262,144Kontext, Sie können ihn jedoch auf32,768Tokens einstellen, um weniger RAM zu verwenden
🦙 Ollama: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen
Installieren Sie
ollamawenn Sie es noch nicht getan haben! Sie können nur Modelle bis zu einer Größe von 32B ausführen.
Führen Sie das Modell aus! Beachten Sie, dass Sie aufrufen können
ollama servein einem anderen Terminal, falls es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) inparamsin unserem Hugging Face-Upload hinzu!
✨ Llama.cpp: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen
Holen Sie sich die neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Sie können direkt von HuggingFace ziehen via:
Laden Sie das Modell herunter über (nach Installation von
pip install huggingface_hub hf_transfer). Sie können UD_Q4_K_XL oder andere quantisierte Versionen wählen.
Thinking: Qwen3-30B-A3B-Thinking-2507
Dieses Modell unterstützt nur den Thinking-Modus und ein 256K-Kontextfenster nativ. Die Standard-Chatvorlage fügt <think> automatisch hinzu, daher sehen Sie möglicherweise nur ein schließendes </think> Tag in der Ausgabe.
⚙️Beste Praktiken
Um optimale Leistung zu erzielen, empfiehlt Qwen die folgenden Einstellungen:
Wir empfehlen die Verwendung von
temperature=0.6, top_p=0.95, top_k=20 und min_p=0.0presence_penaltyzwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.temperature = 0.6top_k = 20min_p = 0.00(llama.cpps Standard ist 0.1)top_p = 0.95presence_penalty = 0.0 bis 2.0(llama.cpp-Standard schaltet es aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie zum Beispiel 1.0.Unterstützt nativ bis zu
262,144Kontext, Sie können ihn jedoch auf32,768Tokens einstellen, um weniger RAM zu verwenden
🦙 Ollama: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen
Installieren Sie
ollamawenn Sie es noch nicht getan haben! Sie können nur Modelle bis zu einer Größe von 32B ausführen. Um die vollständigen 235B-A22B-Modelle auszuführen, siehe hier.
Führen Sie das Modell aus! Beachten Sie, dass Sie aufrufen können
ollama servein einem anderen Terminal, falls es fehlschlägt! Wir fügen alle unsere Fixes und vorgeschlagenen Parameter (Temperatur usw.) inparamsin unserem Hugging Face-Upload hinzu!
✨ Llama.cpp: Qwen3-30B-A3B-Instruct-2507 Tutorial ausführen
Holen Sie sich die neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
Sie können direkt von Hugging Face ziehen via:
Laden Sie das Modell herunter über (nach Installation von
pip install huggingface_hub hf_transfer). Sie können UD_Q4_K_XL oder andere quantisierte Versionen wählen.
📖 Ausführen Qwen3-235B-A22B-2507 Tutorials
Unten sind Anleitungen für die Denken und Instruktion Versionen des Modells.
Thinking: Qwen3-235B-A22B-Thinking-2507
Dieses Modell unterstützt nur den Thinking-Modus und ein 256K-Kontextfenster nativ. Die Standard-Chatvorlage fügt <think> automatisch hinzu, daher sehen Sie möglicherweise nur ein schließendes </think> Tag in der Ausgabe.
⚙️ Beste Praktiken
Um optimale Leistung zu erzielen, empfiehlt Qwen diese Einstellungen für das Thinking-Modell:
temperature = 0.6top_k = 20min_p = 0.00(llama.cpps Standard ist 0.1)top_p = 0.95presence_penalty = 0.0 bis 2.0(llama.cpp-Standard schaltet es aus, aber um Wiederholungen zu reduzieren, können Sie dies verwenden) Probieren Sie zum Beispiel 1.0.Angemessene Ausgabelänge: Verwenden Sie eine Ausgabelänge von
32,768Token für die meisten Anfragen, was für die meisten Abfragen ausreichend ist.
✨Führen Sie Qwen3-235B-A22B-Thinking über llama.cpp aus:
Für Qwen3-235B-A22B verwenden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen.
Wenn Sie eine voll präzise unquantisierte Version, verwenden Sie unser Q8_K_XL, Q8_0 oder BF16 Versionen!
Holen Sie sich die neueste
llama.cppauf GitHub hier. Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.Sie können llama.cpp direkt verwenden, um das Modell herunterzuladen, aber ich empfehle normalerweise die Verwendung von
huggingface_hubUm llama.cpp direkt zu verwenden, tun Sie:Laden Sie das Modell herunter über (nach Installation von
pip install huggingface_hub hf_transfer). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..Führe das Modell aus und probiere beliebige Prompts.
Bearbeiten
--threads -1für die Anzahl der CPU-Threads bearbeiten,--ctx-size262114 für Kontextlänge,--n-gpu-layers 99für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.
Verwenden Sie -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dies ermöglicht es effektiv, alle Nicht-MoE-Schichten auf einer GPU unterzubringen und die Generationsgeschwindigkeit zu verbessern. Sie können den Regex-Ausdruck anpassen, um mehr Schichten auszulagern, wenn Sie mehr GPU-Kapazität haben.
Instruct: Qwen3-235B-A22B-Instruct-2507
Da dies ein nicht-denkendes Modell ist, ist es nicht nötig, thinking=False zu setzen und das Modell generiert nicht <think> </think> Blöcke.
⚙️Beste Praktiken
Um optimale Leistung zu erzielen, empfehlen wir die folgenden Einstellungen:
1. Sampling-Parameter: Wir empfehlen die Verwendung von temperature=0.7, top_p=0.8, top_k=20 und min_p=0. presence_penalty zwischen 0 und 2, falls das Framework dies unterstützt, um endlose Wiederholungen zu reduzieren.
2. Angemessene Ausgabelänge: Wir empfehlen die Verwendung einer Ausgabelänge von 16,384 Token für die meisten Anfragen, was für Instruct-Modelle ausreichend ist.
3. Ausgabeformat standardisieren: Wir empfehlen die Verwendung von Prompts, um Modelloutputs beim Benchmarking zu standardisieren.
Mathematikaufgaben: Einschließen
Bitte denken Sie Schritt für Schritt nach und setzen Sie Ihre endgültige Antwort in \boxed{}.in das Prompt.Multiple-Choice-Fragen: Fügen Sie die folgende JSON-Struktur in das Prompt ein, um Antworten zu standardisieren: "Bitte zeigen Sie Ihre Wahl im Feld `answer` mit nur dem Buchstaben der Wahl, z. B. `"answer": "C".
✨Führen Sie Qwen3-235B-A22B-Instruct über llama.cpp aus:
Für Qwen3-235B-A22B verwenden wir speziell Llama.cpp für optimierte Inferenz und eine Fülle von Optionen.
{% hint style="success" %} Wenn Sie eine voll präzise unquantisierte Version, verwenden Sie unser Q8_K_XL, Q8_0 oder BF16 Versionen! {% endhint %}
Holen Sie sich die neueste `
llama.cppauf [GitHub hier](https://github.com/ggml-org/llama.cpp). Sie können auch den unten stehenden Build-Anweisungen folgen. Ändern Sie-DGGML_CUDA=ONzu-DGGML_CUDA=OFF` wenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.
2. Sie können llama.cpp direkt verwenden, um das Modell herunterzuladen, aber ich empfehle normalerweise die Verwendung von huggingface_hub Um llama.cpp direkt zu verwenden, tun Sie:\
3. Laden Sie das Modell herunter über (nach der Installation von pip install huggingface_hub hf_transfer ). Du kannst UD-Q2_K_XL oder andere quantisierte Versionen wählen..
4. Führen Sie das Modell aus und probieren Sie beliebige Prompts aus. 5. Bearbeiten Sie --threads -1 für die Anzahl der CPU-Threads bearbeiten, --ctx-size 262114 für Kontextlänge, --n-gpu-layers 99 für das GPU-Offloading für wie viele Schichten. Versuchen Sie, es anzupassen, wenn Ihre GPU nicht mehr genügend Speicher hat. Entfernen Sie es auch, wenn Sie nur CPU-Inferenz haben.
Verwenden Sie -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dies ermöglicht es effektiv, alle Nicht-MoE-Schichten auf einer GPU unterzubringen und die Generationsgeschwindigkeit zu verbessern. Sie können den Regex-Ausdruck anpassen, um mehr Schichten auszulagern, wenn Sie mehr GPU-Kapazität haben.
🛠️ Verbesserung der Generierungsgeschwindigkeit
Wenn Sie mehr VRAM haben, können Sie versuchen, mehr MoE-Schichten auszulagern oder ganze Schichten selbst auszulagern.
Normalerweise, -ot ".ffn_.*_exps.=CPU" lagert alle MoE-Schichten auf die CPU aus! Dies ermöglicht es effektiv, alle Nicht-MoE-Schichten auf einer GPU unterzubringen und die Generationsgeschwindigkeit zu verbessern. Sie können den Regex-Ausdruck anpassen, um mehr Schichten auszulagern, wenn Sie mehr GPU-Kapazität haben.
Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dies lagert up- und down-Projektions-MoE-Schichten aus.
Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dies lagert nur up-Projektions-MoE-Schichten aus.
Sie können den Regex auch anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, jedoch nur ab der 6. Schicht.
Der neueste llama.cpp-Version führt auch einen Hochdurchsatzmodus ein. Verwenden Sie llama-parallel. Lesen Sie mehr darüber hier. Sie können auch den KV-Cache auf 4 Bit quantisieren zum Beispiel, um VRAM-/RAM-Bewegungen zu reduzieren, was den Generierungsprozess ebenfalls beschleunigen kann. Die nächste Abschnitt spricht über KV-Cache-Quantisierung.
📐Wie man langen Kontext anpasst
Um längere Kontexte unterzubringen, können Sie KV-Cache-Quantisierung verwenden, um die K- und V-Caches auf niedrigere Bits zu quantisieren. Dies kann auch die Generationsgeschwindigkeit aufgrund reduzierter RAM-/VRAM-Datenbewegung erhöhen. Die erlaubten Optionen für K-Quantisierung (Standard ist f16) umfassen die folgenden.
--cache-type-k f32, f16, bf16, q8_0, q4_0, q4_1, iq4_nl, q5_0, q5_1
Sie sollten die _1 Varianten für etwas erhöhte Genauigkeit verwenden, obwohl sie etwas langsamer sind. Zum Beispiel q4_1, q5_1 Probieren Sie also --cache-type-k q4_1
Sie können auch den V-Cache quantisieren, aber Sie müssen llama.cpp mit Flash Attention kompilieren Unterstützung über -DGGML_CUDA_FA_ALL_QUANTS=ON, und verwenden Sie --flash-attn um es zu aktivieren. Nachdem Sie Flash Attention installiert haben, können Sie dann --cache-type-v q4_1
🦥 Qwen3-2507 mit Unsloth feinabstimmen
Unsloth macht Qwen3 und das Feintuning von Qwen3-2507 2x schneller, verwendet 70% weniger VRAM und unterstützt 8x längere Kontextlängen. Da Qwen3-2507 nur in einer 30B-Variante veröffentlicht wurde, benötigen Sie etwa eine 40GB A100-GPU, um das Modell mit QLoRA (4-Bit) feinabzustimmen.
Für ein Notebook: Da das Modell nicht in die kostenlosen 16GB-GPUs von Colab passt, müssen Sie eine 40GB A100 verwenden. Sie können unser Conversational-Notebook verwenden, aber ersetzen Sie das Dataset durch beliebige Ihrer Wahl. Diesmal müssen Sie dem Datensatz kein kombiniertes Reasoning hinzufügen, da das Modell kein Reasoning hat.
Wenn du eine alte Version von Unsloth hast und/oder lokal feinabstimmst, installiere die neueste Version von Unsloth:
Qwen3-2507 MOE-Modelle Feintuning
Die Feintuning-Unterstützung umfasst MOE-Modelle: 30B-A3B und 235B-A22B. Qwen3-30B-A3B funktioniert mit 30GB VRAM mit Unsloth. Beim Feintuning von MoEs ist es wahrscheinlich keine gute Idee, die Router-Schicht zu fine-tunen, daher haben wir sie standardmäßig deaktiviert.
Qwen3-2507-4B Notebooks für: Denken und Instruktion
Das 30B-A3B passt in 30GB VRAM, aber Ihnen könnte RAM oder Festplattenspeicher fehlen, da das vollständige 16-Bit-Modell heruntergeladen und für QLoRA-Feintuning on-the-fly in 4-Bit konvertiert werden muss. Dies liegt an Problemen beim direkten Importieren von 4-Bit BnB MOE-Modellen. Dies betrifft nur MOE-Modelle.
Wenn Sie die MOE-Modelle feinabstimmen, verwenden Sie bitte FastModel und nicht FastLanguageModel

Zuletzt aktualisiert
War das hilfreich?

