Fehlerbehebung bei der Inferenz

Falls du Probleme beim Ausführen oder Speichern deines Modells hast.

Das Ausführen in Unsloth funktioniert gut, aber nach dem Export und dem Ausführen auf anderen Plattformen sind die Ergebnisse schlecht

Manchmal kann es vorkommen, dass Ihr Modell in Unsloth läuft und gute Ergebnisse liefert, aber wenn Sie es auf einer anderen Plattform wie Ollama oder vLLM verwenden, die Ergebnisse schlecht sind oder Sie Kauderwelsch bzw. endlose/unendliche Generierungen erhalten oder wiederholte Ausgaben.

Die häufigste Ursache für diesen Fehler ist die Verwendung einer inkorrekten Chat-Vorlage. Es ist entscheidend, dieselbe Chat-Vorlage zu verwenden, die beim Training des Modells in Unsloth verwendet wurde und später, wenn Sie es in einem anderen Framework wie llama.cpp oder Ollama ausführen. Beim Inferencing aus einem gespeicherten Modell ist es wichtig, die korrekte Vorlage anzuwenden.
Sie müssen das richtige eos-Token. Wenn nicht, erhalten Sie möglicherweise bei längeren Generierungen Kauderwelsch.
Es kann auch daran liegen, dass Ihre Inferenz-Engine ein unnötiges "Start der Sequenz"-Token hinzufügt (oder im Gegenteil dessen Fehlen), also prüfen Sie bitte beide Hypothesen!
Verwenden Sie unsere konversationellen Notebooks, um die Chat-Vorlage zu erzwingen - das behebt die meisten Probleme.
- Qwen-3 14B Konversationelles Notebook In Colab öffnen
- Gemma-3 4B Konversationelles Notebook In Colab öffnen
- Llama-3.2 3B Konversationelles Notebook In Colab öffnen
- Phi-4 14B Konversationelles Notebook In Colab öffnen
- Mistral v0.3 7B Konversationelles Notebook In Colab öffnen
- Weitere Notebooks in unseren Notebooks-Repository.

Speichern in `safetensors`, nicht `bin` Format in Colab

Wir speichern in .bin in Colab, da es etwa 4x schneller ist, aber setzen Sie safe_serialization = None um das Speichern in .safetensors. Also model.save_pretrained(..., safe_serialization = None) oder model.push_to_hub(..., safe_serialization = None)

Wenn das Speichern in GGUF oder vLLM 16bit abstürzt

Sie können versuchen, die maximale GPU-Nutzung während des Speicherns zu verringern, indem Sie maximum_memory_usage.

Der Standardwert ist model.save_pretrained(..., maximum_memory_usage = 0.75). Reduzieren Sie ihn z. B. auf 0,5, um 50 % des maximalen GPU-Speichers oder weniger zu verwenden. Dies kann OOM-Abstürze beim Speichern reduzieren.

VorherigeRun LLMs on your Phone NächsteClaude Code

Zuletzt aktualisiert vor 2 Monaten

War das hilfreich?

hashtagDas Ausführen in Unsloth funktioniert gut, aber nach dem Export und dem Ausführen auf anderen Plattformen sind die Ergebnisse schlecht

hashtagSpeichern in safetensors, nicht bin Format in Colab

hashtagWenn das Speichern in GGUF oder vLLM 16bit abstürzt

Das Ausführen in Unsloth funktioniert gut, aber nach dem Export und dem Ausführen auf anderen Plattformen sind die Ergebnisse schlecht

Speichern in `safetensors`, nicht `bin` Format in Colab

Wenn das Speichern in GGUF oder vLLM 16bit abstürzt