Speichern als GGUF
Modelle in 16-Bit für GGUF speichern, damit du sie für Ollama, Jan AI, Open WebUI und mehr nutzen kannst!
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q4_k_m")
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q8_0")
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "f16")model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q4_k_m")
model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0")# https://github.com/ggerganov/llama.cpp/blob/master/examples/quantize/quantize.cpp#L19
# Von https://mlabonne.github.io/blog/posts/Quantize_Llama_2_models_using_ggml.html
ALLOWED_QUANTS = \
{
"not_quantized" : "Empfohlen. Schnelle Konvertierung. Langsame Inferenz, große Dateien.",
"fast_quantized" : "Empfohlen. Schnelle Konvertierung. Akzeptable Inferenz, akzeptable Dateigröße.",
"quantized" : "Empfohlen. Langsame Konvertierung. Schnelle Inferenz, kleine Dateien.",
"f32" : "Nicht empfohlen. Beibehaltung von 100% Genauigkeit, aber sehr langsam und speicherhungrig.",
"f16" : "Schnellste Konvertierung + behält 100% Genauigkeit. Langsam und speicherhungrig.",
"q8_0" : "Schnelle Konvertierung. Hoher Ressourcenverbrauch, aber im Allgemeinen akzeptabel.",
"q4_k_m" : "Empfohlen. Verwendet Q6_K für die Hälfte der attention.wv- und feed_forward.w2-Tensoren, sonst Q4_K",
"q5_k_m" : "Empfohlen. Verwendet Q6_K für die Hälfte der attention.wv- und feed_forward.w2-Tensoren, sonst Q5_K",
"q2_k" : "Verwendet Q4_K für die attention.vw- und feed_forward.w2-Tensoren, Q2_K für die anderen Tensoren.",
"q3_k_l" : "Verwendet Q5_K für die attention.wv-, attention.wo- und feed_forward.w2-Tensoren, sonst Q3_K",
"q3_k_m" : "Verwendet Q4_K für die attention.wv-, attention.wo- und feed_forward.w2-Tensoren, sonst Q3_K",
"q3_k_s" : "Verwendet Q3_K für alle Tensoren",
"q4_0" : "Ursprüngliche Quantisierungsmethode, 4-Bit.",
"q4_1" : "Höhere Genauigkeit als q4_0, aber nicht so hoch wie q5_0. Hat jedoch schnellere Inferenz als q5-Modelle.",
"q4_k_s" : "Verwendet Q4_K für alle Tensoren",
"q4_k" : "Alias für q4_k_m",
"q5_k" : "Alias für q5_k_m",
"q5_0" : "Höhere Genauigkeit, höherer Ressourcenverbrauch und langsamere Inferenz.",
"q5_1" : "Noch höhere Genauigkeit, höherer Ressourcenverbrauch und langsamere Inferenz.",
"q5_k_s" : "Verwendet Q5_K für alle Tensoren",
"q6_k" : "Verwendet Q8_K für alle Tensoren",
"iq2_xxs" : "2,06 bpw-Quantisierung",
"iq2_xs" : "2,31 bpw-Quantisierung",
"iq3_xxs" : "3,06 bpw-Quantisierung",
"q3_k_xs" : "3-Bit extra kleine Quantisierung",
}Das Ausführen in Unsloth funktioniert gut, aber nach dem Export und dem Ausführen auf anderen Plattformen sind die Ergebnisse schlecht
Speichern in GGUF / vLLM 16bit stürzt ab
Wie speichere ich manuell in GGUF?
Zuletzt aktualisiert
War das hilfreich?

