Sauvegarde en GGUF
Sauvegarder des modèles en 16 bits pour GGUF afin de pouvoir les utiliser pour Ollama, Jan AI, Open WebUI et plus !
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q4_k_m")
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "q8_0")
model.save_pretrained_gguf("directory", tokenizer, quantization_method = "f16")model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q4_k_m")
model.push_to_hub_gguf("hf_username/directory", tokenizer, quantization_method = "q8_0")# https://github.com/ggerganov/llama.cpp/blob/master/examples/quantize/quantize.cpp#L19
# Depuis https://mlabonne.github.io/blog/posts/Quantize_Llama_2_models_using_ggml.html
ALLOWED_QUANTS = \
{
"not_quantized" : "Recommandé. Conversion rapide. Inférence lente, fichiers volumineux.",
"fast_quantized" : "Recommandé. Conversion rapide. Inférence correcte, taille de fichier correcte.",
"quantized" : "Recommandé. Conversion lente. Inférence rapide, petits fichiers.",
"f32" : "Non recommandé. Conserve 100% de la précision, mais très lent et gourmand en mémoire.",
"f16" : "Conversion la plus rapide + conserve 100% de la précision. Lent et gourmand en mémoire.",
"q8_0" : "Conversion rapide. Forte utilisation des ressources, mais généralement acceptable.",
"q4_k_m" : "Recommandé. Utilise Q6_K pour la moitié des tenseurs attention.wv et feed_forward.w2, sinon Q4_K",
"q5_k_m" : "Recommandé. Utilise Q6_K pour la moitié des tenseurs attention.wv et feed_forward.w2, sinon Q5_K",
"q2_k" : "Utilise Q4_K pour les tenseurs attention.vw et feed_forward.w2, Q2_K pour les autres tenseurs.",
"q3_k_l" : "Utilise Q5_K pour les tenseurs attention.wv, attention.wo et feed_forward.w2, sinon Q3_K",
"q3_k_m" : "Utilise Q4_K pour les tenseurs attention.wv, attention.wo et feed_forward.w2, sinon Q3_K",
"q3_k_s" : "Utilise Q3_K pour tous les tenseurs",
"q4_0" : "Méthode de quantification originale, 4 bits.",
"q4_1" : "Précision supérieure à q4_0 mais pas aussi élevée que q5_0. Toutefois, inférence plus rapide que les modèles q5.",
"q4_k_s" : "Utilise Q4_K pour tous les tenseurs",
"q4_k" : "alias pour q4_k_m",
"q5_k" : "alias pour q5_k_m",
"q5_0" : "Précision plus élevée, utilisation des ressources plus importante et inférence plus lente.",
"q5_1" : "Précision encore plus élevée, utilisation des ressources et inférence plus lentes.",
"q5_k_s" : "Utilise Q5_K pour tous les tenseurs",
"q6_k" : "Utilise Q8_K pour tous les tenseurs",
"iq2_xxs" : "Quantification 2.06 bpw",
"iq2_xs" : "Quantification 2.31 bpw",
"iq3_xxs" : "Quantification 3.06 bpw",
"q3_k_xs" : "Quantification 3 bits extra petite",
}Exécuter dans Unsloth fonctionne bien, mais après exportation et exécution sur d'autres plates-formes, les résultats sont médiocres
Enregistrer en GGUF / vLLM 16 bits plante
Comment enregistrer manuellement au format GGUF ?
Mis à jour
Ce contenu vous a-t-il été utile ?

