Gemma 3n: Wie man ausführt & finetunt
Führe Googles neues Gemma 3n lokal mit Dynamic GGUFs auf llama.cpp, Ollama, Open WebUI aus und finetune mit Unsloth!
Dynamic 2.0 GGUF (nur Text)
Dynamisches 4-Bit Instruct (zum Feinabstimmen)
16-Bit Instruct
🖥️ Gemma 3n ausführen
⚙️ Offizielle empfohlene Einstellungen
<bos><start_of_turn>user\nHello!<end_of_turn>\n<start_of_turn>model\nHey there!<end_of_turn>\n<start_of_turn>user\nWhat is 1+1?<end_of_turn>\n<start_of_turn>model\n
🦙 Tutorial: Wie man Gemma 3n in Ollama ausführt
📖 Tutorial: Wie man Gemma 3n in llama.cpp ausführt
🦥 Feinabstimmung von Gemma 3n mit Unsloth
🏆Bonus-Inhalte
🐛 Fehlerbehebungen für Gemma 3n
✨GGUF-Probleme & Fixes
♾️erwähnte, können wir auch Q4_0, Q4_1, Q5_0, Q5_1 für die Embeddings verwenden - und wir haben bestätigt, dass es auch in Ollama funktioniert! Das bedeutet erneut, dass die kleineren 2-, 3- und 4-Bit-Quants kleiner in der Größe sind und nicht Q8_0 benötigen!


Bfloat16 ist in Ordnung, da seine maximale Reichweite 10^38 ist.
Name
🎇blocks.2.34.pw_exp.conv.weight
🏁Unsloth ist das einzige Framework, das Gemma 3n Inferenz und Training auf Float16-GPUs ermöglicht, daher funktionieren Colab-Notebooks mit kostenlosen Tesla T4s!
🌵zu nutzen, um Gemma 3N zu optimieren!

- wir stellten fest, dass Llama 3.2 Vision mit Verlusten bei 3 oder 4 beginnt, Pixtral bei etwa 8 und Qwen 2.5 VL ebenfalls bei ca. 4. Da Gemma 3N auch Audio einschließt, könnte dies den anfänglichen Verlust verstärken. Aber das ist nur eine Hypothese. Wir stellten auch fest, dass die Quantisierung von Qwen 2.5 VL 72B Instruct extrem hohe Perplexity-Werte von etwa 30 ergab, das Modell jedoch interessanterweise trotzdem gut arbeitet.
🛠️ Technische Analyse

Zuletzt aktualisiert
War das hilfreich?

