💧Liquid LFM2.5 : Comment exécuter & affiner

Exécutez et affinez LFM2.5 Instruct et Vision localement sur votre appareil !

Liquid AI publie LFM2.5, incluant leur instruct et vision modèle. LFM2.5-1.2B-Instruct est un modèle hybride de raisonnement de 1,17 milliard de paramètres entraîné sur 28T de tokens et RL, offrant des performances de premier plan à l'échelle du milliard de paramètres pour le suivi d'instructions, l'utilisation d'outils et les tâches agentiques.

LFM2.5 fonctionne avec moins de 1 Go de RAM et atteint 239 tok/s en décodage sur CPU AMD. Vous pouvez aussi affiner l'exécuter localement avec Unsloth.

Texte LFM2.5-InstructVision LFM2.5-VL

Spécifications du modèle :

  • Paramètres: 1,17B

  • Architecture: 16 couches (10 blocs convolutifs LIV à double porte + 6 blocs GQA)

  • Budget d'entraînement: 28T de tokens

  • Longueur de contexte: 32 768 tokens

  • Taille du vocabulaire: 65,536

  • Langues: anglais, arabe, chinois, français, allemand, japonais, coréen, espagnol

⚙️ Guide d'utilisation

Liquid AI recommande ces paramètres pour l'inférence :

  • temperature = 0.1

  • top_k = 50

  • top_p = 0.1

  • repetition_penalty = 1.05

  • Longueur maximale du contexte : 32,768

Format du modèle de conversation

LFM2.5 utilise un format de type ChatML :

Modèle de chat LFM2.5 :

Utilisation d'outils

LFM2.5 prend en charge l'appel de fonctions avec des tokens spéciaux <|tool_call_start|> et <|tool_call_end|>. Fournissez les outils sous forme d'objet JSON dans le prompt système :

🖥️ Exécuter LFM2.5-1.2B-Instruct

📖 Tutoriel llama.cpp (GGUF)

1. Construire llama.cpp

Obtenez le dernier llama.cpp depuis GitHubarrow-up-right. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU.

2. Exécuter directement depuis Hugging Face

3. Ou téléchargez d'abord le modèle

4. Exécuter en mode conversation

🦥 Fine-tuning de LFM2.5 avec Unsloth

Unsloth prend en charge le fine-tuning des modèles LFM2.5. Le modèle 1.2B tient confortablement sur un GPU Colab T4 gratuit. L'entraînement est 2x plus rapide avec 50% de VRAM en moins.

Notebook Colab gratuit :

LFM2.5 est recommandé pour les tâches agentiques, l'extraction de données, le RAG et l'utilisation d'outils. Il n'est pas recommandé pour les tâches nécessitant beaucoup de connaissances ou la programmation.

Configuration Unsloth pour LFM2.5

Configuration d'entraînement

Enregistrer et exporter

🎉 Serving & déploiement llama-server

Pour déployer LFM2.5 en production avec une API compatible OpenAI :

Tester avec le client OpenAI :

📊 Benchmarks

LFM2.5-1.2B-Instruct offre des performances de premier plan à l'échelle du milliard de paramètres et propose une inférence CPU rapide avec une faible utilisation mémoire :

💧 Guide Liquid LFM2.5-1.2B-VL

LFM2.5-VL-1.6B est un LLM vision construit sur LFM2.5-1.2B-Basearrow-up-right et optimisé pour de meilleures performances dans le monde réel. Vous pouvez maintenant affiner l'exécuter localement avec Unsloth.

Tutoriel d'exécutionTutoriel de fine-tuning

Spécifications du modèle :

  • Noyau LM: LFM2.5-1.2B-Base

  • Encodeur vision: SigLIP2 NaFlex optimisé en forme 400M

  • Longueur de contexte: 32 768 tokens

  • Taille du vocabulaire: 65,536

  • Langues: anglais, arabe, chinois, français, allemand, japonais, coréen et espagnol

  • Traitement à résolution native: Gère des images jusqu'à 512×512 pixels sans suréchantillonnage et préserve les rapports d'aspect non standard sans distorsion

  • Stratégie de découpage en tuiles: Divise les grandes images en mosaïques non chevauchantes de 512×512 et inclut un encodage miniature pour le contexte global

  • Flexibilité à l'inférence: Paramètres utilisateur ajustables pour le nombre maximal de tokens image et le nombre de tuiles afin de gérer le compromis vitesse/qualité sans réentraînement

⚙️ Guide d'utilisation

Liquid AI recommande ces paramètres pour l'inférence :

  • Texte: temperature=0.1, min_p=0.15, repetition_penalty=1.05

  • Vision: min_image_tokens=64, max_image_tokens=256, do_image_splitting=True

Format du modèle de conversation

LFM2.5-VL utilise un format de type ChatML :

Modèle de chat LFM2.5-VL :

🖥️ Exécuter LFM2.5-VL-1.6B

📖 Tutoriel llama.cpp (GGUF)

1. Construire llama.cpp

Obtenez la dernière version de llama.cpp depuis GitHubarrow-up-right. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU.

2. Exécuter directement depuis Hugging Face

🦥 Fine-tuning de LFM2.5-VL avec Unsloth

Unsloth prend en charge le fine-tuning des modèles LFM2.5. Le modèle 1.6B tient confortablement sur un GPU Colab T4 gratuit. L'entraînement est 2x plus rapide avec 50% de VRAM en moins.

Notebook Colab gratuit :

Configuration Unsloth pour LFM2.5

Configuration d'entraînement

Enregistrer et exporter

📊 Benchmarks

LFM2.5-VL-1.6B offre des performances de premier plan :

Modèle
MMStar
MM-IFEval
BLINK
InfoVQA (Val)
OCRBench (v2)
RealWorldQA
MMMU (Val)
MMMB (moyenne)
Multilingual MMBench (moyenne)

LFM2.5-VL-1.6B

50.67

52.29

48.82

62.71

41.44

64.84

40.56

76.96

65.90

LFM2-VL-1.6B

49.87

46.35

44.50

58.35

35.11

65.75

39.67

72.13

60.57

InternVL3.5-1B

50.27

36.17

44.19

60.99

33.53

57.12

41.89

68.93

58.32

FastVLM-1.5B

53.13

24.99

43.29

23.92

26.61

61.56

38.78

64.84

50.89

📚 Ressources

Mis à jour

Ce contenu vous a-t-il été utile ?