💧Liquid LFM2.5 : comment exécuter et affiner

Exécutez et affinez LFM2.5 Instruct et Vision localement sur votre appareil !

Liquid AI publie LFM2.5, incluant leur instruct et vision modèle. LFM2.5-1.2B-Instruct est un modèle de raisonnement hybride de 1,17 milliard de paramètres entraîné sur 28T tokens et RL, offrant des performances de premier ordre à l'échelle du milliard de paramètres pour le suivi d'instructions, l'utilisation d'outils et les tâches agentiques. Voir Hugging Face Jobs sur l'utilisation de Codex pour entraîner LFM !

LFM2.5 fonctionne avec moins de 1 Go de RAM et atteint 239 tok/s en décodage sur CPU AMD. Vous pouvez aussi l'affiner localement avec Unsloth.

Texte LFM2.5-InstructVision LFM2.5-VL

Spécifications du modèle :

  • Paramètres: 1,17 G

  • Architecture: 16 couches (10 blocs convolutionnels LIV à double porte + 6 blocs GQA)

  • Budget d'entraînement: 28T tokens

  • Longueur de contexte: 32 768 tokens

  • Taille du vocabulaire: 65,536

  • Langues: anglais, arabe, chinois, français, allemand, japonais, coréen, espagnol

⚙️ Guide d'utilisation

Liquid AI recommande ces paramètres pour l'inférence :

  • temperature = 0.1

  • top_k = 50

  • top_p = 0.1

  • repetition_penalty = 1.05

  • Longueur de contexte maximale : 32,768

Format du modèle de chat

LFM2.5 utilise un format de type ChatML :

Modèle de chat LFM2.5 :

Utilisation d'outils

LFM2.5 prend en charge l'appel de fonctions avec des tokens spéciaux <|tool_call_start|> et <|tool_call_end|>. Fournissez les outils en tant qu'objet JSON dans le prompt système :

🖥️ Exécuter LFM2.5-1.2B-Instruct

📖 Tutoriel llama.cpp (GGUF)

1. Construire llama.cpp

Obtenez la dernière llama.cpp depuis GitHubarrow-up-right. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU. Pour les appareils Apple Mac / Metal, définissez -DGGML_CUDA=OFF puis continuez comme d’habitude - le support Metal est activé par défaut.

2. Exécuter directement depuis Hugging Face

3. Ou téléchargez d'abord le modèle

4. Exécuter en mode conversation

🦥 Affinage (Fine-tuning) de LFM2.5 avec Unsloth

Unsloth prend en charge l'affinage des modèles LFM2.5. Le modèle 1.2B tient confortablement sur un GPU Colab T4 gratuit. L'entraînement est 2x plus rapide avec 50 % de VRAM en moins.

Notebook Colab gratuit :

LFM2.5 est recommandé pour les tâches agentiques, l'extraction de données, le RAG et l'utilisation d'outils. Il n'est pas recommandé pour les tâches intensives en connaissances ou la programmation.

Configuration Unsloth pour LFM2.5

Configuration d'entraînement

Enregistrer et exporter

🎉 Servir & déployer avec llama-server

Pour déployer LFM2.5 en production avec une API compatible OpenAI :

Tester avec le client OpenAI :

📊 Benchmarks

LFM2.5-1.2B-Instruct offre des performances de premier ordre à l'échelle du milliard de paramètres et propose une inférence CPU rapide avec une faible utilisation de mémoire :

💧 Guide Liquid LFM2.5-1.2B-VL

LFM2.5-VL-1.6B est un LLM visuel construit sur LFM2.5-1.2B-Basearrow-up-right et optimisé pour de meilleures performances dans le monde réel. Vous pouvez désormais l'affiner le faire localement avec Unsloth.

Tutoriel d’exécutionTutoriel d’affinage

Spécifications du modèle :

  • Fond du LM: LFM2.5-1.2B-Base

  • Encodeur vision: SigLIP2 NaFlex optimisé pour la forme 400M

  • Longueur de contexte: 32 768 tokens

  • Taille du vocabulaire: 65,536

  • Langues: anglais, arabe, chinois, français, allemand, japonais, coréen et espagnol

  • Traitement en résolution native: Gère des images jusqu'à 512×512 pixels sans mise à l'échelle et préserve les rapports d'aspect non standard sans distorsion

  • Stratégie de découpage (tiling): Divise les grandes images en patches non chevauchants de 512×512 et inclut un encodage en miniature pour le contexte global

  • Flexibilité à l'inférence: Nombre maximal de tokens image et nombre de tuiles réglables par l'utilisateur pour un compromis vitesse/qualité sans réentraînement

⚙️ Guide d'utilisation

Liquid AI recommande ces paramètres pour l'inférence :

  • Texte: temperature=0.1, min_p=0.15, repetition_penalty=1.05

  • Vision: min_image_tokens=64, max_image_tokens=256, do_image_splitting=True

Format du modèle de chat

LFM2.5-VL utilise un format de type ChatML :

Modèle de chat LFM2.5-VL :

🖥️ Exécuter LFM2.5-VL-1.6B

📖 Tutoriel llama.cpp (GGUF)

1. Construire llama.cpp

Obtenez la dernière version de llama.cpp depuis GitHubarrow-up-right. Changez -DGGML_CUDA=ON en -DGGML_CUDA=OFF si vous n'avez pas de GPU.

2. Exécuter directement depuis Hugging Face

🦥 Affinage de LFM2.5-VL avec Unsloth

Unsloth prend en charge l'affinage des modèles LFM2.5. Le modèle 1.6B tient confortablement sur un GPU Colab T4 gratuit. L'entraînement est 2x plus rapide avec 50 % de VRAM en moins.

Notebook Colab gratuit :

Configuration Unsloth pour LFM2.5

Configuration d'entraînement

Enregistrer et exporter

📊 Benchmarks

LFM2.5-VL-1.6B offre des performances de premier ordre :

Modèle
MMStar
MM-IFEval
BLINK
InfoVQA (Val)
OCRBench (v2)
RealWorldQA
MMMU (Val)
MMMB (moyenne)
Multilingual MMBench (moyenne)

LFM2.5-VL-1.6B

50.67

52.29

48.82

62.71

41.44

64.84

40.56

76.96

65.90

LFM2-VL-1.6B

49.87

46.35

44.50

58.35

35.11

65.75

39.67

72.13

60.57

InternVL3.5-1B

50.27

36.17

44.19

60.99

33.53

57.12

41.89

68.93

58.32

FastVLM-1.5B

53.13

24.99

43.29

23.92

26.61

61.56

38.78

64.84

50.89

📚 Ressources

Mis à jour

Ce contenu vous a-t-il été utile ?