💧Liquid LFM2.5: Wie man ausführt & finetunt

Führe und finetune LFM2.5 Instruct und Vision lokal auf deinem Gerät!

Liquid AI veröffentlicht LFM2.5, einschließlich ihres instruct und vision Modells. LFM2.5-1.2B-Instruct ist ein Hybrid-Reasoning-Modell mit 1,17 Mrd. Parametern, trainiert auf 28T Tokens und RL und liefert erstklassige Leistung im 1B-Bereich für Instruktionsbefolgung, Tool-Nutzung und agentische Aufgaben. Siehe Hugging Face Jobs zur Verwendung von Codex zum Training von LFM!

LFM2.5 läuft mit weniger als 1GB RAM und erreicht 239 tok/s Dekodierung auf AMD-CPU. Sie können es auch feinabstimmen lokal mit Unsloth.

Text LFM2.5-InstructVision LFM2.5-VL

Modellspezifikationen:

  • Parameter: 1,17 Mrd.

  • Architektur: 16 Schichten (10 doppelt-gegate LIV-Faltungsblöcke + 6 GQA-Blöcke)

  • Trainingsbudget: 28T Tokens

  • Kontextlänge: 32.768 Tokens

  • Vokabulargröße: 65,536

  • Sprachen: Englisch, Arabisch, Chinesisch, Französisch, Deutsch, Japanisch, Koreanisch, Spanisch

⚙️ Gebrauchsanleitung

Liquid AI empfiehlt diese Einstellungen für Inferenz:

  • temperature = 0.1

  • top_k = 50

  • top_p = 0.1

  • repetition_penalty = 1.05

  • Maximale Kontextlänge: 32,768

Chat-Vorlagenformat

LFM2.5 verwendet ein ChatML-ähnliches Format:

LFM2.5 Chat-Vorlage:

Tool-Verwendung

LFM2.5 unterstützt Funktionsaufrufe mit speziellen Tokens <|tool_call_start|> und <|tool_call_end|>. Stellen Sie Werkzeuge als JSON-Objekt im System-Prompt bereit:

🖥️ LFM2.5-1.2B-Instruct ausführen

📖 llama.cpp Tutorial (GGUF)

1. Bauen Sie llama.cpp

Beschaffen Sie sich das neueste llama.cpp von GitHubarrow-up-right. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF falls Sie keine GPU haben. Für Apple Mac / Metal-Geräte, setzen Sie -DGGML_CUDA=OFF und fahren dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.

2. Direkt von Hugging Face ausführen

3. Oder zuerst das Modell herunterladen

4. Im Konversationsmodus ausführen

🦥 Feinabstimmung von LFM2.5 mit Unsloth

Unsloth unterstützt die Feinabstimmung von LFM2.5-Modellen. Das 1,2B-Modell passt problemlos auf eine kostenlose Colab T4 GPU. Das Training ist 2x schneller bei 50% weniger VRAM.

Kostenloses Colab-Notebook:

LFM2.5 wird für agentische Aufgaben, Datenauszug, RAG und Tool-Nutzung empfohlen. Es wird nicht für wissensintensive Aufgaben oder Programmierung empfohlen.

Unsloth-Konfiguration für LFM2.5

Trainingsaufbau

Speichern und Exportieren

🎉 llama-server Serving & Deployment

Um LFM2.5 für die Produktion mit einer OpenAI-kompatiblen API bereitzustellen:

Testen mit dem OpenAI-Client:

📊 Benchmarks

LFM2.5-1.2B-Instruct bietet erstklassige Leistung im 1B-Bereich und bietet schnelle CPU-Inferenz bei geringem Speicherverbrauch:

💧 Liquid LFM2.5-1.2B-VL Anleitung

LFM2.5-VL-1.6B ist ein Vision-LLM aufgebaut auf LFM2.5-1.2B-Basearrow-up-right und für stärkere Leistung in der realen Welt abgestimmt. Sie können es jetzt feinabstimmen lokal mit Unsloth.

AusführungsanleitungFeinabstimmungsanleitung

Modellspezifikationen:

  • LM-Backbone: LFM2.5-1.2B-Base

  • Vision-Encoder: SigLIP2 NaFlex formoptimierter 400M

  • Kontextlänge: 32.768 Tokens

  • Vokabulargröße: 65,536

  • Sprachen: Englisch, Arabisch, Chinesisch, Französisch, Deutsch, Japanisch, Koreanisch und Spanisch

  • Native Auflösungsverarbeitung: Verarbeitet Bilder bis 512×512 Pixel ohne Upscaling und bewahrt nicht-standardmäßige Seitenverhältnisse ohne Verzerrung

  • Kachelstrategie: Teilt große Bilder in nicht-überlappende 512×512-Patches und enthält Thumbnail-Encoding für globalen Kontext

  • Flexibilität zur Inferenzzeit: Benutzeranpassbare maximale Bild-Tokens und Kachelanzahl für Geschwindigkeits-/Qualitätskompromisse ohne erneutes Training

⚙️ Gebrauchsanleitung

Liquid AI empfiehlt diese Einstellungen für Inferenz:

  • Text: temperature=0.1, min_p=0.15, repetition_penalty=1.05

  • Vision: min_image_tokens=64, max_image_tokens=256, do_image_splitting=True

Chat-Vorlagenformat

LFM2.5-VL verwendet ein ChatML-ähnliches Format:

LFM2.5-VL Chat-Vorlage:

🖥️ LFM2.5-VL-1.6B ausführen

📖 llama.cpp Tutorial (GGUF)

1. Bauen Sie llama.cpp

Holen Sie sich das neueste llama.cpp von GitHubarrow-up-right. Ändern Sie -DGGML_CUDA=ON zu -DGGML_CUDA=OFF falls Sie keine GPU haben.

2. Direkt von Hugging Face ausführen

🦥 Feinabstimmung von LFM2.5-VL mit Unsloth

Unsloth unterstützt die Feinabstimmung von LFM2.5-Modellen. Das 1,6B-Modell passt problemlos auf eine kostenlose Colab T4 GPU. Das Training ist 2x schneller bei 50% weniger VRAM.

Kostenloses Colab-Notebook:

Unsloth-Konfiguration für LFM2.5

Trainingsaufbau

Speichern und Exportieren

📊 Benchmarks

LFM2.5-VL-1.6B liefert erstklassige Leistung:

Modell
MMStar
MM-IFEval
BLINK
InfoVQA (Val)
OCRBench (v2)
RealWorldQA
MMMU (Val)
MMMB (Durchschnitt)
Mehrsprachiges MMBench (Durchschnitt)

LFM2.5-VL-1.6B

50.67

52.29

48.82

62.71

41.44

64.84

40.56

76.96

65.90

LFM2-VL-1.6B

49.87

46.35

44.50

58.35

35.11

65.75

39.67

72.13

60.57

InternVL3.5-1B

50.27

36.17

44.19

60.99

33.53

57.12

41.89

68.93

58.32

FastVLM-1.5B

53.13

24.99

43.29

23.92

26.61

61.56

38.78

64.84

50.89

📚 Ressourcen

Zuletzt aktualisiert

War das hilfreich?