💧Liquid LFM2.5: Ausführen & Finetunen

Führe LFM2.5 Instruct und Vision lokal auf deinem Gerät aus und finetune sie!

Liquid AI veröffentlicht LFM2.5, einschließlich ihres instruct und vision Modells. LFM2.5-1.2B-Instruct ist ein hybrides Reasoning-Modell mit 1,17 Mrd. Parametern, trainiert auf 28T Token und RL und bietet erstklassige Leistung im 1B‑Bereich für Instruktionsbefolgung, Werkzeugnutzung und agentische Aufgaben.

LFM2.5 läuft mit unter 1GB RAM und erreicht 239 tok/s Dekodierung auf AMD CPU. Sie können es auch feinabstimmen lokal mit Unsloth.

Text LFM2.5-InstructVision LFM2.5-VL

Modellspezifikationen:

  • Parameter: 1,17 Mrd.

  • Architektur: 16 Schichten (10 doppelt geöffnete LIV-Konvolutionsblöcke + 6 GQA-Blöcke)

  • Trainingsbudget: 28T Token

  • Kontextlänge: 32.768 Token

  • Wortschatzgröße: 65,536

  • Sprachen: Englisch, Arabisch, Chinesisch, Französisch, Deutsch, Japanisch, Koreanisch, Spanisch

⚙️ Gebrauchsanleitung

Liquid AI empfiehlt diese Einstellungen für Inferenz:

  • temperature = 0.1

  • top_k = 50

  • top_p = 0.1

  • repetition_penalty = 1.05

  • Maximale Kontextlänge: 32,768

Chat-Vorlagenformat

LFM2.5 verwendet ein ChatML-ähnliches Format:

LFM2.5 Chat-Vorlage:

Werkzeugnutzung

LFM2.5 unterstützt Funktionsaufrufe mit Spezialtokens <|tool_call_start|> und <|tool_call_end|>. Stellen Sie Werkzeuge als JSON-Objekt im System-Prompt bereit:

🖥️ LFM2.5-1.2B-Instruct ausführen

📖 llama.cpp Anleitung (GGUF)

1. Baue llama.cpp

Holen Sie sich die neueste llama.cpp von GitHubarrow-up-right. Ändern -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben.

2. Direkt von Hugging Face ausführen

3. Oder lade das Modell zuerst herunter

4. Im Konversationsmodus ausführen

🦥 Feinabstimmung von LFM2.5 mit Unsloth

Unsloth unterstützt die Feinabstimmung von LFM2.5-Modellen. Das 1.2B-Modell passt bequem auf eine kostenlose Colab T4 GPU. Das Training ist 2x schneller bei 50% weniger VRAM.

Kostenloses Colab-Notebook:

LFM2.5 wird für agentische Aufgaben, Datenauszug, RAG und Werkzeugnutzung empfohlen. Es wird nicht für wissensintensive Aufgaben oder Programmierung empfohlen.

Unsloth-Konfiguration für LFM2.5

Trainingseinrichtung

Speichern und Export

🎉 llama-server Bereitstellung & Deployment

Um LFM2.5 produktiv mit einer OpenAI-kompatiblen API bereitzustellen:

Mit OpenAI-Client testen:

📊 Benchmarks

LFM2.5-1.2B-Instruct liefert erstklassige Leistung im 1B‑Bereich und bietet schnelle CPU-Inferenz mit geringem Speicherverbrauch:

💧 Liquid LFM2.5-1.2B-VL Anleitung

LFM2.5-VL-1.6B ist ein Vision-LLM, aufgebaut auf LFM2.5-1.2B-Basearrow-up-right und für stärkere reale Leistung abgestimmt. Sie können es jetzt feinabstimmen lokal mit Unsloth.

Ausführungs-TutorialFeinabstimmungs-Tutorial

Modellspezifikationen:

  • LM Backbone: LFM2.5-1.2B-Base

  • Vision-Encoder: SigLIP2 NaFlex formoptimierte 400M

  • Kontextlänge: 32.768 Token

  • Wortschatzgröße: 65,536

  • Sprachen: Englisch, Arabisch, Chinesisch, Französisch, Deutsch, Japanisch, Koreanisch und Spanisch

  • Native Auflösungsverarbeitung: Verarbeitet Bilder bis zu 512×512 Pixel ohne Hochskalierung und bewahrt nicht-standardmäßige Seitenverhältnisse ohne Verzerrung

  • Kachelstrategie: Teilt große Bilder in nicht überlappende 512×512 Patches und beinhaltet Thumbnail-Codierung für globalen Kontext

  • Flexibilität zur Inferenzzeit: Vom Benutzer einstellbare maximale Bild-Token und Kachelanzahl für Geschwindigkeits/Qualitäts-Kompro-misse ohne Retraining

⚙️ Nutzungsanleitung

Liquid AI empfiehlt diese Einstellungen für Inferenz:

  • Text: temperature=0.1, min_p=0.15, repetition_penalty=1.05

  • Vision: min_image_tokens=64, max_image_tokens=256, do_image_splitting=True

Chat-Vorlagenformat

LFM2.5-VL verwendet ein ChatML-ähnliches Format:

LFM2.5-VL Chat-Vorlage:

🖥️ LFM2.5-VL-1.6B ausführen

📖 llama.cpp Anleitung (GGUF)

1. Baue llama.cpp

Holen Sie sich das neueste llama.cpp von GitHubarrow-up-right. Ändern -DGGML_CUDA=ON zu -DGGML_CUDA=OFF wenn Sie keine GPU haben.

2. Direkt von Hugging Face ausführen

🦥 Feinabstimmung von LFM2.5-VL mit Unsloth

Unsloth unterstützt die Feinabstimmung von LFM2.5-Modellen. Das 1.6B-Modell passt bequem auf eine kostenlose Colab T4 GPU. Das Training ist 2x schneller bei 50% weniger VRAM.

Kostenloses Colab-Notebook:

Unsloth-Konfiguration für LFM2.5

Trainingseinrichtung

Speichern und Export

📊 Benchmarks

LFM2.5-VL-1.6B liefert erstklassige Leistung:

Modell
MMStar
MM-IFEval
BLINK
InfoVQA (Val)
OCRBench (v2)
RealWorldQA
MMMU (Val)
MMMB (Durchschnitt)
Multilinguales MMBench (Durchschnitt)

LFM2.5-VL-1.6B

50.67

52.29

48.82

62.71

41.44

64.84

40.56

76.96

65.90

LFM2-VL-1.6B

49.87

46.35

44.50

58.35

35.11

65.75

39.67

72.13

60.57

InternVL3.5-1B

50.27

36.17

44.19

60.99

33.53

57.12

41.89

68.93

58.32

FastVLM-1.5B

53.13

24.99

43.29

23.92

26.61

61.56

38.78

64.84

50.89

📚 Ressourcen

Zuletzt aktualisiert

War das hilfreich?