💧Liquid LFM2.5: 実行とファインチューニング方法

LFM2.5 Instruct と Vision をローカルで実行およびファインチューニングしましょう!

Liquid AIはLFM2.5をリリースしました。これには彼らの 指示(instruct)vision モデルが含まれます。LFM2.5-1.2B-Instructは1.17Bパラメータのハイブリッド推論モデルで、 28Tトークン と強化学習で訓練されており、指示に従うタスク、ツール使用、エージェント的タスクにおいて1B規模でクラス最高の性能を発揮します。詳しくは Hugging Face Jobs でCodexを使ってLFMを訓練する方法を参照してください!

LFM2.5は 1GB未満のRAM で動作し、 239 tok/s のデコード速度をAMD CPUで達成します。ローカルで ファインチューニング することも Unslothで可能です。

テキスト LFM2.5-Instructビジョン LFM2.5-VL

モデル仕様:

  • パラメータ: 1.17B

  • アーキテクチャ: 16層(10のダブルゲーテッドLIV畳み込みブロック + 6つのGQAブロック)

  • トレーニング予算: 28Tトークン

  • コンテキスト長: 32,768トークン

  • 語彙サイズ: 65,536

  • 対応言語: 英語、アラビア語、中国語、フランス語、ドイツ語、日本語、韓国語、スペイン語

⚙️ 使用ガイド

Liquid AIは推論時に以下の設定を推奨します:

  • temperature = 0.1

  • top_k = 50

  • top_p = 0.1

  • repetition_penalty = 1.05

  • 最大コンテキスト長: 32,768

チャットテンプレート形式

LFM2.5はChatML風のフォーマットを使用します:

LFM2.5チャットテンプレート:

ツール使用

LFM2.5は特殊トークンによる関数呼び出しをサポートします <|tool_call_start|><|tool_call_end|>。システムプロンプトでツールをJSONオブジェクトとして提供してください:

🖥️ LFM2.5-1.2B-Instructを実行する

📖 llama.cppチュートリアル(GGUF)

1. llama.cppをビルドする

最新の llama.cpp から GitHubarrow-up-rightに変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPUがない場合は変更してください。 Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

2. Hugging Faceから直接実行する

3. または先にモデルをダウンロードする

4. 会話モードで実行する

🦥 UnslothによるLFM2.5のファインチューニング

UnslothはLFM2.5モデルのファインチューニングをサポートします。1.2Bモデルは無料のColab T4 GPUに余裕で収まります。トレーニングはVRAMを50%削減しつつ2倍速になります。

無料のColabノートブック:

LFM2.5はエージェント的タスク、データ抽出、RAG、ツール使用に推奨されます。知識集約的なタスクやプログラミングには推奨されません。

LFM2.5用Unsloth設定

トレーニング設定

保存とエクスポート

🎉 llama-server サービング&デプロイ

OpenAI互換APIでLFM2.5を本番展開するには:

OpenAIクライアントでテスト:

📊 ベンチマーク

LFM2.5-1.2B-Instructは1B規模でクラス最高の性能を提供し、低メモリ使用で高速なCPU推論を可能にします:

💧 Liquid LFM2.5-1.2B-VLガイド

LFM2.5-VL-1.6BはビジョンLLMで、 LFM2.5-1.2B-Basearrow-up-right を基盤とし、実世界での性能を強化するようにチューニングされています。ローカルで ファインチューニング Unslothで使用できます。

実行チュートリアルファインチューニングチュートリアル

ダイナミックGGUF
16ビット指示用

モデル仕様:

  • 言語モデルバックボーン: LFM2.5-1.2B-Base

  • ビジョンエンコーダー: SigLIP2 NaFlex 形状最適化 400M

  • コンテキスト長: 32,768トークン

  • 語彙サイズ: 65,536

  • 対応言語: 英語、アラビア語、中国語、フランス語、ドイツ語、日本語、韓国語、スペイン語

  • ネイティブ解像度処理: 512×512ピクセルまでの画像をアップスケーリングせずに処理し、非標準アスペクト比を歪ませずに保持します

  • タイル戦略: 大きな画像を非重複の512×512パッチに分割し、グローバルコンテキスト用にサムネイルエンコードを含みます

  • 推論時の柔軟性: 再訓練なしで速度/品質のトレードオフを可能にする、ユーザー調整可能な最大画像トークン数とタイル数を提供します

⚙️ 使用ガイド

Liquid AIは推論時に以下の設定を推奨します:

  • テキスト: temperature=0.1, min_p=0.15, repetition_penalty=1.05

  • ビジョン: min_image_tokens=64, max_image_tokens=256, do_image_splitting=True

チャットテンプレート形式

LFM2.5-VLはChatML風のフォーマットを使用します:

LFM2.5-VLチャットテンプレート:

🖥️ LFM2.5-VL-1.6Bを実行する

📖 llama.cppチュートリアル(GGUF)

1. llama.cppをビルドする

最新のllama.cppを入手してください GitHubarrow-up-rightに変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPUがない場合は変更してください。

2. Hugging Faceから直接実行する

🦥 UnslothでLFM2.5-VLをファインチューニングする

UnslothはLFM2.5モデルのファインチューニングをサポートします。1.6Bモデルは無料のColab T4 GPUに余裕で収まり、トレーニングはVRAMを50%削減しつつ2倍速になります。

無料のColabノートブック:

LFM2.5用Unsloth設定

トレーニング設定

保存とエクスポート

📊 ベンチマーク

LFM2.5-VL-1.6Bはクラス最高の性能を発揮します:

モデル
MMStar
MM-IFEval
BLINK
InfoVQA(検証)
OCRBench(v2)
RealWorldQA
MMMU(検証)
MMMB(平均)
多言語 MMBench(平均)

LFM2.5-VL-1.6B

50.67

52.29

48.82

62.71

41.44

64.84

40.56

76.96

65.90

LFM2-VL-1.6B

49.87

46.35

44.50

58.35

35.11

65.75

39.67

72.13

60.57

InternVL3.5-1B

50.27

36.17

44.19

60.99

33.53

57.12

41.89

68.93

58.32

FastVLM-1.5B

53.13

24.99

43.29

23.92

26.61

61.56

38.78

64.84

50.89

📚 リソース

最終更新

役に立ちましたか?