💧Liquid LFM2.5:実行&ファインチューニング方法

LFM2.5 Instruct と Vision を自分のデバイスでローカルに実行およびファインチューニングしましょう!

Liquid AIはLFM2.5をリリースしました。これには彼らの instruct および vision モデルが含まれます。LFM2.5-1.2B-Instructは、1.17Bパラメータのハイブリッド推論モデルで、次のデータで訓練されています: 28Tトークン およびRLにより、指示応答、ツール使用、エージェントタスクにおいて1B規模で業界最高クラスの性能を提供します。

LFM2.5は以下未満の環境で実行できます: 1GB RAM そして達成します: 239 tok/s AMD CPUでのデコード。さらに ファインチューン ローカルで実行できます Unslothで。

テキスト LFM2.5-Instructビジョン LFM2.5-VL

ダイナミックGGUF
16ビット指示(Instruct)

モデル仕様:

  • パラメータ: 1.17B

  • アーキテクチャ: 16層(10のダブルゲートLIV畳み込みブロック + 6つのGQAブロック)

  • トレーニング予算: 28Tトークン

  • コンテキスト長: 32,768トークン

  • 語彙サイズ: 65,536

  • 対応言語: 英語、アラビア語、中国語、フランス語、ドイツ語、日本語、韓国語、スペイン語

⚙️ 使用ガイド

Liquid AIは推論のために次の設定を推奨します:

  • temperature = 0.1

  • top_k = 50

  • top_p = 0.1

  • repetition_penalty = 1.05

  • 最大コンテキスト長: 32,768

チャットテンプレート形式

LFM2.5はChatMLに似た形式を使用します:

LFM2.5チャットテンプレート:

ツール使用

LFM2.5は特殊トークンによる関数呼び出しをサポートします <|tool_call_start|> および <|tool_call_end|>。ツールはシステムプロンプト内でJSONオブジェクトとして提供してください:

🖥️ LFM2.5-1.2B-Instructを実行する

📖 llama.cpp チュートリアル(GGUF)

1. llama.cppをビルドする

最新の llama.cpp から GitHubarrow-up-right。GPUがない場合は -DGGML_CUDA=ON から -DGGML_CUDA=OFF を変更してください。

2. Hugging Faceから直接実行する

3. または先にモデルをダウンロードする

4. 会話モードで実行する

🦥 UnslothでLFM2.5をファインチューニングする

UnslothはLFM2.5モデルのファインチューニングをサポートします。1.2Bモデルは無料のColab T4 GPUに余裕を持って収まり、トレーニングはVRAMを50%削減して2倍速になります。

無料のColabノートブック:

LFM2.5はエージェンシータスク、データ抽出、RAG、ツール使用に推奨されます。知識集約的なタスクやプログラミングには推奨されません。

LFM2.5用Unsloth設定

トレーニング設定

保存とエクスポート

🎉 llama-server サービング & デプロイメント

OpenAI互換APIでLFM2.5を本番デプロイするには:

OpenAIクライアントでテスト:

📊 ベンチマーク

LFM2.5-1.2B-Instructは1B規模で業界最高クラスの性能を提供し、低メモリで高速なCPU推論を実現します:

💧 Liquid LFM2.5-1.2B-VL ガイド

LFM2.5-VL-1.6Bは次をベースに構築されたビジョンLLMです: LFM2.5-1.2B-Basearrow-up-right および実世界での強化された性能のためにチューニングされています。現在、 ファインチューン ローカルで実行できます

実行チュートリアル微調整チュートリアル

ダイナミックGGUF
16ビット指示(Instruct)

モデル仕様:

  • LFM2.5-VL-1.6BLMバックボーン

  • : LFM2.5-1.2B-Baseビジョンエンコーダー

  • : SigLIP2 NaFlex 形状最適化 400M: 32,768トークン

  • コンテキスト長: 65,536

  • 対応言語: 英語、アラビア語、中国語、フランス語、ドイツ語、日本語、韓国語、スペイン語に対応

  • ネイティブ解像度処理: アップスケーリングせずに最大512×512ピクセルの画像を処理し、非標準のアスペクト比を歪ませずに保持します

  • タイル戦略: 大きな画像を重複しない512×512パッチに分割し、グローバルコンテキストのためにサムネイル符号化を含みます

  • 推論時の柔軟性: 再訓練なしで速度/品質のトレードオフを可能にする、ユーザーが調整可能な最大画像トークン数とタイル数を備えています

⚙️ 使用ガイド

Liquid AIは推論のために次の設定を推奨します:

  • テキスト: temperature=0.1, min_p=0.15, repetition_penalty=1.05

  • ビジョン: min_image_tokens=64, max_image_tokens=256, do_image_splitting=True

チャットテンプレート形式

LFM2.5-VLはChatMLに似た形式を使用します:

LFM2.5-VLチャットテンプレート:

🖥️ LFM2.5-VL-1.6Bを実行する

📖 llama.cpp チュートリアル(GGUF)

1. llama.cppをビルドする

最新のllama.cppを入手するには GitHubarrow-up-right。GPUがない場合は -DGGML_CUDA=ON から -DGGML_CUDA=OFF を変更してください。

2. Hugging Faceから直接実行する

🦥 UnslothでLFM2.5-VLをファインチューニングする

UnslothはLFM2.5モデルのファインチューニングをサポートします。1.6Bモデルは無料のColab T4 GPUに余裕を持って収まり、トレーニングはVRAMを50%削減して2倍速になります。

無料のColabノートブック:

LFM2.5用Unsloth設定

トレーニング設定

保存とエクスポート

📊 ベンチマーク

LFM2.5-VL-1.6Bは業界最高クラスの性能を発揮します:

モデル
MMStar
MM-IFEval
BLINK
InfoVQA(検証)
OCRBench(v2)
RealWorldQA
MMMU(検証)
MMMB(平均)
多言語 MMBench(平均)

LFM2.5-VL-1.6B-GGUF

50.67

52.29

48.82

62.71

41.44

64.84

40.56

76.96

65.90

LFM2-VL-1.6B

49.87

46.35

44.50

58.35

35.11

65.75

39.67

72.13

60.57

InternVL3.5-1B

50.27

36.17

44.19

60.99

33.53

57.12

41.89

68.93

58.32

FastVLM-1.5B

53.13

24.99

43.29

23.92

26.61

61.56

38.78

64.84

50.89

📚 リソース

最終更新

役に立ちましたか?