💧Liquid LFM2.5：実行＆ファインチューニング方法

LFM2.5 Instruct と Vision を自分のデバイスでローカルに実行およびファインチューニングしましょう！

Liquid AIはLFM2.5をリリースしました。これには彼らの instruct および vision モデルが含まれます。LFM2.5-1.2B-Instructは、1.17Bパラメータのハイブリッド推論モデルで、次のデータで訓練されています： 28Tトークン およびRLにより、指示応答、ツール使用、エージェントタスクにおいて1B規模で業界最高クラスの性能を提供します。

LFM2.5は以下未満の環境で実行できます： 1GB RAM そして達成します： 239 tok/s AMD CPUでのデコード。さらに ファインチューン ローカルで実行できます Unslothで。

テキスト LFM2.5-Instruct ビジョン LFM2.5-VL

ダイナミックGGUF

16ビット指示（Instruct）

LFM2.5-1.2B-Instruct-GGUF

LFM2.5-1.2B-Instruct

モデル仕様：

パラメータ: 1.17B
アーキテクチャ: 16層（10のダブルゲートLIV畳み込みブロック + 6つのGQAブロック）
トレーニング予算: 28Tトークン
コンテキスト長: 32,768トークン
語彙サイズ: 65,536
対応言語: 英語、アラビア語、中国語、フランス語、ドイツ語、日本語、韓国語、スペイン語

⚙️ 使用ガイド

Liquid AIは推論のために次の設定を推奨します：

temperature = 0.1
top_k = 50
top_p = 0.1
repetition_penalty = 1.05
最大コンテキスト長： 32,768

チャットテンプレート形式

LFM2.5はChatMLに似た形式を使用します：

tokenizer.apply_chat_template([
    {"role": "system", "content": "You are a helpful assistant trained by Liquid AI."},
    {"role": "user", "content": "What is C. elegans?"},
], add_generation_prompt=True, tokenize=False)

LFM2.5チャットテンプレート：

<|startoftext|><|im_start|>system
You are a helpful assistant trained by Liquid AI.<|im_end|>
<|im_start|>user
What is C. elegans?<|im_end|>
<|im_start|>assistant

ツール使用

LFM2.5は特殊トークンによる関数呼び出しをサポートします <|tool_call_start|> および <|tool_call_end|>。ツールはシステムプロンプト内でJSONオブジェクトとして提供してください：

<|startoftext|><|im_start|>system
ツール一覧: [{"name": "get_weather", "description": "Gets the current weather", "parameters": {"type": "object", "properties": {"city": {"type": "string"}}}}]<|im_end|>
<|im_start|>user
パリの天気は？<|im_end|>
<|im_start|>assistant
<|tool_call_start|>[get_weather(city="Paris")]<|tool_call_end|>

🖥️ LFM2.5-1.2B-Instructを実行する

📖 llama.cpp チュートリアル（GGUF）

1. llama.cppをビルドする

最新の llama.cpp から GitHub。GPUがない場合は -DGGML_CUDA=ON から -DGGML_CUDA=OFF を変更してください。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp

2. Hugging Faceから直接実行する

./llama.cpp/llama-cli \
    -hf LiquidAI/LFM2.5-1.2B-Instruct-GGUF:Q4_K_M \\
    --jinja --ctx-size 32768 \\
    --temp 0.1 --top-k 50 --top-p 0.1 --repeat-penalty 1.05

3. または先にモデルをダウンロードする

import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id="LiquidAI/LFM2.5-1.2B-Instruct-GGUF",
    local_dir="LiquidAI/LFM2.5-1.2B-Instruct-GGUF",
    allow_patterns=["*Q4_K_M*"],
)

4. 会話モードで実行する

./llama.cpp/llama-cli \
    --model LiquidAI/LFM2.5-1.2B-Instruct-GGUF/LFM2.5-1.2B-Instruct-Q4_K_M.gguf \\
    --ctx-size 32768 \\
    --n-gpu-layers 99 \
    --seed 3407 \
    --prio 2 \
    --temp 0.1 \\
    --top-k 50 \\
    --top-p 0.1 \\
    --repeat-penalty 1.05 \\
    --jinja

🦥 UnslothでLFM2.5をファインチューニングする

UnslothはLFM2.5モデルのファインチューニングをサポートします。1.2Bモデルは無料のColab T4 GPUに余裕を持って収まり、トレーニングはVRAMを50%削減して2倍速になります。

無料のColabノートブック：

LFM2.5はエージェンシータスク、データ抽出、RAG、ツール使用に推奨されます。知識集約的なタスクやプログラミングには推奨されません。

LFM2.5用Unsloth設定

from unsloth import FastLanguageModel
import torch

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="LiquidAI/LFM2.5-1.2B-Instruct",
    max_seq_length=4096,
    load_in_4bit=False,
)

model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    target_modules = ["q_proj", "k_proj", "v_proj", "out_proj", "in_proj",
                      "w1", "w2", "w3"],
    lora_alpha=16,
    lora_dropout=0,
    bias="none",
    use_gradient_checkpointing="unsloth",
    random_state=3407,
)

トレーニング設定

from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=4096,
    dataset_num_proc=2,
    packing=False,
    args=TrainingArguments(
        per_device_train_batch_size=2,
        gradient_accumulation_steps=4,
        warmup_steps=5,
        max_steps=60,
        learning_rate=2e-4,
        fp16=not is_bfloat16_supported(),
        bf16=is_bfloat16_supported(),
        logging_steps=1,
        optim="adamw_8bit",
        weight_decay=0.01,
        lr_scheduler_type="linear",
        seed=3407,
        output_dir="outputs",
    ),
)

trainer.train()

保存とエクスポート

# LoRAアダプタを保存
model.save_pretrained("lfm25_lora")
tokenizer.save_pretrained("lfm25_lora")

# マージして16ビットで保存
model.save_pretrained_merged("lfm25_merged", tokenizer, save_method="merged_16bit")

# GGUFへエクスポート
model.save_pretrained_gguf("lfm25_gguf", tokenizer, quantization_method="q4_k_m")

🎉 llama-server サービング & デプロイメント

OpenAI互換APIでLFM2.5を本番デプロイするには：

./llama.cpp/llama-server \
    --model LiquidAI/LFM2.5-1.2B-Instruct-GGUF/LFM2.5-1.2B-Instruct-Q4_K_M.gguf \\
    --alias "LiquidAI/LFM2.5-1.2B-Instruct" \\
    --threads -1 \\
    --n-gpu-layers 99 \
    --ctx-size 32768 \\
    --port 8001 \
    --temp 0.1 \\
    --top-k 50 \\
    --top-p 0.1 \\
    --repeat-penalty 1.05 \\
    --jinja

OpenAIクライアントでテスト：

from openai import OpenAI

client = OpenAI(
    base_url="http://127.0.0.1:8001/v1",
    api_key="sk-no-key-required",
)

completion = client.chat.completions.create(
    model="LiquidAI/LFM2.5-1.2B-Instruct",
    messages=[{"role": "user", "content": "What is 2+2?"}],
)
print(completion.choices[0].message.content)

📊 ベンチマーク

LFM2.5-1.2B-Instructは1B規模で業界最高クラスの性能を提供し、低メモリで高速なCPU推論を実現します：

💧 Liquid LFM2.5-1.2B-VL ガイド

LFM2.5-VL-1.6Bは次をベースに構築されたビジョンLLMです： LFM2.5-1.2B-Base および実世界での強化された性能のためにチューニングされています。現在、 ファインチューン ローカルで実行できます

実行チュートリアル微調整チュートリアル

ダイナミックGGUF

16ビット指示（Instruct）

Unslothで。

LFM2.5-VL-1.6B-GGUF

モデル仕様：

LFM2.5-VL-1.6BLMバックボーン
: LFM2.5-1.2B-Baseビジョンエンコーダー
: SigLIP2 NaFlex 形状最適化 400M: 32,768トークン
コンテキスト長: 65,536
対応言語: 英語、アラビア語、中国語、フランス語、ドイツ語、日本語、韓国語、スペイン語に対応
ネイティブ解像度処理: アップスケーリングせずに最大512×512ピクセルの画像を処理し、非標準のアスペクト比を歪ませずに保持します
タイル戦略: 大きな画像を重複しない512×512パッチに分割し、グローバルコンテキストのためにサムネイル符号化を含みます
推論時の柔軟性: 再訓練なしで速度/品質のトレードオフを可能にする、ユーザーが調整可能な最大画像トークン数とタイル数を備えています

⚙️ 使用ガイド

Liquid AIは推論のために次の設定を推奨します：

テキスト: temperature=0.1, min_p=0.15, repetition_penalty=1.05
ビジョン: min_image_tokens=64, max_image_tokens=256, do_image_splitting=True

チャットテンプレート形式

LFM2.5-VLはChatMLに似た形式を使用します：

tokenizer.apply_chat_template([
    {
        "role": "user",
        "content": [
            {"type": "image"},
            {"type": "text", "text": "What's in this image?"}
        ]
    },
    {"role": "assistant", "content": "I can see a cat sitting on a couch."}
], tokenize=False)

LFM2.5-VLチャットテンプレート：

<|startoftext|><|im_start|>system
You are a helpful multimodal assistant by Liquid AI.<|im_end|>
<|im_start|>user
<image>この画像を説明してください。<|im_end|>
<|im_start|>assistant
この画像はシー・エレガンス（Caenorhabditis elegans、C. elegans）線虫を示しています。<|im_end|>

🖥️ LFM2.5-VL-1.6Bを実行する

📖 llama.cpp チュートリアル（GGUF）

1. llama.cppをビルドする

最新のllama.cppを入手するには GitHub。GPUがない場合は -DGGML_CUDA=ON から -DGGML_CUDA=OFF を変更してください。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp

2. Hugging Faceから直接実行する

./llama.cpp/llama-cli \
  -hf LiquidAI/LFM2.5-VL-1.6B-GGUF:Q4_0 \\
  --image test_image.jpg \\
  --image-max-tokens 64 \\
  -p "What's in this image?" \\
  -n 128

🦥 UnslothでLFM2.5-VLをファインチューニングする

UnslothはLFM2.5モデルのファインチューニングをサポートします。1.6Bモデルは無料のColab T4 GPUに余裕を持って収まり、トレーニングはVRAMを50%削減して2倍速になります。

無料のColabノートブック：

LFM2.5-VL-1.6B SFT LoRAノートブック

LFM2.5用Unsloth設定

from unsloth import FastVisionModel
import torch

model, tokenizer = FastVisionModel.from_pretrained(
    model_name = "LiquidAI/LFM2.5-VL-1.6B",
    max_seq_length = 4096, 
    load_in_4bit = False, 
)

model = FastVisionModel.get_peft_model(
    model,
    finetune_vision_layers     = False, # 現時点ではFalseに設定
    finetune_language_layers   = True, # 言語層を微調整しない場合は False
    finetune_attention_modules = True, # 注意層を微調整しない場合は False
    finetune_mlp_modules       = True, # MLP 層を微調整しない場合は False
    r = 16,         
    lora_alpha = 16,
    lora_dropout = 0,
    bias = "none",
)

トレーニング設定

from unsloth.trainer import UnslothVisionDataCollator
from trl import SFTTrainer, SFTConfig

FastVisionModel.for_training(model) # 訓練のために有効に！

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    data_collator = UnslothVisionDataCollator(model, tokenizer), # 必ず使用！
    train_dataset = converted_dataset,
    args = SFTConfig(
        per_device_train_batch_size = 2,
        gradient_accumulation_steps = 4,
        warmup_steps = 5,
        max_steps = 30,# num_train_epochs = 1, # フルトレーニングにはmax_stepsの代わりにこれを設定
        learning_rate = 2e-4,
        logging_steps = 1,
        optim = "adamw_8bit",
        weight_decay = 0.001,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
        report_to = "none",     # Weights and Biases用
        remove_unused_columns = False,
        dataset_text_field = "",
        dataset_kwargs = {"skip_prepare_dataset": True},
        max_length = 2048,
    ),
)

trainer.train()

保存とエクスポート

# LoRAアダプタを保存
model.save_pretrained("lfm25_lora")
tokenizer.save_pretrained("lfm25_lora")

# マージして16ビットで保存
model.save_pretrained_merged("lfm25_merged", tokenizer, save_method="merged_16bit")

# GGUFへエクスポート
model.save_pretrained_gguf("lfm25_gguf", tokenizer, quantization_method="q4_k_m")

📊 ベンチマーク

LFM2.5-VL-1.6Bは業界最高クラスの性能を発揮します：

モデル

MMStar

MM-IFEval

BLINK

InfoVQA（検証）

OCRBench（v2）

RealWorldQA

MMMU（検証）

MMMB（平均）

多言語 MMBench（平均）

LFM2.5-VL-1.6B-GGUF

50.67

52.29

48.82

62.71

41.44

64.84

40.56

76.96

65.90

LFM2-VL-1.6B

49.87

46.35

44.50

58.35

35.11

65.75

39.67

72.13

60.57

InternVL3.5-1B

50.27

36.17

44.19

60.99

33.53

57.12

41.89

68.93

58.32

FastVLM-1.5B

53.13

24.99

43.29

23.92

26.61

61.56

38.78

64.84

50.89

📚 リソース

前へDeepSeek-R1-0528 次へMagistral

最終更新 21 日前

役に立ちましたか？

hashtag⚙️ 使用ガイド

hashtagチャットテンプレート形式

hashtagツール使用

hashtag🖥️ LFM2.5-1.2B-Instructを実行する

hashtag📖 llama.cpp チュートリアル（GGUF）

hashtag🦥 UnslothでLFM2.5をファインチューニングする

hashtagLFM2.5用Unsloth設定

hashtagトレーニング設定

hashtag保存とエクスポート

hashtag🎉 llama-server サービング & デプロイメント

hashtag📊 ベンチマーク

hashtag💧 Liquid LFM2.5-1.2B-VL ガイド

hashtag⚙️ 使用ガイド

hashtagチャットテンプレート形式

hashtag🖥️ LFM2.5-VL-1.6Bを実行する

hashtag📖 llama.cpp チュートリアル（GGUF）

hashtag🦥 UnslothでLFM2.5-VLをファインチューニングする

hashtagLFM2.5用Unsloth設定

hashtagトレーニング設定

hashtag保存とエクスポート

hashtag📊 ベンチマーク

hashtag📚 リソース

⚙️ 使用ガイド

チャットテンプレート形式

ツール使用

🖥️ LFM2.5-1.2B-Instructを実行する

📖 llama.cpp チュートリアル（GGUF）

🦥 UnslothでLFM2.5をファインチューニングする

LFM2.5用Unsloth設定

トレーニング設定

保存とエクスポート

🎉 llama-server サービング & デプロイメント

📊 ベンチマーク

💧 Liquid LFM2.5-1.2B-VL ガイド

⚙️ 使用ガイド

チャットテンプレート形式

🖥️ LFM2.5-VL-1.6Bを実行する

📖 llama.cpp チュートリアル（GGUF）

🦥 UnslothでLFM2.5-VLをファインチューニングする

LFM2.5用Unsloth設定

トレーニング設定

保存とエクスポート

📊 ベンチマーク

📚 リソース