💧Liquid LFM2.5：如何运行与微调

在您的设备上本地运行并微调 LFM2.5 Instruct 与视觉模型！

Liquid AI 发布了 LFM2.5，其中包括他们的 instruct（指令）和 vision（视觉）模型。LFM2.5-1.2B-Instruct 是一个 1.17B 参数的混合推理模型，训练于 28T 令牌 以及强化学习（RL），在 1B 规模上在指令跟随、工具使用和自主任务方面提供了同类最佳的性能。

LFM2.5 在低于 1GB 内存 下运行，并实现了 239 令牌/秒 在 AMD CPU 上解码。你也可以 在本地微调 它使用 Unsloth。

文本 LFM2.5-Instruct 视觉 LFM2.5-VL

动态 GGUFs

16-bit 指令型

LFM2.5-1.2B-Instruct-GGUF

LFM2.5-1.2B-Instruct

模型规格：

参数：1.17B
架构：16 层（10 个双门 LIV 卷积块 + 6 个 GQA 块）
训练预算：28T 令牌
上下文长度：32,768 令牌
词汇表大小: 65,536
语言：英语、阿拉伯语、中文、法语、德语、日语、韩语、西班牙语

⚙️ 使用指南

Liquid AI 建议以下推理设置：

temperature = 0.1（温度）
top_k = 50
top_p = 0.1
repetition_penalty = 1.05（重复惩罚）
最大上下文长度： 32,768

聊天模板格式

LFM2.5 使用类似 ChatML 的格式：

tokenizer.apply_chat_template([
    {"role": "system", "content": "You are a helpful assistant trained by Liquid AI."},
    {"role": "user", "content": "What is C. elegans?"},
], add_generation_prompt=True, tokenize=False)

LFM2.5 聊天模板：

<|startoftext|><|im_start|>system
You are a helpful assistant trained by Liquid AI.<|im_end|>
<|im_start|>user
What is C. elegans?<|im_end|>
<|im_start|>assistant

工具使用

LFM2.5 支持使用特殊标记的函数调用 <|tool_call_start|> 和 <|tool_call_end|>。在系统提示中以 JSON 对象的形式提供工具：

<|startoftext|><|im_start|>system
工具列表：[{"name": "get_weather", "description": "Gets the current weather", "parameters": {"type": "object", "properties": {"city": {"type": "string"}}}}]<|im_end|>
<|im_start|>user
What's the weather in Paris?<|im_end|>
<|im_start|>assistant
<|tool_call_start|>[get_weather(city="Paris")]<|tool_call_end|>

🖥️ 运行 LFM2.5-1.2B-Instruct

📖 llama.cpp 教程（GGUF）

1. 构建 llama.cpp

获取最新的 llama.cpp 来自 GitHub。如果你没有 GPU，请更改 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp

2. 直接从 Hugging Face 运行

./llama.cpp/llama-cli \
    -hf LiquidAI/LFM2.5-1.2B-Instruct-GGUF:Q4_K_M \
    --jinja --ctx-size 32768 \
    --temp 0.1 --top-k 50 --top-p 0.1 --repeat-penalty 1.05

3. 或先下载模型

import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id="LiquidAI/LFM2.5-1.2B-Instruct-GGUF",
    local_dir="LiquidAI/LFM2.5-1.2B-Instruct-GGUF",
    allow_patterns=["*Q4_K_M*"],
)

4. 以对话模式运行

./llama.cpp/llama-cli \
    --model LiquidAI/LFM2.5-1.2B-Instruct-GGUF/LFM2.5-1.2B-Instruct-Q4_K_M.gguf \
    --ctx-size 32768 \
    --n-gpu-layers 99 \
    --seed 3407 \
    --prio 2 \
    --temp 0.1 \
    --top-k 50 \
    --top-p 0.1 \
    --repeat-penalty 1.05 \
    --jinja

🦥 使用 Unsloth 微调 LFM2.5

Unsloth 支持微调 LFM2.5 模型。1.2B 模型可以舒适地部署在免费的 Colab T4 GPU 上。训练速度提高 2 倍且显存使用减少 50%。

免费 Colab 笔记本：

LFM2.5 推荐用于自主任务、数据提取、RAG 和工具使用。不建议用于知识密集型任务或编程。

Unsloth 的 LFM2.5 配置

from unsloth import FastLanguageModel
import torch

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="LiquidAI/LFM2.5-1.2B-Instruct",
    max_seq_length=4096,
    load_in_4bit=False,
)

model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    target_modules = ["q_proj", "k_proj", "v_proj", "out_proj", "in_proj",
                      "w1", "w2", "w3"],
    lora_alpha=16,
    lora_dropout=0,
    bias="none",
    use_gradient_checkpointing="unsloth",
    random_state=3407,
)

训练设置

from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported

trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=dataset,
    dataset_text_field="text",
    max_seq_length=4096,
    dataset_num_proc=2,
    packing=False,
    args=TrainingArguments(
        per_device_train_batch_size=2,
        gradient_accumulation_steps=4,
        warmup_steps=5,
        max_steps=60,
        learning_rate=2e-4,
        fp16=not is_bfloat16_supported(),
        bf16=is_bfloat16_supported(),
        logging_steps=1,
        optim="adamw_8bit",
        weight_decay=0.01,
        lr_scheduler_type="linear",
        seed=3407,
        output_dir="outputs",
    ),
)

trainer.train()

保存与导出

# 保存 LoRA 适配器
model.save_pretrained("lfm25_lora")
tokenizer.save_pretrained("lfm25_lora")

# 合并并保存为 16bit
model.save_pretrained_merged("lfm25_merged", tokenizer, save_method="merged_16bit")

# 导出为 GGUF
model.save_pretrained_gguf("lfm25_gguf", tokenizer, quantization_method="q4_k_m")

🎉 llama-server 服务与部署

要使用兼容 OpenAI 的 API 将 LFM2.5 部署到生产环境：

./llama.cpp/llama-server \
    --model LiquidAI/LFM2.5-1.2B-Instruct-GGUF/LFM2.5-1.2B-Instruct-Q4_K_M.gguf \
    --alias "LiquidAI/LFM2.5-1.2B-Instruct" \
    --threads -1 \
    --n-gpu-layers 99 \
    --ctx-size 32768 \
    --port 8001 \
    --temp 0.1 \
    --top-k 50 \
    --top-p 0.1 \
    --repeat-penalty 1.05 \
    --jinja

使用 OpenAI 客户端测试：

from openai import OpenAI

client = OpenAI(
    base_url="http://127.0.0.1:8001/v1",
    api_key="sk-no-key-required",
)

completion = client.chat.completions.create(
    model="LiquidAI/LFM2.5-1.2B-Instruct",
    messages=[{"role": "user", "content": "What is 2+2?"}],
)
print(completion.choices[0].message.content)

📊 基准测试

LFM2.5-1.2B-Instruct 在 1B 规模上提供同类最佳的性能，并提供低内存使用的快速 CPU 推理：

💧 Liquid LFM2.5-1.2B-VL 指南

LFM2.5-VL-1.6B 是一个视觉大模型，构建于 LFM2.5-1.2B-Base 之上并针对更强的实际表现进行了调优。你现在可以 在本地微调 在本地使用 Unsloth 对其进行微调。

运行教程微调教程

动态 GGUFs

16-bit 指令型

LFM2.5-VL-1.6B-GGUF

LFM2.5-VL-1.6B

模型规格：

语言模型骨干：LFM2.5-1.2B-Base
视觉编码器：SigLIP2 NaFlex 形状优化 400M
上下文长度：32,768 令牌
词汇表大小: 65,536
语言：英语、阿拉伯语、中文、法语、德语、日语、韩语和西班牙语
原生分辨率处理：处理高达 512×512 像素的图像而无需放大，并在不失真情况下保留非标准纵横比
平铺策略：将大图像拆分为不重叠的 512×512 补丁，并包含缩略图编码以获取全局上下文
推理时的灵活性：用户可调整最大图像令牌数和切片计数，以在速度/质量之间进行权衡，无需重新训练

⚙️ 使用指南

Liquid AI 建议以下推理设置：

文本: temperature=0.1（温度）, min_p=0.15, repetition_penalty=1.05（重复惩罚）
视觉：min_image_tokens=64, max_image_tokens=256, do_image_splitting=True

聊天模板格式

LFM2.5-VL 使用类似 ChatML 的格式：

tokenizer.apply_chat_template([
    {
        "role": "user",
        "content": [
            {"type": "image"},
            {"type": "text", "text": "What's in this image?"}
        ]
    },
    {"role": "assistant", "content": "I can see a cat sitting on a couch."}
], tokenize=False)

LFM2.5-VL 聊天模板：

<|startoftext|><|im_start|>system
You are a helpful multimodal assistant by Liquid AI.<|im_end|>
<|im_start|>user
<image>描述这张图片。<|im_end|>
<|im_start|>assistant
这张图片显示了秀丽隐杆线虫（Caenorhabditis elegans，C. elegans）。<|im_end|>

🖥️ 运行 LFM2.5-VL-1.6B

📖 llama.cpp 教程（GGUF）

1. 构建 llama.cpp

获取最新的 llama.cpp 来自 GitHub。如果你没有 GPU，请更改 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-server
cp llama.cpp/build/bin/llama-* llama.cpp

2. 直接从 Hugging Face 运行

./llama.cpp/llama-cli \
  -hf LiquidAI/LFM2.5-VL-1.6B-GGUF:Q4_0 \
  --image test_image.jpg \
  --image-max-tokens 64 \
  -p "What's in this image?" \
  -n 128

🦥 使用 Unsloth 微调 LFM2.5-VL

Unsloth 支持微调 LFM2.5 模型。1.6B 模型可以舒适地部署在免费的 Colab T4 GPU 上。训练速度提高 2 倍且显存使用减少 50%。

免费 Colab 笔记本：

LFM2.5-VL-1.6B SFT LoRA 笔记本

Unsloth 的 LFM2.5 配置

from unsloth import FastVisionModel
import torch

model, tokenizer = FastVisionModel.from_pretrained(
    model_name = "LiquidAI/LFM2.5-VL-1.6B",
    max_seq_length = 4096, 
    load_in_4bit = False, 
)

model = FastVisionModel.get_peft_model(
    model,
    finetune_vision_layers     = False, # 目前设置为 False
    finetune_language_layers   = True, # 若不微调语言层则设为 False
    finetune_attention_modules = True, # 若不微调注意力层则设为 False
    finetune_mlp_modules       = True, # 若不微调 MLP 层则设为 False
    r = 16,         
    lora_alpha = 16,
    lora_dropout = 0,
    bias = "none",
)

训练设置

from unsloth.trainer import UnslothVisionDataCollator
from trl import SFTTrainer, SFTConfig

FastVisionModel.for_training(model) # 启用以进行训练！

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    data_collator = UnslothVisionDataCollator(model, tokenizer), # 必须使用！
    train_dataset = converted_dataset,
    args = SFTConfig(
        per_device_train_batch_size = 2,
        gradient_accumulation_steps = 4,
        warmup_steps = 5,
        max_steps = 30,# num_train_epochs = 1, # 对于完整训练可用此项替代 max_steps
        learning_rate = 2e-4,
        logging_steps = 1,
        optim = "adamw_8bit",
        weight_decay = 0.001,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
        report_to = "none",     # 用于 Weights and Biases
        remove_unused_columns = False,
        dataset_text_field = "",
        dataset_kwargs = {"skip_prepare_dataset": True},
        max_length = 2048,
    ),
)

trainer.train()

保存与导出

# 保存 LoRA 适配器
model.save_pretrained("lfm25_lora")
tokenizer.save_pretrained("lfm25_lora")

# 合并并保存为 16bit
model.save_pretrained_merged("lfm25_merged", tokenizer, save_method="merged_16bit")

# 导出为 GGUF
model.save_pretrained_gguf("lfm25_gguf", tokenizer, quantization_method="q4_k_m")

📊 基准测试

LFM2.5-VL-1.6B 在性能方面提供同类最佳表现：

模型

MMStar

MM-IFEval

BLINK

InfoVQA（验证集）

OCRBench（v2）

RealWorldQA

MMMU（验证集）

MMMB（平均）

多语言 MMBench（平均）

LFM2.5-VL-1.6B

50.67

52.29

48.82

62.71

41.44

64.84

40.56

76.96

65.90

LFM2-VL-1.6B

49.87

46.35

44.50

58.35

35.11

65.75

39.67

72.13

60.57

InternVL3.5-1B

50.27

36.17

44.19

60.99

33.53

57.12

41.89

68.93

58.32

FastVLM-1.5B

53.13

24.99

43.29

23.92

26.61

61.56

38.78

64.84

50.89

📚 资源

上一页DeepSeek-R1-0528 下一页Magistral

最后更新于5天前

这有帮助吗？

hashtag⚙️ 使用指南

hashtag聊天模板格式

hashtag工具使用

hashtag🖥️ 运行 LFM2.5-1.2B-Instruct

hashtag📖 llama.cpp 教程（GGUF）

hashtag🦥 使用 Unsloth 微调 LFM2.5

hashtagUnsloth 的 LFM2.5 配置

hashtag训练设置

hashtag保存与导出

hashtag🎉 llama-server 服务与部署

hashtag📊 基准测试

hashtag💧 Liquid LFM2.5-1.2B-VL 指南

hashtag⚙️ 使用指南

hashtag聊天模板格式

hashtag🖥️ 运行 LFM2.5-VL-1.6B

hashtag📖 llama.cpp 教程（GGUF）

hashtag🦥 使用 Unsloth 微调 LFM2.5-VL

hashtagUnsloth 的 LFM2.5 配置

hashtag训练设置

hashtag保存与导出

hashtag📊 基准测试

hashtag📚 资源

⚙️ 使用指南

聊天模板格式

工具使用

🖥️ 运行 LFM2.5-1.2B-Instruct

📖 llama.cpp 教程（GGUF）

🦥 使用 Unsloth 微调 LFM2.5

Unsloth 的 LFM2.5 配置

训练设置

保存与导出

🎉 llama-server 服务与部署

📊 基准测试

💧 Liquid LFM2.5-1.2B-VL 指南

⚙️ 使用指南

聊天模板格式

🖥️ 运行 LFM2.5-VL-1.6B

📖 llama.cpp 教程（GGUF）

🦥 使用 Unsloth 微调 LFM2.5-VL

Unsloth 的 LFM2.5 配置

训练设置

保存与导出

📊 基准测试

📚 资源