💧Liquid LFM2.5:如何运行和微调

在你的设备上本地运行并微调 LFM2.5 Instruct 和 Vision!

Liquid AI 发布 LFM2.5,包括其 指令 以及 视觉 模型。LFM2.5-1.2B-Instruct 是一个 11.7 亿参数的混合推理模型,基于 28T 词元 和 RL 训练,在 10 亿参数规模上为指令跟随、工具使用和 agentic 任务提供同类最佳性能。见 Hugging Face Jobs 关于使用 Codex 训练 LFM!

LFM2.5 可在低于 1GB 内存 的环境下运行,并实现 239 tok/s 在 AMD CPU 上解码。你也可以 微调 它本地运行 使用 Unsloth。

文本 LFM2.5-Instruct视觉 LFM2.5-VL

模型规格:

  • 参数:11.7 亿

  • 架构:16 层(10 个双门控 LIV 卷积块 + 6 个 GQA 块)

  • 训练预算:28T 词元

  • 上下文长度:32,768 词元

  • 词汇表大小: 65,536

  • 语言:英语、阿拉伯语、中文、法语、德语、日语、韩语、西班牙语

⚙️ 使用指南

Liquid AI 为推理推荐以下设置:

  • temperature = 0.1

  • top_k = 50

  • top_p = 0.1

  • repetition_penalty = 1.05

  • 最大上下文长度: 32,768

聊天模板格式

LFM2.5 使用类似 ChatML 的格式:

LFM2.5 聊天模板:

工具使用

LFM2.5 支持使用特殊词元进行函数调用 <|tool_call_start|> 以及 <|tool_call_end|>。在系统提示中将工具以 JSON 对象形式提供:

🖥️ 运行 LFM2.5-1.2B-Instruct

📖 llama.cpp 教程(GGUF)

1. 构建 llama.cpp

获取最新的 llama.cppGitHub。更改 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后像平常一样继续——Metal 支持默认开启。

2. 直接从 Hugging Face 运行

3. 或者先下载模型

4. 在对话模式下运行

🦥 使用 Unsloth 微调 LFM2.5

Unsloth 支持对 LFM2.5 模型进行微调。1.2B 模型可以轻松在免费的 Colab T4 GPU 上运行。训练速度快 2 倍,显存占用减少 50%。

免费 Colab 笔记本:

建议将 LFM2.5 用于 agentic 任务、数据提取、RAG 和工具使用。不建议用于知识密集型任务或编程。

LFM2.5 的 Unsloth 配置

训练设置

保存与导出

🎉 llama-server 提供服务与部署

要使用兼容 OpenAI 的 API 将 LFM2.5 部署到生产环境:

使用 OpenAI 客户端测试:

📊 基准测试

LFM2.5-1.2B-Instruct 在 10 亿参数规模上提供同类最佳性能,并以低内存占用提供快速 CPU 推理:

💧 Liquid LFM2.5-1.2B-VL 指南

LFM2.5-VL-1.6B 是建立在其上的视觉 LLM LFM2.5-1.2B-Base 并针对更强的真实世界性能进行了调优。你现在可以 微调 它本地运行,使用 Unsloth。

运行教程微调教程

动态 GGUF
16 位 Instruct

模型规格:

  • LM 主干:LFM2.5-1.2B-Base

  • 视觉编码器:SigLIP2 NaFlex 形状优化版 400M

  • 上下文长度:32,768 词元

  • 词汇表大小: 65,536

  • 语言:英语、阿拉伯语、中文、法语、德语、日语、韩语和西班牙语

  • 原生分辨率处理:可处理最高 512×512 像素的图像而无需放大,并在不失真的情况下保留非标准宽高比

  • 切块策略:将大图像拆分为不重叠的 512×512 图块,并包含用于全局上下文的缩略图编码

  • 推理时灵活性:用户可调节最大图像词元和图块数量,在无需重新训练的情况下权衡速度与质量

⚙️ 使用指南

Liquid AI 为推理推荐以下设置:

  • 文本: temperature=0.1, min_p=0.15, repetition_penalty=1.05

  • 视觉:min_image_tokens=64, max_image_tokens=256, do_image_splitting=True

聊天模板格式

LFM2.5-VL 使用类似 ChatML 的格式:

LFM2.5-VL 聊天模板:

🖥️ 运行 LFM2.5-VL-1.6B

📖 llama.cpp 教程(GGUF)

1. 构建 llama.cpp

从以下位置获取最新的 llama.cpp GitHub。更改 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU。

2. 直接从 Hugging Face 运行

🦥 使用 Unsloth 微调 LFM2.5-VL

Unsloth 支持对 LFM2.5 模型进行微调。1.6B 模型可以轻松在免费的 Colab T4 GPU 上运行。训练速度快 2 倍,显存占用减少 50%。

免费 Colab 笔记本:

LFM2.5 的 Unsloth 配置

训练设置

保存与导出

📊 基准测试

LFM2.5-VL-1.6B 提供同类最佳性能:

模型
MMStar
MM-IFEval
BLINK
InfoVQA(验证集)
OCRBench(v2)
RealWorldQA
MMMU(验证集)
MMMB(平均)
多语言 MMBench(平均)

LFM2.5-VL-1.6B

50.67

52.29

48.82

62.71

41.44

64.84

40.56

76.96

65.90

LFM2-VL-1.6B

49.87

46.35

44.50

58.35

35.11

65.75

39.67

72.13

60.57

InternVL3.5-1B

50.27

36.17

44.19

60.99

33.53

57.12

41.89

68.93

58.32

FastVLM-1.5B

53.13

24.99

43.29

23.92

26.61

61.56

38.78

64.84

50.89

📚 资源

最后更新于

这有帮助吗?