💧Liquid LFM2.5:如何运行与微调

在您的设备上本地运行并微调 LFM2.5 Instruct 与视觉模型!

Liquid AI 发布了 LFM2.5,其中包括他们的 instruct(指令)vision(视觉) 模型。LFM2.5-1.2B-Instruct 是一个 1.17B 参数的混合推理模型,训练于 28T 令牌 以及强化学习(RL),在 1B 规模上在指令跟随、工具使用和自主任务方面提供了同类最佳的性能。

LFM2.5 在低于 1GB 内存 下运行,并实现了 239 令牌/秒 在 AMD CPU 上解码。你也可以 在本地微调 使用 Unsloth。

文本 LFM2.5-Instruct视觉 LFM2.5-VL

模型规格:

  • 参数:1.17B

  • 架构:16 层(10 个双门 LIV 卷积块 + 6 个 GQA 块)

  • 训练预算:28T 令牌

  • 上下文长度:32,768 令牌

  • 词汇表大小: 65,536

  • 语言:英语、阿拉伯语、中文、法语、德语、日语、韩语、西班牙语

⚙️ 使用指南

Liquid AI 建议以下推理设置:

  • temperature = 0.1(温度)

  • top_k = 50

  • top_p = 0.1

  • repetition_penalty = 1.05(重复惩罚)

  • 最大上下文长度: 32,768

聊天模板格式

LFM2.5 使用类似 ChatML 的格式:

LFM2.5 聊天模板:

工具使用

LFM2.5 支持使用特殊标记的函数调用 <|tool_call_start|><|tool_call_end|>。在系统提示中以 JSON 对象的形式提供工具:

🖥️ 运行 LFM2.5-1.2B-Instruct

📖 llama.cpp 教程(GGUF)

1. 构建 llama.cpp

获取最新的 llama.cpp 来自 GitHubarrow-up-right。如果你没有 GPU,请更改 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU。

2. 直接从 Hugging Face 运行

3. 或先下载模型

4. 以对话模式运行

🦥 使用 Unsloth 微调 LFM2.5

Unsloth 支持微调 LFM2.5 模型。1.2B 模型可以舒适地部署在免费的 Colab T4 GPU 上。训练速度提高 2 倍且显存使用减少 50%。

免费 Colab 笔记本:

LFM2.5 推荐用于自主任务、数据提取、RAG 和工具使用。不建议用于知识密集型任务或编程。

Unsloth 的 LFM2.5 配置

训练设置

保存与导出

🎉 llama-server 服务与部署

要使用兼容 OpenAI 的 API 将 LFM2.5 部署到生产环境:

使用 OpenAI 客户端测试:

📊 基准测试

LFM2.5-1.2B-Instruct 在 1B 规模上提供同类最佳的性能,并提供低内存使用的快速 CPU 推理:

💧 Liquid LFM2.5-1.2B-VL 指南

LFM2.5-VL-1.6B 是一个视觉大模型,构建于 LFM2.5-1.2B-Base 之上arrow-up-right 并针对更强的实际表现进行了调优。你现在可以 在本地微调 在本地使用 Unsloth 对其进行微调。

运行教程微调教程

模型规格:

  • 语言模型骨干:LFM2.5-1.2B-Base

  • 视觉编码器:SigLIP2 NaFlex 形状优化 400M

  • 上下文长度:32,768 令牌

  • 词汇表大小: 65,536

  • 语言:英语、阿拉伯语、中文、法语、德语、日语、韩语和西班牙语

  • 原生分辨率处理:处理高达 512×512 像素的图像而无需放大,并在不失真情况下保留非标准纵横比

  • 平铺策略:将大图像拆分为不重叠的 512×512 补丁,并包含缩略图编码以获取全局上下文

  • 推理时的灵活性:用户可调整最大图像令牌数和切片计数,以在速度/质量之间进行权衡,无需重新训练

⚙️ 使用指南

Liquid AI 建议以下推理设置:

  • 文本: temperature=0.1(温度), min_p=0.15, repetition_penalty=1.05(重复惩罚)

  • 视觉:min_image_tokens=64, max_image_tokens=256, do_image_splitting=True

聊天模板格式

LFM2.5-VL 使用类似 ChatML 的格式:

LFM2.5-VL 聊天模板:

🖥️ 运行 LFM2.5-VL-1.6B

📖 llama.cpp 教程(GGUF)

1. 构建 llama.cpp

获取最新的 llama.cpp 来自 GitHubarrow-up-right。如果你没有 GPU,请更改 -DGGML_CUDA=ON 改为 -DGGML_CUDA=OFF 如果你没有 GPU。

2. 直接从 Hugging Face 运行

🦥 使用 Unsloth 微调 LFM2.5-VL

Unsloth 支持微调 LFM2.5 模型。1.6B 模型可以舒适地部署在免费的 Colab T4 GPU 上。训练速度提高 2 倍且显存使用减少 50%。

免费 Colab 笔记本:

Unsloth 的 LFM2.5 配置

训练设置

保存与导出

📊 基准测试

LFM2.5-VL-1.6B 在性能方面提供同类最佳表现:

模型
MMStar
MM-IFEval
BLINK
InfoVQA(验证集)
OCRBench(v2)
RealWorldQA
MMMU(验证集)
MMMB(平均)
多语言 MMBench(平均)

LFM2.5-VL-1.6B

50.67

52.29

48.82

62.71

41.44

64.84

40.56

76.96

65.90

LFM2-VL-1.6B

49.87

46.35

44.50

58.35

35.11

65.75

39.67

72.13

60.57

InternVL3.5-1B

50.27

36.17

44.19

60.99

33.53

57.12

41.89

68.93

58.32

FastVLM-1.5B

53.13

24.99

43.29

23.92

26.61

61.56

38.78

64.84

50.89

📚 资源

最后更新于

这有帮助吗?