windowsPhi-4 推理:如何运行与微调

学习如何使用 Unsloth 与我们的 Dynamic 2.0 量化在本地运行与微调 Phi-4 推理模型

Microsoft 的新 Phi-4 推理模型现在在 Unsloth 中受支持。“plus” 变体的表现与 OpenAI 的 o1-mini、o3-mini 和 Sonnet 3.7 不相上下。“plus”和标准推理模型为 14B 参数,而“mini”为 4B 参数。 所有 Phi-4 推理上传都使用我们的 Unsloth Dynamic 2.0 方法论。

Phi-4 推理 - Unsloth Dynamic 2.0 上传:

Dynamic 2.0 GGUF(用于运行)
动态 4-bit Safetensor(用于微调/部署)

🖥️ 运行 Phi-4 推理

⚙️ 官方推荐设置

根据 Microsoft,以下是推理的推荐设置:

  • Temperature = 0.8

  • Top_P = 0.95

Phi-4 推理 聊天模板

请确保使用正确的聊天模板,因为“mini” 变体使用不同的模板。

Phi-4-mini:

<|system|>你的名字是 Phi,一位由 Microsoft 开发的 AI 数学专家。<|end|><|user|>如何解 3*x^2+4*x+5=1?<|end|><|assistant|>

Phi-4-reasoning 和 Phi-4-reasoning-plus:

此格式用于一般对话和指令:

circle-info

是的,聊天模板/提示格式就是这么长!

🦙 Ollama:运行 Phi-4 推理 教程

  1. 安装 ollama 如果你还没有安装!

  1. 运行模型!注意如果失败你可以在另一个终端调用 ollama serve如果失败,请在另一个终端中重试。我们在 params 我们的 Hugging Face 上传中包含了所有修复和建议的参数(温度等)。

📖 Llama.cpp:运行 Phi-4 推理 教程

circle-exclamation
  1. 获取最新的 llama.cpp此处 GitHubarrow-up-right。您也可以按下面的构建说明进行。若要更改 -DGGML_CUDA=ON-DGGML_CUDA=OFF 若您没有 GPU 或仅想要 CPU 推理,请这样设置。

  1. 通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。您可以选择 Q4_K_M 或其他量化版本。

  1. 在 llama.cpp 中以对话模式运行模型。你必须使用 --jinja 在 llama.cpp 中为这些模型启用推理。但是如果你使用的是“mini” 变体,则不需要此操作。

🦥 使用 Unsloth 对 Phi-4 进行微调

Phi-4 微调arrow-up-right 这些模型的微调现在也在 Unsloth 中受支持。要在 Google Colab 上免费微调,只需更改 model_name 将 'unsloth/Phi-4' 更改为 'unsloth/Phi-4-mini-reasoning' 等即可。

最后更新于

这有帮助吗?