windowsPhi-4 推理:如何运行与微调

学习如何使用 Unsloth 和我们的 Dynamic 2.0 量化在本地运行与微调 Phi-4 推理模型

微软新的 Phi-4 推理模型现在在 Unsloth 中受支持。“plus” 变体的表现可与 OpenAI 的 o1-mini、o3-mini 和 Sonnet 3.7 相媲美。“plus”和标准推理模型为 14B 参数,而“mini”为 4B 参数。 所有 Phi-4 推理上传均使用我们的 Unsloth 动态 2.0 方法。

Phi-4 推理 - Unsloth 动态 2.0 上传:

Dynamic 2.0 GGUF(用于运行)
Dynamic 4-bit Safetensor(用于微调/部署)

🖥️ 运行 Phi-4 推理

⚙️ 官方推荐设置

根据微软,这些是推荐的推理设置:

  • Temperature = 0.8

  • Top_P = 0.95

Phi-4 推理 聊天模板

请确保使用正确的聊天模板,因为“mini” 变体使用不同的模板。

Phi-4-mini:

<|system|>你的名字是 Phi,一名由微软开发的 AI 数学专家。<|end|><|user|>如何解 3*x^2+4*x+5=1?<|end|><|assistant|>

Phi-4-reasoning 和 Phi-4-reasoning-plus:

此格式用于一般对话和指令:

circle-info

是的,聊天模板/提示格式确实这么长!

🦙 Ollama:运行 Phi-4 推理 教程

  1. 安装 ollama 如果你还没有安装!

  1. 运行模型!注意如果失败,您可以在另一个终端中调用 ollama serve如果失败,请在另一个终端中运行。我们在 params 的 Hugging Face 上传中包含了我们所有的修复和建议的参数(温度等)。

📖 Llama.cpp:运行 Phi-4 推理 教程

circle-exclamation
  1. 获取最新的 llama.cpp此处的 GitHubarrow-up-right。您也可以按照下面的构建说明进行。若 -DGGML_CUDA=ON 更改为 -DGGML_CUDA=OFF 如果您没有 GPU 或仅想要在 CPU 上进行推理。 对于 Apple Mac / Metal 设备,设置 -DGGML_CUDA=OFF 然后照常继续 - Metal 支持默认启用。

  1. 通过以下方式下载模型(在安装 pip install huggingface_hub hf_transfer )。您可以选择 Q4_K_M 或其他量化版本。

  1. 在 llama.cpp 中以对话模式运行模型。你必须使用 --jinja 在 llama.cpp 中为模型启用推理。然而,如果你使用的是“mini” 变体,则不需要这样做。

🦥 使用 Unsloth 微调 Phi-4

Phi-4 微调arrow-up-right 这些模型的微调现在也在 Unsloth 中受支持。要在 Google Colab 上免费微调,只需更改 model_name 从 'unsloth/Phi-4' 到 'unsloth/Phi-4-mini-reasoning' 等。

最后更新于

这有帮助吗?