📙Devstral 2 - 実行ガイド

Mistral Devstral 2 モデル（123B-Instruct-2512 および Small-2-24B-Instruct-2512）をローカルで実行するためのガイド。

Devstral 2 はソフトウェアエンジニアリング向けの Mistral の新しいコーディングおよびエージェント型大規模言語モデルで、以下で利用可能です 24B と 123B サイズです。123B モデルは SWE-bench、コーディング、ツール呼び出し、およびエージェント使用例で SOTA を達成します。24B モデルは 25GB の RAM/VRAM に収まり、123B は 128GB に収まります。

2025年12月13日アップデート

Devstral のチャットテンプレートの問題を解決し、結果は大幅に改善されるはずです。24B と 123B は更新されました。また、2025年12月13日現在の最新の llama.cpp をインストールしてください！

Devstral 2 は視覚機能をサポートし、256k のコンテキストウィンドウを持ち、次と同じアーキテクチャを使用します Ministral 3。これで実行して ファインチューニング 両方のモデルを Unsloth でローカルに実行できます。

すべての Devstral 2 アップロードは当社の Unsloth Dynamic 2.0 手法を使用しており、で最高のパフォーマンスを提供します Aider Polyglot および 5-shot MMLU ベンチマーク。

Devstral-Small-2-24B Devstral-2-123B

Devstral 2 - Unsloth Dynamic GGUF:

Devstral-Small-2-24B-Instruct-2512

Devstral-2-123B-Instruct-2512

Devstral-Small-2-24B-Instruct-2512-GGUF

Devstral-2-123B-Instruct-2512-GGUF

🖥️ Devstral 2 の実行

の実行に関するステップバイステップのガイドを参照してください Devstral 24B と大きい Devstral 123B モデル。両方のモデルは視覚をサポートしますが、現在は 視覚はサポートされていません llama.cpp では

⚙️ 使用ガイド

推論の推奨設定は次のとおりです：

温度約0.15
Min_P を 0.01 に（オプションですが 0.01 がよく機能します。llama.cpp のデフォルトは 0.1）
使用してください --jinja システムプロンプトを有効にするために。
最大コンテキスト長 = 262,144
推奨最小コンテキスト：16,384
最新の llama.cpp をインストールしてください。なぜなら 2025年12月13日のプルリクエストが問題を修正するからです。

🎩Devstral-Small-2-24B

フル精度（Q8）の Devstral-Small-2-24B GGUF は 25GB の RAM/VRAM に収まります。現時点ではテキストのみです。

✨ Devstral-Small-2-24B-Instruct-2512 を llama.cpp で実行

最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

もし直接 llama.cpp 直接モデルを読み込むには、以下を実行できます：（：Q2_K_XL（動的2ビット量子化）や）は量子化タイプです。Hugging Face から直接プルすることもできます：

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF:UD-Q4_K_XL \
    --jinja -ngl 99 --ctx-size 16384 \
    --temp 0.15

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ を選択できます。 UD_Q4_K_XL または他の量子化バージョン。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF",
    local_dir = "unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF",
    allow_patterns = ["*UD-Q4_K_XL*", "*mmproj-F16*"], # Q4_K_XL 用
)

会話モードでモデルを実行する：

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    --model unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF/Devstral-Small-2-24B-Instruct-2512-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF/mmproj-F16.gguf \
    --jinja \
    --n-gpu-layers 99 \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --prio 2 \
    --temp 0.15 \
    --jinja

👀Devstral と視覚

Devstral の画像機能を試すには、まず次のような画像をダウンロードしましょう FP8 Reinforcement Learning with Unsloth 以下：
画像は次で取得します wget https://unsloth.ai/cgi/image/fp8grpolarge_KharloZxEEaHAY2X97CEX.png?width=3840%26quality=80%26format=auto -O unsloth_fp8.png これにより画像は "unsloth_fp8.png" として保存されます
次に画像を読み込むには /image unsloth_fp8.png モデルがロードされた後に以下のように：
その後、プロンプトを与えます この画像を説明してください そして以下を得ます：

🚚Devstral-2-123B

フル精度（Q8）の Devstral-Small-2-123B GGUF は 128GB の RAM/VRAM に収まります。現時点ではテキストのみです。

✨ Devstral-2-123B-Instruct-2512 チュートリアルを実行

最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

HuggingFace から直接プルできます：

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/Devstral-2-123B-Instruct-2512-GGUF:UD-Q2_K_XL \
    --jinja -ngl 99 --ctx-size 16384 \
    --temp 0.15

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ を選択できます。 UD_Q4_K_XL または他の量子化バージョン。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/Devstral-2-123B-Instruct-2512-GGUF",
    local_dir = "unsloth/Devstral-2-123B-Instruct-2512-GGUF",
    allow_patterns = ["*UD-Q2_K_XL*", "*mmproj-F16*"],
)

会話モードでモデルを実行する：

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    --model unsloth/Devstral-2-123B-Instruct-2512-GGUF/Devstral-2-123B-Instruct-2512-UD-Q2_K_XL.gguf \
    --mmproj unsloth/Devstral-2-123B-Instruct-2512-GGUF/mmproj-F16.gguf \
    --jinja \
    --n-gpu-layers 99 \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --prio 2 \
    --temp 0.15 \
    --jinja

🦥 Unsloth で Devstral 2 をファインチューニング

ちょうど Ministral 3のように、Unsloth は Devstral 2 のファインチューニングをサポートします。トレーニングは 2 倍速く、VRAM を 70% 少なく使用し、コンテキスト長を 8 倍長くサポートします。Devstral 2 は 24GB VRAM の L4 GPU に余裕で収まります。

残念ながら、Devstral 2 は 16GB VRAM のメモリ制限をわずかに超えるため、現時点では Google Colab で無料でファインチューニングすることはできません。ただし、 できます 当社のを使ってモデルを無料でファインチューニングできます Kaggle ノートブック（デュアル GPU へのアクセスを提供します）。ノートブックの Magistral モデル名を次のものに変更してください： unsloth/Devstral-Small-2-24B-Instruct-2512 モデル。

Ministral 3 をファインチューニングするための無料の Unsloth ノートブックを作成しており、同じアーキテクチャを共有するため Devstral 2 を直接サポートします！使用したいモデル名に変更してください。

Ministral-3B-Instruct Vision ノートブック（vision）（モデル名を Devstral 2 に変更）
Ministral-3B-Instruct GRPO ノートブック（モデル名を Devstral 2 に変更）

Devstral Vision ファインチューニングノートブック

Google Colabcolab.research.google.com

Devstral Sudoku GRPO RL ノートブック

Google Colabcolab.research.google.com

😎Llama-server のサービングとデプロイ

Devstral 2 を本番環境にデプロイするために、私たちは次を使用します return messages 新しいターミナルで例えば tmux を使い、次でモデルをデプロイします：

./llama.cpp/llama-server \
    --model unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF/Devstral-Small-2-24B-Instruct-2512-UD-Q4_K_XL.gguf \
    --mmproj unsloth/Devstral-Small-2-24B-Instruct-2512-GGUF/mmproj-F16.gguf \
    --alias "unsloth/Devstral-Small-2-24B-Instruct-2512" \
    --n-gpu-layers 999 \
    --fit on \
    --min_p 0.01 \
    --jinja \
    --port 8001 \
    --jinja

上記を実行すると、次が得られます：

その後、新しいターミナルで、を実行した後に： その後、OpenAIのPythonライブラリを使用します（次を行ってください：

from openai import OpenAI
）
from openai import OpenAI
    import json
    openai_client = OpenAI(
)
base_url = "http://127.0.0.1:8001/v1",
    model = "unsloth/Devstral-Small-2-24B-Instruct-2512",
    completion = openai_client.chat.completions.create(
)
print(completion.choices[0].message.content)

これにより単に 4 が出力されます。

🧰Tool Calling with Devstral 2 チュートリアル

に従った後、 Devstral 2 いくつかのツールをロードして Devstral の動作を確認できます！ツールを作成し、Python にコピーして実行してください。

詳細については
を参照してください。ツール呼び出しの方法についての詳細です。新しいターミナルで（tmuxを使っている場合はCTRL+B+Dを使用）、2つの数を加える、Pythonコードを実行する、Linuxコマンドを実行するなどのツールを作成します：
import json, subprocess, random
    from typing import Any
def add_number(a: float | str, b: float | str) -> float:
    return float(a) + float(b)
def multiply_number(a: float | str, b: float | str) -> float:
    return float(a) * float(b)
def substract_number(a: float | str, b: float | str) -> float:
    return float(a) - float(b)
        def write_a_story() -> str:
        return random.choice([
        "A long time ago in a galaxy far far away...",
        "There were 2 friends who loved sloths and code...",
    ])
"The world was ending because every sloth evolved to have superhuman intelligence...",
    "Unbeknownst to one friend, the other accidentally coded a program to evolve sloths...",
        def terminal(command: str) -> str:
        if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command:
    msg = "Cannot execute 'rm, sudo, dd, chmod' commands since they are dangerous"
    print(msg); return msg
        print(f"Executing terminal command `{command}`")
    try:
        return str(subprocess.run(command, capture_output = True, text = True, shell = True, check = True).stdout)
except subprocess.CalledProcessError as e:
    return f"Command failed: {e.stderr}"
    def python(code: str) -> str:
    data = {}
    exec(code, data)
del data["__builtins__"]
    return str(data)
    MAP_FN = {
    "add_number": add_number,
    "multiply_number": multiply_number,
    "substract_number": substract_number,
    "write_a_story": write_a_story,
}
"terminal": terminal,
    {
        "python": python,
        tools = [
            "type": "function",
            "function": {
            "name": "add_number",
                "description": "Add two numbers.",
                "parameters": {
                    "type": "object",
                        "properties": {
                        "a": {
                    },
                    "type": "string",
                        "properties": {
                        "description": "The first number.",
                    },
                },
                "b": {
            },
        },
    },
    {
        "python": python,
        tools = [
            "description": "The second number.",
            "required": ["a", "b"],
            "name": "add_number",
                "description": "Add two numbers.",
                "parameters": {
                    "type": "object",
                        "properties": {
                        "a": {
                    },
                    "type": "string",
                        "properties": {
                        "description": "The first number.",
                    },
                },
                "b": {
            },
        },
    },
    {
        "python": python,
        tools = [
            "name": "multiply_number",
            "description": "Multiply two numbers.",
            "name": "add_number",
                "description": "Add two numbers.",
                "parameters": {
                    "type": "object",
                        "properties": {
                        "a": {
                    },
                    "type": "string",
                        "properties": {
                        "description": "The first number.",
                    },
                },
                "b": {
            },
        },
    },
    {
        "python": python,
        tools = [
            "name": "substract_number",
            "description": "Substract two numbers.",
            "name": "add_number",
                "description": "Add two numbers.",
                "name": "write_a_story",
                "description": "Writes a random story.",
            },
        },
    },
    {
        "python": python,
        tools = [
            "properties": {},
            "required": [],
            "name": "add_number",
                "description": "Add two numbers.",
                "parameters": {
                    "name": "terminal",
                        "properties": {
                        "description": "Perform operations from the terminal.",
                    },
                },
                "command": {
            },
        },
    },
    {
        "python": python,
        tools = [
            "description": "The command you wish to launch, e.g `ls`, `rm`, ...",
            "required": ["command"],
            "name": "add_number",
                "description": "Add two numbers.",
                "parameters": {
                    "name": "python",
                        "properties": {
                        "description": "Call a Python interpreter with some Python code that will be ran.",
                    },
                },
                "code": {
            },
        },
    },
]

次に、モデルをテストするためにランダムな可能なメッセージのリストから簡単な質問をします：

import random
を参照）、いくつかのツール呼び出しを行うことができます：
    "role": "user",
    "content": [random.choice([
        {"type": "text", "text": "物語を書いてもらえますか？"},
        {"type": "text", "text": "今日の日付に3日を足すと何日ですか？"},
        {"type": "text", "text": "現在の時刻をナノ秒で取得してください。"},
        {"type": "text", "text": "Python でフィボナッチ関数を作成し、fib(20) を求めてください。"},
    ])],
}]

次に以下の関数を使用します（コピーして貼り付けて実行してください）。これらは関数呼び出しを自動的に解析します - Devstral 2 は同時に複数回呼び出すことがあります！

temperature = 0.15
from openai import OpenAI
from openai import OpenAI
    import json
    openai_client = OpenAI(
)
repetition_penalty = 1.0,
messages = messages.copy()
model_name = next(iter(openai_client.models.list())).id
print(f"Using model = {model_name}")
has_tool_calls = True
    original_messages_len = len(messages)
    while has_tool_calls:
        print(f"Current messages = {messages}")
        response = openai_client.chat.completions.create(
        model = model_name,
        temperature = temperature,
        top_p = top_p,
    )
    tool_choice = "auto" if tools else None,
    extra_body = {"top_k": top_k, "min_p": min_p, "repetition_penalty" :repetition_penalty,}
    tool_calls = response.choices[0].message.tool_calls or []
    content = response.choices[0].message.content or ""
    tool_calls_dict = [tc.to_dict() for tc in tool_calls] if tool_calls else tool_calls
        messages.append({"role": "assistant", "tool_calls": tool_calls_dict, "content": content,})
        for tool_call in tool_calls:
        fx, args, _id = tool_call.function.name, tool_call.function.arguments, tool_call.id
    out = MAP_FN[fx](**json.loads(args))
        messages.append({"role": "tool", "tool_call_id": _id, "name": fx, "content": str(out),})
print(json.dumps(messages[original_messages_len:], indent = 2))

そして 1 分後、次のようになります：

または JSON 形式では：

[
  {
    "role": "assistant",
    "tool_calls": [
      {
        "id": "JviLK0wUveWguuKQHgZdFdYI2adu85jy",
        tools = [
          "arguments": "{}",
          "name": "write_a_story"
        },
        "type": "function"
      }
    ],
    "content": null
  },
  {
    "role": "tool",
    "tool_call_id": "JviLK0wUveWguuKQHgZdFdYI2adu85jy",
    "name": "substract_number",
    "content": "ずっと昔、遠く離れた銀河で..."
  },
  {
    "role": "assistant",
    "tool_calls": null,
    "content": "遠い銀河で、星々が異世界のような輝きを放っていた場所に、エルドリアという惑星がありました。エルドリアははっきりとした対照に満ちた世界で、そびえ立つ山々の間に鮮やかな都市があり、双子の太陽の下に果てしなく広がる広大な砂漠がありました。エルドリアの人々はエネルギーの扱いにおいて広く知られており、特に彼らの伝説的なレーザーセイバーで有名でした。\n\nこれらのセイバーは単なる武器ではなく、持ち主の魂の延長であり、宇宙の本質で脈打つ希少な結晶から鍛えられていました。各セイバーは独自のもので、その色と力は持ち主の個性と精神を反映していました。最も熟練した戦士たち、セイバーボーンと呼ばれる者たちは、まるで現実の織り成す布と踊るかのような精密さと優雅さでセイバーを操ることができました。\n\nセイバーボーンの中にカエルという名の戦士がいました。カエルは追放されたアウトカーストで、かつて聖なるセイバーテンプルの守護者でしたが、評議会の命令に逆らったため追放されていました。評議会はレーザーセイバーの力を独占し、それを用いてエルドリアの人々を支配しようとしていました。カエルは、セイバーは支配するためではなく、守るために振るわれるべきだと信じていました。\n\nある日、カエルは砂漠の外れにある小さな村から救難信号を受け取りました。その村は冷酷な軍閥ヴェクシスに率いられた、ならず者のセイバーボーンの派閥に襲われていました。ヴェクシスは村の古代の遺物――どんなレーザーセイバーの力も十倍に増幅すると言われる結晶――を手に入れようとしていました。もしヴェクシスが成功すれば、彼の軍隊は無敵となり、エルドリアは闇に包まれるでしょう。\n\nカエルは行動を起こさねばならないと知っていました。彼は宇宙のエネルギーでうなる深い青の刃のセイバーを腰に装着し、砂漠を横断して出発しました。旅は危険で、砂嵐やヴェクシスの偵察兵が仕掛けた隠された罠がありました。しかしカエルは、かつて守ると誓った人々の記憶に駆り立てられて前進しました。\n\n村に到着したとき、戦闘はすでに激しく続いていました。ヴェクシスの戦士たちは残忍な効率でセイバーを振るい、守備側を次々と倒していました。カエルは戦闘に飛び込み、青いセイバーが光のかたまりとなって敵を次々と無力化しました。村人たちは救い主の到着を見て奮起し、自分たちのセイバーを振るって故郷を取り戻すために戦いました。\n\nカエルは村の中央広場でヴェクシスと対峙しました。戦闘指導者のセイバーは病的な緑色で、暗いエネルギーを放っていました。「お前は遅すぎた、カエル」とヴェクシスは嘲りました。「遺物は俺のものだ、それがあればエルドリアを支配する。」カエルは身を固め、セイバーを構えました。「死体の上を越えてもだめだ」と彼は答えました。\n\n二人の戦士はぶつかり合い、セイバーが火花を散らして噛み合いました。カエルは遺物の生み出す生の力がヴェクシスの刃に流れ込むのを感じましたが、退くことはしませんでした。彼は自らのエネルギーを集中させ、セイバーはより一層明るく輝き、ヴェクシスの攻撃を押し返しました。最後の必死の一撃で、カエルはヴェクシスのセイバーを弾き飛ばし、地面に落としました。\n\nヴェクシスは敗北のうなり声を上げましたが、カエルは彼を殺しませんでした。代わりに、彼は選択を与えました：「エルドリアを守るために共に立つか、去って二度と戻らないか。」ヴェクシスは屈し、カエルの言葉の真実を見て、彼と共に立つことを選びました。\n\nヴェクシスの派閥がいまや味方となり、カエルと村人たちは遺物を取り戻し、その力を使ってエルドリアの均衡を回復しました。セイバーテンプルは再編され、レーザーセイバーは再び支配のためではなく守るために振るわれるようになりました。\n\nカエルの伝説は広まり、彼はエルドリアの人々にとって希望の象徴となりました。彼の物語は、最も暗い時でも勇気と正義の光が勝ち得ることを思い出させました。こうしてセイバーボーンは生き続け、そのレーザーセイバーは影に満ちた銀河において力と団結の灯台となったのです。"
  }
]

前へFunctionGemma 次へMinistral 3

最終更新 7 時間前

役に立ちましたか？

hashtagDevstral 2 - Unsloth Dynamic GGUF:

hashtag🖥️ Devstral 2 の実行

hashtag⚙️ 使用ガイド

hashtag🎩Devstral-Small-2-24B

hashtag✨ Devstral-Small-2-24B-Instruct-2512 を llama.cpp で実行

hashtag👀Devstral と視覚

hashtag🚚Devstral-2-123B

hashtag✨ Devstral-2-123B-Instruct-2512 チュートリアルを実行

hashtag🦥 Unsloth で Devstral 2 をファインチューニング

hashtag😎Llama-server のサービングとデプロイ

hashtag🧰Tool Calling with Devstral 2 チュートリアル

Devstral 2 - Unsloth Dynamic GGUF:

🖥️ Devstral 2 の実行

⚙️ 使用ガイド

🎩Devstral-Small-2-24B

✨ Devstral-Small-2-24B-Instruct-2512 を llama.cpp で実行

👀Devstral と視覚

🚚Devstral-2-123B

✨ Devstral-2-123B-Instruct-2512 チュートリアルを実行

🦥 Unsloth で Devstral 2 をファインチューニング

😎Llama-server のサービングとデプロイ

🧰Tool Calling with Devstral 2 チュートリアル