📙Devstral 2 - 実行ガイド

Mistral Devstral 2 モデル(123B-Instruct-2512 および Small-2-24B-Instruct-2512)をローカルで実行するためのガイド。

Devstral 2 はソフトウェアエンジニアリング向けの Mistral の新しいコーディングおよびエージェント型大規模言語モデルで、以下で利用可能です 24B123B サイズです。123B モデルは SWE-bench、コーディング、ツール呼び出し、およびエージェント使用例で SOTA を達成します。24B モデルは 25GB の RAM/VRAM に収まり、123B は 128GB に収まります。

circle-check

Devstral 2 は視覚機能をサポートし、256k のコンテキストウィンドウを持ち、次と同じアーキテクチャを使用します Ministral 3。これで実行して ファインチューニング 両方のモデルを Unsloth でローカルに実行できます。

すべての Devstral 2 アップロードは当社の Unsloth Dynamic 2.0 手法を使用しており、で最高のパフォーマンスを提供します Aider Polyglot および 5-shot MMLU ベンチマーク。

Devstral-Small-2-24BDevstral-2-123B

Devstral 2 - Unsloth Dynamic GGUF:

🖥️ Devstral 2 の実行

の実行に関するステップバイステップのガイドを参照してください Devstral 24B と大きい Devstral 123B モデル。両方のモデルは視覚をサポートしますが、現在は 視覚はサポートされていません llama.cpp では

⚙️ 使用ガイド

推論の推奨設定は次のとおりです:

  • 温度 約0.15

  • Min_P を 0.01 に(オプションですが 0.01 がよく機能します。llama.cpp のデフォルトは 0.1)

  • 使用してください --jinja システムプロンプトを有効にするために。

  • 最大コンテキスト長 = 262,144

  • 推奨最小コンテキスト:16,384

  • 最新の llama.cpp をインストールしてください。なぜなら 2025年12月13日のプルリクエストがarrow-up-right 問題を修正するからです。

🎩Devstral-Small-2-24B

フル精度(Q8)の Devstral-Small-2-24B GGUF は 25GB の RAM/VRAM に収まります。現時点ではテキストのみです。

✨ Devstral-Small-2-24B-Instruct-2512 を llama.cpp で実行

  1. 最新の llama.cppGitHubで入手してくださいarrow-up-right。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

  1. もし直接 llama.cpp 直接モデルを読み込むには、以下を実行できます:(:Q2_K_XL(動的2ビット量子化)や)は量子化タイプです。Hugging Face から直接プルすることもできます:

  1. モデルをダウンロードするには(をインストールした後) モデルをダウンロードするには( を選択できます。 UD_Q4_K_XL または他の量子化バージョン。

  1. 会話モードでモデルを実行する:

👀Devstral と視覚

  1. Devstral の画像機能を試すには、まず次のような画像をダウンロードしましょう FP8 Reinforcement Learning with Unslotharrow-up-right 以下:

  2. 画像は次で取得します wget https://unsloth.ai/cgi/image/fp8grpolarge_KharloZxEEaHAY2X97CEX.png?width=3840%26quality=80%26format=auto -O unsloth_fp8.png これにより画像は "unsloth_fp8.png" として保存されます

  3. 次に画像を読み込むには /image unsloth_fp8.png モデルがロードされた後に以下のように:

  4. その後、プロンプトを与えます この画像を説明してください そして以下を得ます:

🚚Devstral-2-123B

フル精度(Q8)の Devstral-Small-2-123B GGUF は 128GB の RAM/VRAM に収まります。現時点ではテキストのみです。

Devstral-2-123B-Instruct-2512 チュートリアルを実行

  1. 最新の llama.cppGitHubで入手してくださいarrow-up-right。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は

  1. HuggingFace から直接プルできます:

  1. モデルをダウンロードするには(をインストールした後) モデルをダウンロードするには( を選択できます。 UD_Q4_K_XL または他の量子化バージョン。

  1. 会話モードでモデルを実行する:

🦥 Unsloth で Devstral 2 をファインチューニング

ちょうど Ministral 3のように、Unsloth は Devstral 2 のファインチューニングをサポートします。トレーニングは 2 倍速く、VRAM を 70% 少なく使用し、コンテキスト長を 8 倍長くサポートします。Devstral 2 は 24GB VRAM の L4 GPU に余裕で収まります。

残念ながら、Devstral 2 は 16GB VRAM のメモリ制限をわずかに超えるため、現時点では Google Colab で無料でファインチューニングすることはできません。ただし、 できます 当社のを使ってモデルを無料でファインチューニングできます Kaggle ノートブックarrow-up-right(デュアル GPU へのアクセスを提供します)。ノートブックの Magistral モデル名を次のものに変更してください: unsloth/Devstral-Small-2-24B-Instruct-2512 モデル。

circle-check

Devstral Vision ファインチューニングノートブック

Devstral Sudoku GRPO RL ノートブック

😎Llama-server のサービングとデプロイ

Devstral 2 を本番環境にデプロイするために、私たちは次を使用します return messages 新しいターミナルで例えば tmux を使い、次でモデルをデプロイします:

上記を実行すると、次が得られます:

その後、新しいターミナルで、を実行した後に: その後、OpenAIのPythonライブラリを使用します(次を行ってください:

これにより単に 4 が出力されます。

🧰Tool Calling with Devstral 2 チュートリアル

に従った後、 Devstral 2 いくつかのツールをロードして Devstral の動作を確認できます!ツールを作成し、Python にコピーして実行してください。

次に、モデルをテストするためにランダムな可能なメッセージのリストから簡単な質問をします:

次に以下の関数を使用します(コピーして貼り付けて実行してください)。これらは関数呼び出しを自動的に解析します - Devstral 2 は同時に複数回呼び出すことがあります!

そして 1 分後、次のようになります:

または JSON 形式では:

最終更新

役に立ちましたか?