📙Devstral 2 - 実行ガイド

Mistral Devstral 2 モデル(123B-Instruct-2512 と Small-2-24B-Instruct-2512)をローカルで実行するためのガイド。

Devstral 2 はソフトウェアエンジニアリング向けの Mistral の新しいコーディングおよびエージェント型LLMで、以下で利用可能です 24B および 123B サイズです。123BモデルはSWE-bench、コーディング、ツール呼び出し、エージェントのユースケースでSOTAを達成しています。24Bモデルは25GBのRAM/VRAMに収まり、123Bは128GBに収まります。

circle-check

Devstral 2 は視覚機能、256kのコンテキストウィンドウをサポートしており、以下と同じアーキテクチャを使用しています Ministral 3。これで実行および ファインチューン の両方を Unsloth でローカルに行えます。

すべての Devstral 2 アップロードは当社の Unsloth Dynamic 2.0 手法を使用しており、次で最高のパフォーマンスを提供します Aider Polyglot および 5-shot MMLU ベンチマークで。

Devstral-Small-2-24BDevstral-2-123B

Devstral 2 - Unsloth Dynamic GGUF:

🖥️ Devstral 2 の実行

実行に関するステップバイステップガイドを参照してください: Devstral 24B および大規模な Devstral 123B モデル。両モデルは視覚サポートをサポートしますが、現時点では 視覚はサポートされていません llama.cpp では

⚙️ 使用ガイド

以下は推奨される推論設定です:

  • Temperature 約0.15

  • Min_P は 0.01(オプションですが 0.01 がうまく機能します。llama.cpp のデフォルトは 0.1)

  • 使用する --jinja でシステムプロンプトを有効にします。

  • 最大コンテキスト長 = 262,144

  • 推奨最小コンテキスト:16,384

  • 最新の llama.cpp をインストールしてください。なぜなら 2025年12月13日のプルリクエストがarrow-up-right 問題を修正したからです。

🎩Devstral-Small-2-24B

フルプレシジョン(Q8)の Devstral-Small-2-24B GGUF は 25GB の RAM/VRAM に収まります。現時点ではテキストのみです。

✨ llama.cpp で Devstral-Small-2-24B-Instruct-2512 を実行する

  1. 最新の llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

  1. 直接モデルを読み込むために llama.cpp を使用したい場合は、以下を実行できます:(:Q4_K_XL)は量子化タイプです。Hugging Face から直接プルすることもできます:

  1. (以下をインストールした後に)モデルをダウンロードします pip install huggingface_hub hf_transfer )。量子化バージョンとして選べます UD_Q4_K_XL や他のもの。

  1. 会話モードでモデルを実行します:

👀Devstral とビジョン

  1. Devstral の画像機能を試すには、まず次のような画像をダウンロードしましょう FP8 Reinforcement Learning with Unslotharrow-up-right 以下:

  2. 画像は次で取得します wget https://unsloth.ai/cgi/image/fp8grpolarge_KharloZxEEaHAY2X97CEX.png?width=3840%26quality=80%26format=auto -O unsloth_fp8.png これにより画像が "unsloth_fp8.png" として保存されます

  3. 次に画像を読み込むには、 /image unsloth_fp8.png モデルが以下のようにロードされた後に、

  4. その後私たちはそれにプロンプトを与えます この画像を説明してください そして次のような応答を得ます:

🚚Devstral-2-123B

フルプレシジョン(Q8)の Devstral-Small-2-123B GGUF は 128GB の RAM/VRAM に収まります。現時点ではテキストのみです。

Devstral-2-123B-Instruct-2512 チュートリアルを実行する

  1. 最新の llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

  1. HuggingFace から直接プルできます:

  1. (以下をインストールした後に)モデルをダウンロードします pip install huggingface_hub hf_transfer )。量子化バージョンとして選べます UD_Q4_K_XL や他のもの。

  1. 会話モードでモデルを実行します:

🦥 Unsloth による Devstral 2 のファインチューニング

ちょうど Ministral 3のように、Unsloth は Devstral 2 のファインチューニングをサポートします。トレーニングは2倍速く、VRAM 使用量は70%削減され、コンテキスト長は8倍長くなります。Devstral 2 は 24GB VRAM の L4 GPU に余裕を持って収まります。

残念ながら、Devstral 2 は 16GB VRAM のメモリ制限を少し超えるため、現時点では Google Colab で無料でファインチューニングすることはできません。しかし、 あなたは 無料でモデルをファインチューンできます、当社の Kaggle ノートブックarrow-up-rightを使用して、デュアル GPU にアクセスできます。ノートブックの Magistral モデル名を以下に変更してください、 unsloth/Devstral-Small-2-24B-Instruct-2512 モデルに。

circle-check

Devstral Vision ファインチューニングノートブック

Devstral Sudoku GRPO RL ノートブック

😎Llama-server によるサービングとデプロイ

本番用に Devstral 2 をデプロイするには、我々は llama-server を使用します。新しいターミナルで例えば tmux を使い、次でモデルをデプロイします:

上記を実行すると、次が得られます:

その後、新しいターミナルで、次を実行した後に: pip install openai、次を行います:

これにより単純に 4 が出力されます。

🧰Devstral 2 でのツール呼び出しチュートリアル

をフォローした後、 Devstral 2 いくつかのツールを読み込み、Devstral の動作を見ることができます!ツールを作成して Python にコピー&ペーストして実行してください。

その後、モデルをテストするためにランダムなメッセージ候補リストから簡単な質問をします:

次に、下記の関数を使用します(コピーして貼り付けて実行してください)。これらは関数呼び出しを自動的に解析します — Devstral 2 は同時に複数の呼び出しを行うことがあります!

そして1分後、次が得られます:

またはJSON形式では:

最終更新

役に立ちましたか?