📙Devstral: 実行およびファインチューニング方法

Mistral Devstral 1.1(Small-2507 や 2505 を含む)を実行およびファインチューニングする方法。

Devstral-Small-2507 (Devstral 1.1)はソフトウェアエンジニアリング向けのMistralの新しいエージェンシックLLMです。ツール呼び出し、コードベースの探索、コーディングエージェントの駆動に優れています。Mistral AIはオリジナルの2505バージョンを2025年5月に公開しました。

微調整元: Mistral-Small-3.1arrow-up-right、Devstralは128kのコンテキストウィンドウをサポートします。Devstral Small 1.1は性能が向上しており、でのパフォーマンスが53.6%を達成しました。 SWE-bench 検証済みarrow-up-right、これにより(2025年7月10日)ベンチマーク上でオープンモデルの中で#1となっています。

Unsloth Devstral 1.1 GGUFには追加の ツール呼び出しサポートチャットテンプレート修正が含まれます。Devstral 1.1はOpenHandsと引き続き良好に動作しますが、他のプロンプトやコーディング環境にもより一般化するようになりました。

テキスト専用として、視覚エンコーダーは微調整前に削除されました。私たちはモデルに対して オプションのビジョンサポート を追加しました。

circle-check

すべてのDevstralアップロードは当社のUnsloth Dynamic 2.0 手法を使用しており、5ショットMMLUおよびKL Divergenceベンチマークで最高のパフォーマンスを提供します。つまり、量子化したMistral LLMを精度損失を最小限に抑えて実行および微調整できるということです!

Devstral - Unsloth ダイナミック 量子化:

🖥️ Devstralの実行方法

⚙️ 公式推奨設定

Mistral AIによると、推論のための推奨設定は次のとおりです:

  • Temperature は 0.0 から 0.15 の範囲

  • Min_P を 0.01 に(オプションですが 0.01 がよく機能します。llama.cpp のデフォルトは 0.1)

  • 使用してください --jinja システムプロンプトを有効にするために。

システムプロンプトの使用が推奨されます、これはOpen Handsのシステムプロンプトの派生です。完全なシステムプロンプトは提供されています こちらarrow-up-right.

circle-check

🦙 チュートリアル:OllamaでDevstralを実行する方法

  1. Ollamaで実行する をインストールしてください まだインストールしていない場合は!

  1. 当社のダイナミック量子化でモデルを実行してください。失敗した場合は別のターミナルで ollama serve とを呼び出せることに注意してください!推奨されるすべてのパラメータ(temperatureなど)はに含めています を呼び出すことができます!私たちはすべての修正と推奨パラメータ(temperatureなど)を params

  2. また、Devstralは128Kのコンテキスト長をサポートしているため、を有効にするのが最適です KVキャッシュの量子化arrow-up-right。私たちはKキャッシュに対して8bit量子化を使用しており、メモリ使用量を50%節約します。"q4_0"も試すことができます "q4_0"

📖 チュートリアル:llama.cppでDevstralを実行する方法

  1. 最新の llama.cppGitHubで入手してくださいarrow-up-right。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

  1. もし直接 llama.cpp を使用したい場合、以下のようにできます:(:Q4_K_XL)は量子化タイプです。Hugging Face(ポイント3)からダウンロードすることもできます。これはollama runに類似しています。 ollama run

  1. または モデルをダウンロードする(以下をインストールした後) モデルをダウンロードするには( )。Q4_K_Mや他の量子化バージョン(BF16のフル精度など)を選択できます。

  1. モデルを実行してください。

  2. 編集 --threads -1 最大のCPUスレッド用、 --ctx-size 131072 コンテキスト長用(Devstralは128Kのコンテキスト長をサポートします!)、 --n-gpu-layers 99 GPUオフローディングのために何層をオフロードするか指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合は削除してください。メモリ使用量を減らすためにKキャッシュにも8bit量子化を使用します。

  3. 会話モードの場合:

  1. 会話モード以外でFlappy Birdプロンプトをテストするには:

triangle-exclamation

👀実験的ビジョンサポート

Xuan-Sonarrow-up-right Hugging Faceの GGUFリポジトリarrow-up-right で、Mistral 3.1 InstructのビジョンエンコーダーをDevstral 2507に「移植(graft)」することが実際に可能であることが示されました。私たちもmmprojファイルをアップロードしており、以下を使用できるようにしています:

例えば:

命令と出力コード
レンダリングされたコード

🦥 UnslothでのDevstralの微調整

Mistral Small 3.1を含む標準的なMistralモデルと同様に、UnslothはDevstralの微調整をサポートしています。トレーニングは2倍速く、VRAMを70%少なく使用し、コンテキスト長が8倍長くサポートされます。Devstralは24GB VRAMのL4 GPUに余裕を持って収まります。

残念ながら、Devstralは16GB VRAMのメモリ制限をわずかに超えるため、現時点ではGoogle Colabで無料で微調整することはできません。しかし、あなたは できます 当社のを使ってモデルを無料でファインチューニングできます Kaggle ノートブックarrow-up-rightを使用できます。これはデュアルGPUへのアクセスを提供します。ノートブックのMagistralモデル名をDevstralモデルに変更してください。

古いバージョンのUnslothを使用している、またはローカルでファインチューニングする場合は、最新バージョンのUnslothをインストールしてください:

最終更新

役に立ちましたか?