📙Devstral: 実行およびファインチューニング方法
Mistral Devstral 1.1(Small-2507 や 2505 を含む)を実行およびファインチューニングする方法。
Devstral-Small-2507 (Devstral 1.1)はソフトウェアエンジニアリング向けのMistralの新しいエージェンシックLLMです。ツール呼び出し、コードベースの探索、コーディングエージェントの駆動に優れています。Mistral AIはオリジナルの2505バージョンを2025年5月に公開しました。
微調整元: Mistral-Small-3.1、Devstralは128kのコンテキストウィンドウをサポートします。Devstral Small 1.1は性能が向上しており、でのパフォーマンスが53.6%を達成しました。 SWE-bench 検証済み、これにより(2025年7月10日)ベンチマーク上でオープンモデルの中で#1となっています。
Unsloth Devstral 1.1 GGUFには追加の ツール呼び出しサポート と チャットテンプレート修正が含まれます。Devstral 1.1はOpenHandsと引き続き良好に動作しますが、他のプロンプトやコーディング環境にもより一般化するようになりました。
テキスト専用として、視覚エンコーダーは微調整前に削除されました。私たちはモデルに対して オプションのビジョンサポート を追加しました。
また、バックグラウンドでMistralと協力してバグや問題のデバッグ、テスト、修正を支援しました!必ず Mistralの公式ダウンロードかUnslothのGGUFをダウンロードしてください / 動的量子化を使って、 正しい実装を入手してください (例:正しいシステムプロンプト、正しいチャットテンプレートなど)
以下を使用してください --jinja llama.cppでシステムプロンプトを有効にするために!
すべてのDevstralアップロードは当社のUnsloth Dynamic 2.0 手法を使用しており、5ショットMMLUおよびKL Divergenceベンチマークで最高のパフォーマンスを提供します。つまり、量子化したMistral LLMを精度損失を最小限に抑えて実行および微調整できるということです!
Devstral - Unsloth ダイナミック 量子化:
🖥️ Devstralの実行方法
⚙️ 公式推奨設定
Mistral AIによると、推論のための推奨設定は次のとおりです:
Temperature は 0.0 から 0.15 の範囲
Min_P を 0.01 に(オプションですが 0.01 がよく機能します。llama.cpp のデフォルトは 0.1)
使用してください
--jinjaシステムプロンプトを有効にするために。
システムプロンプトの使用が推奨されます、これはOpen Handsのシステムプロンプトの派生です。完全なシステムプロンプトは提供されています こちら.
当社のダイナミックアップロードには 'UD' プレフィックスが含まれています。プレフィックスがないものはダイナミックではありませんが、それでも当社のキャリブレーションデータセットを利用しています。
🦙 チュートリアル:OllamaでDevstralを実行する方法
Ollamaで実行する
をインストールしてくださいまだインストールしていない場合は!
当社のダイナミック量子化でモデルを実行してください。失敗した場合は別のターミナルで
ollama serve とを呼び出せることに注意してください!推奨されるすべてのパラメータ(temperatureなど)はに含めていますを呼び出すことができます!私たちはすべての修正と推奨パラメータ(temperatureなど)をparamsまた、Devstralは128Kのコンテキスト長をサポートしているため、を有効にするのが最適です KVキャッシュの量子化。私たちはKキャッシュに対して8bit量子化を使用しており、メモリ使用量を50%節約します。"q4_0"も試すことができます
"q4_0"
📖 チュートリアル:llama.cppでDevstralを実行する方法
最新の
llama.cppを GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください-DGGML_CUDA=ONに-DGGML_CUDA=OFFGPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください-DGGML_CUDA=OFFその後通常通り続行してください — Metalサポートはデフォルトで有効です。
もし直接
llama.cppを使用したい場合、以下のようにできます:(:Q4_K_XL)は量子化タイプです。Hugging Face(ポイント3)からダウンロードすることもできます。これはollama runに類似しています。ollama run
または モデルをダウンロードする(以下をインストールした後)
モデルをダウンロードするには()。Q4_K_Mや他の量子化バージョン(BF16のフル精度など)を選択できます。
モデルを実行してください。
編集
--threads -1最大のCPUスレッド用、--ctx-size 131072コンテキスト長用(Devstralは128Kのコンテキスト長をサポートします!)、--n-gpu-layers 99GPUオフローディングのために何層をオフロードするか指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合は削除してください。メモリ使用量を減らすためにKキャッシュにも8bit量子化を使用します。会話モードの場合:
会話モード以外でFlappy Birdプロンプトをテストするには:
Devstralが自動的に<bos>を追加するため、<bos>を削除することを忘れないでください!また必ず --jinja システムプロンプトを有効にするために使用してください!
👀実験的ビジョンサポート
Xuan-Son Hugging Faceの GGUFリポジトリ で、Mistral 3.1 InstructのビジョンエンコーダーをDevstral 2507に「移植(graft)」することが実際に可能であることが示されました。私たちもmmprojファイルをアップロードしており、以下を使用できるようにしています:
例えば:


🦥 UnslothでのDevstralの微調整
Mistral Small 3.1を含む標準的なMistralモデルと同様に、UnslothはDevstralの微調整をサポートしています。トレーニングは2倍速く、VRAMを70%少なく使用し、コンテキスト長が8倍長くサポートされます。Devstralは24GB VRAMのL4 GPUに余裕を持って収まります。
残念ながら、Devstralは16GB VRAMのメモリ制限をわずかに超えるため、現時点ではGoogle Colabで無料で微調整することはできません。しかし、あなたは できます 当社のを使ってモデルを無料でファインチューニングできます Kaggle ノートブックを使用できます。これはデュアルGPUへのアクセスを提供します。ノートブックのMagistralモデル名をDevstralモデルに変更してください。
古いバージョンのUnslothを使用している、またはローカルでファインチューニングする場合は、最新バージョンのUnslothをインストールしてください:
最終更新
役に立ちましたか?

