📙Devstral:実行&ファインチューニング

Mistral Devstral 1.1(Small-2507 と 2505 を含む)を実行およびファインチューニングする方法。

Devstral-Small-2507 (Devstral 1.1)はソフトウェア工学向けのMistralの新しいエージェント型LLMです。ツール呼び出し、コードベースの探索、コーディングエージェントの駆動に優れています。Mistral AIは2025年5月にオリジナルの2505バージョンをリリースしました。

から微調整 Mistral-Small-3.1arrow-up-right、Devstralは128kのコンテキストウィンドウをサポートします。Devstral Small 1.1は性能が改善され、でのスコアが53.6%を達成しました。 SWE-bench 検証済みarrow-up-right、これにより(2025年7月10日)ベンチマークでオープンモデルの中で第1位になりました。

Unsloth Devstral 1.1 の GGUF には追加の ツール呼び出しサポート および チャットテンプレートの修正があります。Devstral 1.1 は OpenHands ともうまく動作しますが、他のプロンプトやコーディング環境にもよりよく一般化するようになりました。

テキスト専用として、Devstral のビジョンエンコーダは微調整前に削除されました。私たちはモデルに オプションのビジョンサポート を追加しました。

circle-check

すべての Devstral アップロードは当社の Unsloth Dynamic 2.0 手法を使用しており、5ショット MMLU と KL Divergence ベンチマークで最高のパフォーマンスを提供します。これは、量子化された Mistral LLM を最小限の精度損失で実行および微調整できることを意味します!

Devstral - Unsloth ダイナミック 量子化:

🖥️ Devstral の実行

⚙️ 公式推奨設定

Mistral AI によると、推論の推奨設定は次のとおりです:

  • 温度 0.0 から 0.15

  • Min_P は 0.01(オプションですが 0.01 がうまく機能します。llama.cpp のデフォルトは 0.1)

  • 使用する --jinja でシステムプロンプトを有効にします。

システムプロンプトを推奨されており、Open Hands のシステムプロンプトの派生です。完全なシステムプロンプトは提供されています。 ここarrow-up-right.

circle-check

🦙 チュートリアル:Ollama で Devstral を実行する方法

  1. インストールしてください ollama まだの場合はぜひ!

  1. 当社のダイナミック量子化でモデルを実行してください。失敗した場合は別のターミナルで ollama serve &を呼び出すことができる点に注意してください!推奨するパラメータ(温度等)はすべて params にHugging Faceのアップロードで含めています!

  2. また、Devstral は 128K のコンテキスト長をサポートしているので、を有効にするのが最適です。 KVキャッシュの量子化arrow-up-right私たちは 8bit 量子化を使用し、メモリ使用量を50%節約しています。また試すことができます "q4_0"

📖 チュートリアル:llama.cpp で Devstral を実行する方法

  1. 最新の llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

  1. 直接モデルを読み込むために llama.cpp モデルを直接読み込むには、以下を実行できます:(:Q4_K_XL)は量子化タイプです。Hugging Face(ポイント3)経由でダウンロードすることもできます。これは次に似ています ollama run

  1. または (をインストールした後)経由でモデルをダウンロードします。 pip install huggingface_hub hf_transfer Q4_K_M や他の量子化バージョン(BF16 フル精度のような)を選択できます。

  1. モデルを実行してください。

  2. 編集 --threads -1 最大 CPU スレッドのために、 --ctx-size 131072 コンテキスト長のため(Devstral は 128K コンテキスト長をサポートします!)、 --n-gpu-layers 99 GPU オフロードで何層を使うかに関する設定です。GPU がメモリ不足になる場合は調整してみてください。CPU のみの推論の場合はこれを削除してください。K キャッシュにはメモリ使用量を減らすために 8bit 量子化も使用します。

  3. 会話モードの場合:

  1. Flappy Bird プロンプトをテストする非会話モードの場合:

triangle-exclamation

👀実験的ビジョンサポート

Xuan-Sonarrow-up-right は彼らの GGUF リポジトリarrow-up-right で、Mistral 3.1 Instruct のビジョンエンコーダを Devstral 2507 に「グラフト」することが実際に可能であることを示しました。私たちも mmproj ファイルをアップロードしており、次を使用できるようにしています:

例えば:

指示と出力コード
レンダリングされたコード

🦥 Unsloth による Devstral の微調整

Mistral Small 3.1 を含む標準的な Mistral モデルと同様に、Unsloth は Devstral の微調整をサポートします。トレーニングは2倍速く、VRAM を70%少なく使用し、コンテキスト長は8倍長くサポートします。Devstral は 24GB VRAM の L4 GPU に快適に収まります。

残念ながら、Devstral は 16GB VRAM のメモリ制限をやや超えるため、現時点では Google Colab で無料で微調整することはできません。しかし、あなたは あなたは 無料でモデルをファインチューンできます、当社の Kaggle ノートブックarrow-up-rightを利用できます。これはデュアル GPU へのアクセスを提供します。ノートブックの Magistral モデル名を Devstral モデルに変更するだけです。

Unsloth の古いバージョンを使用している、またはローカルでファインチューニングしている場合は、最新バージョンの Unsloth をインストールしてください:

最終更新

役に立ちましたか?