💥Magistral: 実行およびファインチューニング方法

Magistral を紹介します - Mistral の新しい推論モデルです。

Magistral-Small-2509 はMistral AIによって開発された推論向けLLMです。コーディングや数学に優れており、複数の言語をサポートします。Magistralは128kトークンのコンテキストウィンドウをサポートし、以下からファインチューニングされました Mistral-Small-3.2arrow-up-right。Magistralは単体のRTX 4090や16〜24GB RAM搭載のMac上でローカルに問題なく動作します。

Magistralの実行チュートリアル Magistralのファインチューニング

circle-check

すべてのアップロードはUnslothを使用しています Dynamic 2.0 最先端の5ショットMMLUおよびKLダイバージェンスのパフォーマンスを得られます。つまり、量子化されたMistral LLMを精度損失を最小限に抑えて実行およびファインチューニングできます。

Magistral-Small - Unsloth ダイナミック アップロード:

🖥️ Magistralの実行

⚙️ 公式推奨設定

Mistral AIによると、推論のための推奨設定は次のとおりです:

  • Temperature: 0.7

  • Min_P: 0.01(任意ですが0.01は良好に機能します。llama.cppのデフォルトは0.1です)

  • 次を設定してください top_p: 0.95

  • 128kのコンテキストウィンドウがサポートされています、 しかし パフォーマンスはを超えると劣化する可能性があります 40k。したがって、パフォーマンスが悪化する場合は最大長を40kに設定することを推奨します。

これはMagistral 2509、2507向けの推奨システムプロンプトです:

これはMagistral 2506向けの推奨システムプロンプトです:

circle-check
  • 多言語対応: Magistralは次を含む多くの言語をサポートします:英語、フランス語、ドイツ語、ギリシャ語、ヒンディー語、インドネシア語、イタリア語、日本語、韓国語、マレー語、ネパール語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、セルビア語、スペイン語、スウェーデン語、トルコ語、ウクライナ語、ベトナム語、アラビア語、ベンガル語、中国語、そしてペルシア語(ファールシー)。

モデルのテスト

MistralにはMagistralを評価するために使用できる独自の「vibe checking」プロンプトがあります。これらのテストはモデルの未量子化版をフルで実行することに基づいている点に留意してください。ただし、量子化版でもテストすることは可能です:

簡単 - 常に動作することを確認してください

Medium(中) - ほとんどの場合正しいべきです

難しい - 時々正解するべきです

いくつかを提供します 例の出力 ブログの最後に。

🦙 チュートリアル: OllamaでMagistralを実行する方法

  1. Ollamaで実行する をインストールしてください まだインストールしていない場合は!

  1. 動的量子化でモデルを実行します。コンテキスト長を自動設定していないので、Ollamaのデフォルトのコンテキスト長が使われます。 呼び出すことができます ollama serve とを呼び出せることに注意してください!推奨されるすべてのパラメータ(temperatureなど)はに含めています を呼び出すことができます!私たちはすべての修正と推奨パラメータ(temperatureなど)を params

  2. また、Magistralは40Kのコンテキスト長をサポートしているので、有効にするのが最良です KVキャッシュの量子化arrow-up-right。私たちはKキャッシュに対して8bit量子化を使用しており、メモリ使用量を50%節約します。"q4_0"も試すことができます "q4_0" または "q8_0"

  3. Ollamaはデフォルトのコンテキスト長を4096にも設定します、として ここに記載されていますarrow-up-rightに類似しています。 OLLAMA_CONTEXT_LENGTH=8192 それを8192に変更します。Magistralは最大128Kをサポートしますが、40K(40960)が最もテストされています。

📖 チュートリアル: llama.cppでMagistralを実行する方法

  1. 最新の llama.cppGitHubで入手してくださいarrow-up-right。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

  1. もし直接 llama.cpp を使用したい場合、以下のようにできます:(:Q4_K_XL)は量子化タイプです。Hugging Face(ポイント3)からダウンロードすることもできます。これはollama runに類似しています。 ollama run

circle-exclamation
  1. または モデルをダウンロードする(以下をインストールした後) モデルをダウンロードするには( )。UD-Q4_K_XL(Unsloth Dynamic)、Q4_K_M、または他の量子化バージョン(BF16フル精度のような)を選択できます。

  1. モデルを実行してください。

  2. 編集 --threads -1 最大のCPUスレッド用、 --ctx-size 40960 コンテキスト長のために(Magistralは40Kのコンテキスト長をサポートします!)、 --n-gpu-layers 99 GPUオフローディングのために何層をオフロードするか指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合は削除してください。メモリ使用量を減らすためにKキャッシュにも8bit量子化を使用します。

  3. 会話モードの場合:

circle-exclamation

サンプル出力

chevron-rightstrawberry に "r" はいくつありますか? [正解 = 3]hashtag
chevron-rightフランス革命はちょうど何日前に始まったのか正確に?今日は2025年6月4日です。[正解 = 86,157日]hashtag

👁ビジョンサポート

circle-check

2025年9月以前の Magistral バージョンについては、 Xuan-Sonarrow-up-right HuggingFace からは次のように示されていました、 GGUFリポジトリarrow-up-right 実際に Mistral 3.1 Instruct のビジョンエンコーダを Devstral に“グラフト”することが可能であり、同じことを Magistral にも行えるということです!我々のテストと多くのユーザーによると、非常にうまく機能します。私たちはまた mmproj ファイルをアップロードしており、以下を使用できるようにしました:

🦥 Unsloth による Magistral のファインチューニング

Mistral Small 3.1 を含む標準的な Mistral モデルと同様に、Unsloth は Magistral のファインチューニングをサポートします。トレーニングは2倍速く、VRAMを70%少なく使用し、文脈長を8倍長くサポートします。Magistral は24GB VRAMのL4 GPUに余裕で収まります。

Magistral は16GB VRAMのメモリ制限をやや超えるため、現時点ではGoogle Colabで無料でファインチューニングすることは不可能です。しかし、 できます 無料でモデルをファインチューニングするには、 Kaggle を使用できます、arrow-up-rightKaggle はデュアルGPUへのアクセスを提供します。

新しい推論トレースでファインチューニングするには、我々の無料の Magistral 用の Kaggle ノートブック を使用できます。arrow-up-right

古いバージョンのUnslothを使用している、またはローカルでファインチューニングする場合は、最新バージョンのUnslothをインストールしてください:

💠動的 Float8 チェックポイント

また、精度を最大限保持するための動的手法の一部を利用した、float8 チェックポイントの2つの一般的なフォーマットも提供しています:

どちらも vLLM 経由でのデプロイに最適です。vLLM で TorchAO ベースの FP8 量子化を使用する方法について読んでください。 こちらarrow-up-right.

最終更新

役に立ちましたか?