For the complete documentation index, see llms.txt. This page is also available as Markdown.

💥Magistral: 実行とファインチューニング方法

Magistralへようこそ - Mistralの新しい推論モデルです。

Magistral-Small-2509 は、Mistral AI によって開発された推論用 LLM です。コーディングと数学に優れており、複数言語をサポートします。Magistral は 128k トークンのコンテキストウィンドウをサポートし、次からファインチューニングされました Mistral-Small-3.2。Magistral は、単一の RTX 4090 でも、16〜24GB の RAM を搭載した Mac でも、ローカルで問題なく動作します。

Magistral を実行するチュートリアル Magistral のファインチューニング

すべてのアップロードは Unsloth を使用しています Dynamic 2.0 SOTA の 5-shot MMLU と KL Divergence の性能のため、量子化された Mistral LLM を最小限の精度低下で実行・ファインチューニングできることを意味します。

Magistral-Small - Unsloth Dynamic アップロード版:

🖥️ Magistral を実行する

⚙️ 公式推奨設定

Mistral AI によると、推論に推奨される設定は以下のとおりです。

  • Temperature: 0.7

  • Min_P: 0.01(任意ですが、0.01 でうまく動作します。llama.cpp のデフォルトは 0.1 です)

  • 設定 top_p を 0.95 に

  • 128k のコンテキストウィンドウがサポートされていますが、 ただし 性能は 40kを超えると低下する可能性があります。そのため、性能が悪い場合は最大長を 40k に設定することを推奨します。

これは Magistral 2509、2507 に推奨されるシステムプロンプトです:

これは Magistral 2506 に推奨されるシステムプロンプトです:

  • 多言語: Magistral は、英語、フランス語、ドイツ語、ギリシャ語、ヒンディー語、インドネシア語、イタリア語、日本語、韓国語、マレー語、ネパール語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、セルビア語、スペイン語、スウェーデン語、トルコ語、ウクライナ語、ベトナム語、アラビア語、ベンガル語、中国語、ペルシア語を含む多くの言語をサポートしています。

モデルのテスト

Mistral には、Magistral の評価に使える独自の vibe チェック用プロンプトがあります。これらのテストはモデルの完全な非量子化版を実行した結果に基づいていますが、量子化版でも試すことができます:

簡単 - 必ず常に動作するようにしてください

ミディアム - たいていは正解するはず

難しい - たまには正解するはず

いくつかの 出力例を ブログの最後に用意しています。

🦙 チュートリアル:Ollama で Magistral を実行する方法

  1. インストール ollama まだインストールしていない場合は!

  1. 当社の動的量子化版でモデルを実行してください。コンテキスト長は自動設定していないため、Ollama のデフォルトのコンテキスト長がそのまま使われます。 なお、次を呼び出せます ollama serve &を別のターミナルで実行できます!推奨パラメータ(temperature など)はすべて params に含めて Hugging Face にアップロードしています!

  2. また、Magistral は 40K のコンテキスト長をサポートしているので、次を有効にするのが最適です KV キャッシュ量子化を有効にするのが最適です。私たちはメモリ使用量を 50% 節約できる 8bit 量子化を使っています。次も試せます "q4_0" または "q8_0"

  3. Ollama ではデフォルトのコンテキスト長も 4096 に設定されていますここで言及されていますに似ています。 OLLAMA_CONTEXT_LENGTH=8192 として 8192 に変更してください。Magistral は最大 128K をサポートしますが、40K(40960)が最もテストされています。

📖 チュートリアル:llama.cpp で Magistral を実行する方法

  1. 最新の llama.cpp オン GitHub はこちらで入手してください。以下のビルド手順に従っても構いません。変更してください -DGGML_CUDA=ON-DGGML_CUDA=OFF GPU がない場合、または CPU 推論だけを使いたい場合。 Apple Mac / Metal デバイスの場合、次のように設定し -DGGML_CUDA=OFF その後は通常どおり続けてください。Metal サポートはデフォルトで有効です。

  1. もし llama.cpp を使ってモデルを直接読み込みたい場合は、以下のようにできます。(:Q4_K_XL) は量子化タイプです。Hugging Face 経由(ポイント 3)でダウンロードすることもできます。これは ollama run

  1. または でモデルをダウンロードしてください(次をインストールした後 pip install huggingface_hub hf_transfer )。UD-Q4_K_XL、(Unsloth Dynamic)、Q4_K_M、またはその他の量子化版(例:BF16 のフル精度)を選べます。

  1. モデルを実行します。

  2. 編集 --threads -1 を最大 CPU スレッド数に、 --ctx-size 40960 コンテキスト長用(Magistral は 40K のコンテキスト長をサポートしています!) --n-gpu-layers 99 を GPU オフロードする層数に設定します。GPU のメモリ不足が起きる場合は調整してみてください。CPU のみの推論ならこれを削除してください。また、K キャッシュにはメモリ使用量を減らすため 8bit 量子化を使っています。

  3. 会話モードの場合:

サンプル出力

strawberry に "r" は何個ありますか? [正解 = 3]
フランス革命は正確には何日前に始まりましたか? 今日は 2025 年 6 月 4 日です。 [正解 = 86,157 日]

👁 ビジョンサポート

2025年9月以前のMagistral版では、 Xuan-Son HuggingFace からのものが彼らの中で示していました GGUF リポジトリ Mistral 3.1 Instruct のビジョンエンコーダを Devstral に「移植」することが実際に可能であることを示し、Magistral でも同じことができるという意味でした! 私たちのテストと多くのユーザーによれば、かなりうまく動作します! また、mmproj ファイルもアップロードしたので、次のように使えます:

🦥 Unsloth で Magistral をファインチューニング

Mistral Small 3.1 を含む標準的な Mistral モデルと同様に、Unsloth は Magistral のファインチューニングをサポートしています。学習は2倍高速で、VRAM使用量は70%少なく、コンテキスト長は8倍長く対応します。Magistral は24GB VRAMのL4 GPUに余裕で収まります。

Magistral は16GB VRAMのメモリ上限をわずかに超えるため、現時点では Google Colab で無料ファインチューニングすることはできません。ただし、 モデルを無料でファインチューニングできます Kaggleを使えば、デュアルGPUにアクセスできます。

新しい推論トレースでファインチューニングするには、無料の Magistral 用 Kaggle ノートブック

古いバージョンの Unsloth を使っている場合やローカルでファインチューニングしている場合は、最新バージョンの Unsloth をインストールしてください:

💠Dynamic Float8 チェックポイント

また、最大精度を保つために動的手法の一部も活用した、float8 チェックポイント用の人気フォーマットを2つ提供しています:

どちらも vLLM でのデプロイに最適です。vLLM における TorchAO ベースの FP8 quant の使い方を読んでください こちら.

最終更新

役に立ちましたか?