💥Magistral:実行&ファインチューニング

Magistral を紹介します - Mistral の新しい推論(reasoning)モデル。

Magistral-Small-2509 これは Mistral AI によって開発された推論型の大規模言語モデルです。コーディングと数学に優れ、複数言語をサポートします。Magistral は 128k トークンのコンテキストウィンドウをサポートしており、次のモデルからファインチューニングされています: Mistral-Small-3.2arrow-up-right。Magistral は単一の RTX 4090 や 16〜24GB の RAM を搭載した Mac 上でローカルに問題なく動作します。

Magistral の実行チュートリアル Magistral のファインチューニング

circle-check

すべてのアップロードはUnslothを使用しています Dynamic 2.0 最先端の 5-shot MMLU と KL 発散性能のため、つまり最小限の精度低下で量子化された Mistral LLM を実行およびファインチューニングできます。

Magistral-Small - Unsloth Dynamic アップロード:

🖥️ Magistral の実行

⚙️ 公式推奨設定

Mistral AI によると、推論の推奨設定は次のとおりです:

  • Temperature:0.7

  • Min_P:0.01(任意ですが 0.01 がよく機能します。llama.cpp のデフォルトは 0.1)

  • を設定してください top_p:0.95

  • 128k のコンテキストウィンドウをサポートしますが、 しかし、 パフォーマンスは次を超えると低下する可能性があります: 40k。したがって、パフォーマンスが悪化する場合は最大長を 40k に設定することを推奨します。

これは Magistral 2509、2507 の推奨システムプロンプトです:

これは Magistral 2506 の推奨システムプロンプトです:

circle-check
  • 多言語: Magistral は次の言語を含む多くの言語をサポートします:英語、フランス語、ドイツ語、ギリシャ語、ヒンディー語、インドネシア語、イタリア語、日本語、韓国語、マレー語、ネパール語、ポーランド語、ポルトガル語、ルーマニア語、ロシア語、セルビア語、スペイン語、スウェーデン語、トルコ語、ウクライナ語、ベトナム語、アラビア語、ベンガル語、中国語、ペルシャ語。

モデルのテスト

Mistral には Magistral を評価するために使用できる独自のバイブチェック用プロンプトがあります。これらのテストはモデルの完全な非量子化バージョンを実行することに基づいている点に注意してください。ただし、量子化バージョンでもテストすることは可能です:

簡単 - 常に動作することを確認してください

Medium - ほとんどの場合正しいはずです

難しい - 時々正解するはずです

いくつかを提供します 例の出力 ブログの最後に。

🦙 チュートリアル: OllamaでMagistralを実行する方法

  1. インストールしてください ollama まだの場合はぜひ!

  1. 動的量子化でモデルを実行します。コンテキスト長は自動で設定しなかったので、Ollamaのデフォルトのコンテキスト長が使用されます。 なお、呼び出すことができます ollama serve &を呼び出すことができる点に注意してください!推奨するパラメータ(温度等)はすべて params にHugging Faceのアップロードで含めています!

  2. また、Magistralは40Kのコンテキスト長に対応しているので、を有効にするのが最適です KVキャッシュの量子化arrow-up-right私たちは 8bit 量子化を使用し、メモリ使用量を50%節約しています。また試すことができます "q4_0" または "q8_0"

  3. Ollamaはデフォルトのコンテキスト長を4096に設定します、として ここで述べられていますarrow-up-rightに類似しています。使用してください OLLAMA_CONTEXT_LENGTH=8192 を8192に変更します。Magistralは最大128Kをサポートしますが、最もテストされているのは40K(40960)です。

📖 チュートリアル: llama.cppでMagistralを実行する方法

  1. 最新の llama.cppGitHub で入手arrow-up-rightできます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

  1. 直接モデルを読み込むために llama.cpp モデルを直接読み込むには、以下を実行できます:(:Q4_K_XL)は量子化タイプです。Hugging Face(ポイント3)経由でダウンロードすることもできます。これは次に似ています ollama run

circle-exclamation
  1. または (をインストールした後)経由でモデルをダウンロードします。 pip install huggingface_hub hf_transfer )。UD-Q4_K_XL(Unsloth Dynamic)、Q4_K_M、または他の量子化バージョン(BF16フル精度など)を選択できます。

  1. モデルを実行してください。

  2. 編集 --threads -1 最大 CPU スレッドのために、 --ctx-size 40960 コンテキスト長用(Magistralは40Kのコンテキスト長をサポートします!)、 --n-gpu-layers 99 GPU オフロードで何層を使うかに関する設定です。GPU がメモリ不足になる場合は調整してみてください。CPU のみの推論の場合はこれを削除してください。K キャッシュにはメモリ使用量を減らすために 8bit 量子化も使用します。

  3. 会話モードの場合:

circle-exclamation

サンプル出力

chevron-rightstrawberry に "r" はいくつありますか? [正解 = 3]hashtag
chevron-rightフランス革命はちょうど何日前に始まったのか正確に?今日は2025年6月4日です。[正解 = 86,157日]hashtag

t282

circle-check

t286 Xuan-Sonarrow-up-right t287 GGUF リポジトリarrow-up-right t288

t289

t290

t294 あなたは t295 Kagglearrow-up-rightt296

t297 t298arrow-up-right

Unsloth の古いバージョンを使用している、またはローカルでファインチューニングしている場合は、最新バージョンの Unsloth をインストールしてください:

💠t301

t302

t305 ここarrow-up-right.

最終更新

役に立ちましたか?