Mistral 3.5 - ローカル実行方法
Mistral 3.5モデルをローカルデバイスで実行またはファインチューニングするためのガイド
Mistral が Mistral-Medium-3.5-128B をリリースしました。これは新しい、密な 128B パラメータのマルチモーダルなハイブリッド推論モデルです。テキストと画像の入力、テキスト出力、256K のコンテキストウィンドウをサポートし、推論、コーディング、長文コンテキスト、ツール使用、エージェント的ワークフロー、そしてマルチモーダルな文書/画像理解に優れています。
Mistral Medium 3.5 は、自身のサイズの 5 倍のモデルに対して非常に競争力のある性能を提供します。約 64GB の RAM でローカル実行できます。GGUF: Mistral-Medium-3.5-128B-GGUF
2026年5月1日 更新: いくつかの実装に影響していた Mistral Medium 3.5 の推論の問題を修正するために Mistral と協力し、修正済みの更新版 GGUF をリリースしました(Unsloth とは関係なく 、または当社の量子化版とは関係ありません)。この問題は YaRN の解析上の癖が原因で、 transformers および llama.cppを含むいくつかの実装に影響していました。 mscale_all_dim を 1 に 0 変更することで解決しました。さらに、 mmproj ファイルが正しく生成されない問題も修正しました。
Mistral は現在、私たちの修正を公式リポジトリに反映しています!
使用ガイド
GGUF 用の Vision は現在サポートされています。対応は後ほど追加されます。
表: Mistral Medium 3.5 の推奨ハードウェア要件。単位は総メモリ量です: RAM + VRAM、またはユニファイドメモリ。
Medium 3.5 128B
64 GB
80 GB
128-170 GB
ダウンロードした量子化モデルのサイズを、利用可能な総メモリが少なくとも上回っている必要があります。そうでない場合でも、llama.cpp は RAM / ディスクへの部分オフロードで実行できますが、生成は遅くなります。長いコンテキスト、大きなバッチ、ツールを多用するエージェント実行、画像プロンプトにはさらに多くのメモリが必要です。
推奨設定
Mistral 推奨の推論設定を使用してください:
reasoning_effort="none"→ 高速な即時応答、チャット、抽出、単純な指示向け。reasoning_effort="high"→ 推論モード。複雑なプロンプト、コーディング、調査、数学、エージェント用途に推奨。
推奨サンプリングのデフォルト:
使用
temperature = 0.7をreasoning_effort="high".使用
temperature = 0.0に0.7をreasoning_effort="none"、タスクに応じて。反復ペナルティと出現ペナルティは無効のまま、または
1.0にしておいてください。ただしループが見られる場合は別です。最大コンテキスト長は
262,144
推論モード
Mistral Medium 3.5 は、即時の instruct モードと、'high' オプションを持つ推論モードをサポートしています。
llama.cpp / llama-server で高い推論を有効にするには:
推論を無効にするには:
Windows PowerShell の場合は、以下を使ってください:
Mistral 3.5 チュートリアルの実行
Mistral Medium 3.5 は密な 128B モデルなので、ローカル推論の出発点としては Dynamic 4-bit GGUF を推奨します。GGUF: unsloth/Mistral-Medium-3.5-128B-GGUF
Unsloth Studio で実行llama.cpp で実行
現在、いかなるマルチモーダル/ビジョン GGUF も Ollama では別々の mmproj vision ファイルのため動作しません。llama.cpp 互換のバックエンドを使用してください。
使用しないでください CUDA 13.2 、さもないと意味不明な出力になることがあります。NVIDIA が修正に取り組んでいます。
🦥 Unsloth Studio ガイド
このチュートリアルでは、 Unsloth Studioを使用します。これは LLM の実行と学習のための新しい Web UI です。Unsloth Studio を使えば、モデルを実行し、 音声、画像、テキストをローカルで Mac、Windows、Linux 上で入力でき、さらに次のことができます:
検索、ダウンロード、 GGUF を実行 し、safetensor モデルを扱う
モデルを 比較する 横並びで
自己修復 ツール呼び出し + Web 検索
コード実行 (Python、Bash)
自動推論 パラメータ調整(temp、top-p など)
LLM を学習する VRAM を 70% 少なくして 2 倍高速

Mistral Medium 3.5 を検索してダウンロード
初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、 Studio Chat タブに移動し、検索バーで Mistral 3.5 を検索して、必要なモデルと量子化版をダウンロードしてください。
Mistral 3.5 を実行
Unsloth Studio を使用すると推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。
詳細は、 Unsloth Studio 推論ガイド.
🦙 Llama.cpp ガイド
このガイドでは、Mistral Medium 3.5 に Unsloth Dynamic 4-bit を使用します。参照: unsloth/Mistral-Medium-3.5-128B-GGUF.
これらのチュートリアルでは、特に CPU または大容量ユニファイドメモリ機をお持ちの場合、素早いローカル推論のために llama.cpp を使用します。
1. llama.cpp をビルドする
最新の llama.cpp を GitHub で入手してください。 -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPU がない場合、または CPU 推論だけを使いたい場合は変更してください。Apple Mac / Metal デバイスでは、 -DGGML_CUDA=OFFを設定してください。Metal サポートはデフォルトで有効です。
2. Hugging Face から直接実行
高推論モードの場合:
3. モデルを手動でダウンロード
をインストールした後で huggingface_hub および hf_transfer:
ダウンロードが止まる場合は、次を設定してください:
4. ローカル GGUF を実行
マルチモーダル projector GGUF が含まれている場合は、次を使用してください:
Llama-server デプロイ
llama-server に Mistral Medium 3.5 をデプロイするには、次を使用してください:
推論モードの場合:
Windows PowerShell の場合は、以下を使ってください:
OpenAI 互換のリクエストで llama-server に ping できます:
Mistral 3.5 ベストプラクティス
プロンプト例
簡単な推論プロンプト
使用 reasoning_effort="high" このタイプのプロンプト向け。
OCR / 文書プロンプト
OCR と文書抽出では、画像を最初に置き、構造化出力を求めてください。
マルチモーダル比較プロンプト
コーディングエージェントプロンプト
使用 reasoning_effort="high" そして、コードベース探索のためのツール呼び出し。
JSON / 関数呼び出しプロンプト
ベンチマーク


最終更新
役に立ちましたか?


