For the complete documentation index, see llms.txt. This page is also available as Markdown.

Mistral 3.5 - ローカル実行方法

Mistral 3.5モデルをローカルデバイスで実行またはファインチューニングするためのガイド

Mistral が Mistral-Medium-3.5-128B をリリースしました。これは新しい、密な 128B パラメータのマルチモーダルなハイブリッド推論モデルです。テキストと画像の入力、テキスト出力、256K のコンテキストウィンドウをサポートし、推論、コーディング、長文コンテキスト、ツール使用、エージェント的ワークフロー、そしてマルチモーダルな文書/画像理解に優れています。

Mistral Medium 3.5 は、自身のサイズの 5 倍のモデルに対して非常に競争力のある性能を提供します。約 64GB の RAM でローカル実行できます。GGUF: Mistral-Medium-3.5-128B-GGUF

使用ガイド

GGUF 用の Vision は現在サポートされています。対応は後ほど追加されます。

表: Mistral Medium 3.5 の推奨ハードウェア要件。単位は総メモリ量です: RAM + VRAM、またはユニファイドメモリ。

Mistral 3.5
3-bit
4-bit
8-bit

Medium 3.5 128B

64 GB

80 GB

128-170 GB

ダウンロードした量子化モデルのサイズを、利用可能な総メモリが少なくとも上回っている必要があります。そうでない場合でも、llama.cpp は RAM / ディスクへの部分オフロードで実行できますが、生成は遅くなります。長いコンテキスト、大きなバッチ、ツールを多用するエージェント実行、画像プロンプトにはさらに多くのメモリが必要です。

推奨設定

Mistral 推奨の推論設定を使用してください:

  • reasoning_effort="none" → 高速な即時応答、チャット、抽出、単純な指示向け。

  • reasoning_effort="high" → 推論モード。複雑なプロンプト、コーディング、調査、数学、エージェント用途に推奨。

推奨サンプリングのデフォルト:

  • 使用 temperature = 0.7reasoning_effort="high".

  • 使用 temperature = 0.00.7reasoning_effort="none"、タスクに応じて。

  • 反復ペナルティと出現ペナルティは無効のまま、または 1.0 にしておいてください。ただしループが見られる場合は別です。

  • 最大コンテキスト長は 262,144

推論モード

Mistral Medium 3.5 は、即時の instruct モードと、'high' オプションを持つ推論モードをサポートしています。

llama.cpp / llama-server で高い推論を有効にするには:

推論を無効にするには:

Windows PowerShell の場合は、以下を使ってください:

Mistral 3.5 チュートリアルの実行

Mistral Medium 3.5 は密な 128B モデルなので、ローカル推論の出発点としては Dynamic 4-bit GGUF を推奨します。GGUF: unsloth/Mistral-Medium-3.5-128B-GGUF

Unsloth Studio で実行llama.cpp で実行

🦥 Unsloth Studio ガイド

このチュートリアルでは、 Unsloth Studioを使用します。これは LLM の実行と学習のための新しい Web UI です。Unsloth Studio を使えば、モデルを実行し、 音声、画像、テキストをローカルで Mac、Windows、Linux 上で入力でき、さらに次のことができます:

1

Unsloth をインストール

MacOS、Linux、WSL:

Windows PowerShell:

2

Unsloth Studio をセットアップ(1回のみ)

セットアップでは自動的に Node.js(nvm 経由)をインストールし、フロントエンドをビルドし、必要な Python 依存関係をすべてインストールし、CUDA サポート付きで llama.cpp をビルドします。

WSL ユーザー: 次のインストールのために sudo パスワードの入力を求められます(ビルド依存関係のインストール用: cmake, git, libcurl4-openssl-dev).

3

Unsloth を起動

MacOS、Linux、WSL:

Windows Powershell:

その後、 http://localhost:8888 をブラウザで開いてください。

4

Mistral Medium 3.5 を検索してダウンロード

初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、 Studio Chat タブに移動し、検索バーで Mistral 3.5 を検索して、必要なモデルと量子化版をダウンロードしてください。

5

Mistral 3.5 を実行

Unsloth Studio を使用すると推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細は、 Unsloth Studio 推論ガイド.

🦙 Llama.cpp ガイド

このガイドでは、Mistral Medium 3.5 に Unsloth Dynamic 4-bit を使用します。参照: unsloth/Mistral-Medium-3.5-128B-GGUF.

これらのチュートリアルでは、特に CPU または大容量ユニファイドメモリ機をお持ちの場合、素早いローカル推論のために llama.cpp を使用します。

1. llama.cpp をビルドする

最新の llama.cpp を GitHub で入手してください。 -DGGML_CUDA=ON-DGGML_CUDA=OFF GPU がない場合、または CPU 推論だけを使いたい場合は変更してください。Apple Mac / Metal デバイスでは、 -DGGML_CUDA=OFFを設定してください。Metal サポートはデフォルトで有効です。

2. Hugging Face から直接実行

高推論モードの場合:

3. モデルを手動でダウンロード

をインストールした後で huggingface_hub および hf_transfer:

ダウンロードが止まる場合は、次を設定してください:

4. ローカル GGUF を実行

マルチモーダル projector GGUF が含まれている場合は、次を使用してください:

Llama-server デプロイ

llama-server に Mistral Medium 3.5 をデプロイするには、次を使用してください:

推論モードの場合:

Windows PowerShell の場合は、以下を使ってください:

OpenAI 互換のリクエストで llama-server に ping できます:

Mistral 3.5 ベストプラクティス

プロンプト例

簡単な推論プロンプト

使用 reasoning_effort="high" このタイプのプロンプト向け。

OCR / 文書プロンプト

OCR と文書抽出では、画像を最初に置き、構造化出力を求めてください。

マルチモーダル比較プロンプト

コーディングエージェントプロンプト

使用 reasoning_effort="high" そして、コードベース探索のためのツール呼び出し。

JSON / 関数呼び出しプロンプト

ベンチマーク

最終更新

役に立ちましたか?