For the complete documentation index, see llms.txt. This page is also available as Markdown.

MiniMax-M2.7 - ローカル実行方法

MiniMax-M2.7 LLMを自分のデバイスでローカル実行しましょう!

MiniMax-M2.7 は、エージェント型コーディングおよびチャット用途向けの新しいオープンモデルです。このモデルは、SWE-Pro (56.22%) と Terminal Bench 2 (57.0%) で SOTA 性能を達成しています。

この 230B パラメータ (10B アクティブ)モデルは、 MiniMax-M25 の後継であり、 200K のコンテキスト ウィンドウを備えています。量子化していない bf16 では 457GBが必要です。Unsloth Dynamic 4ビット GGUF によりサイズは 108GB (-60%) まで削減されるため、 128GB RAM のデバイスで実行できます: MiniMax-M2.7 GGUF

すべてのアップロードは Unsloth Dynamic 2.0 を使用して SOTA の量子化性能を実現します。そのため、重要な層はより高いビット数(例: 8ビットまたは16ビット)へ上位変換されます。初日からのアクセスを提供してくれた MiniMax に感謝します。

⚙️ 使用ガイド

4ビットの動的量子化 UD-IQ4_XS を使用します 108GB のディスク容量で済みます。これは 128GB ユニファイドメモリのMac にちょうど収まり、約15+ tokens/sで動作し、さらに 1x16GB GPU と 96GB の RAM でもより高速に動作し、25+ tokens/s を実現します。 2ビット の量子化、または最大の2ビット版は 96GB のデバイスに収まります。

ほぼ 完全精度に近い場合は、 Q8_0 (8ビット)を使用してください。これは 243GB を使用し、256GB RAM のデバイス / Mac で 15+ tokens/s で動作します。

推奨設定

MiniMax は、最良の性能のために次のパラメータを使用することを推奨しています: temperature=1.0, top_p = 0.95, top_k = 40.

デフォルト設定(ほとんどのタスク)

temperature = 1.0

top_p = 0.95

top_k = 40

  • 最大コンテキストウィンドウ: 196,608

  • デフォルトのシステムプロンプト:

あなたは役立つアシスタントです。あなたの名前は MiniMax-M2.7 で、MiniMax によって作られています。

MiniMax-M2.7 のチュートリアルを実行:

MiniMax-M2.7 を 128GB RAM のデバイスで動かすために、4ビットの UD-IQ4_XS 量子化を使用します。これで MiniMax-M2.7 を llama.cppUnsloth Studio.

🦥 Unsloth Studio で実行

MiniMax-M2.7 は現在 Unsloth Studio、ローカルAI向けの新しいオープンソースWeb UIである私たちの環境で実行できます。Unsloth Studio を使うと、モデルをローカルで MacOS、Windows、Linux で実行でき、さらに:

1

Unsloth をインストール

ターミナルで次を実行:

MacOS、Linux、WSL:

Windows PowerShell:

2

Unsloth を起動

MacOS、Linux、WSL および Windows:

次に開きます http://localhost:8888 をブラウザで開いてください。

3

MiniMax-M2.7 を検索してダウンロード

初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶ簡単な初期設定ウィザードが表示されます。いつでもスキップできます。

選択できます UD-IQ4_XS (動的4ビット量子化)または、次のような他の量子化版: UD-Q4_K_XL 。ダウンロードが止まる場合は、 Hugging Face Hub、XETデバッグ

次に Studio Chat タブへ移動し、検索バーで MiniMax-M2.7 を検索して、希望するモデルと量子化版をダウンロードしてください。サイズが大きいためダウンロードに時間がかかります。しばらくお待ちください。高速な推論を確実にするには、 十分な RAM/VRAMがあることを確認してください。そうでない場合でも推論は動作しますが、Unsloth は CPU にオフロードします。

4

MiniMax-M2.7 を実行

Unsloth Studio を使用すると推論パラメータは自動設定されますが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細については、 Unsloth Studio 推論ガイド.

✨ llama.cpp で実行

1

最新の llama.cppGitHub こちらで入手してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスの場合-DGGML_CUDA=OFF を設定してから通常どおり続けてください。Metal サポートはデフォルトで有効です。

2

もし llama.cpp を直接使ってモデルを読み込みたい場合は、以下のようにできます: (:IQ4_XS) は量子化タイプです。Hugging Face 経由でダウンロードすることもできます(3番)。これは ollama run に似ています。 export LLAMA_CACHE="folder" を使って llama.cpp を特定の場所に保存するよう強制できます。モデルの最大コンテキスト長は 200K であることを忘れないでください。

以下は ほとんどのデフォルト 用途向けです:

3

モデルをダウンロードします(以下をインストール後) pip install huggingface_hub hf_transfer)。UD-IQ4_XS(動的4ビット量子化)または次のような他の量子化版を選べます UD-Q6_K_XL 。サイズと精度のバランスを取るために、4bit 動的量子化 UD-IQ4_XS の使用を推奨します。ダウンロードが止まる場合は、 Hugging Face Hub、XETデバッグ

4

編集できます --threads 32 CPU スレッド数を、 --ctx-size 16384 コンテキスト長を、 --n-gpu-layers 2 GPU オフロードする層数を指定します。GPU のメモリ不足になる場合は調整してみてください。CPU のみで推論する場合は、これも削除してください。

🦙 Llama-server と OpenAI の completion ライブラリ

MiniMax-M2.7 を本番環境にデプロイするには、 llama-server または OpenAI API を使用します。tmux などで新しいターミナルを開き、次のようにモデルをデプロイします:

次に、新しいターミナルで pip install openaiを実行した後、次を行います:

📊 ベンチマーク

GGUF ベンチマーク

以下は MiniMax-M2.7 の KLD 99% ベンチマークです。左下が良いです:

MiniMax-M2.7 は MiniMax-M2.5 と同じアーキテクチャを使用しているため、M2.7 の GGUF 量子化ベンチマークは M2.5 と非常に似ているはずです。そのため、M2.5 に対して実施された以前の量子化ベンチマークも参照します:

Benjamin Marie(第三者)が MiniMax-M2.5Unsloth GGUF 量子化750プロンプトの混合セット (LiveCodeBench v6、MMLU Pro、GPQA、Math500)を用いてベンチマークし、 全体精度相対誤差増加 (量子化モデルが元モデルよりどれだけ多く誤りを起こすか)を報告しました。

Unsloth の量子化版は、精度と相対誤差の両方で、非 Unsloth 版よりはるかに優れています(8GB 小さいにもかかわらず)。

主な結果:

  • ここでの最良の品質/サイズのトレードオフ: unsloth UD-Q4_K_XL. 元モデルに最も近く、低下はわずか 6.0 ポイント で、「わずか」 +22.8% ベースラインより多いエラーのみ。

  • 他の Unsloth Q4 量子化版は互いに近い性能です(約64.5〜64.9の精度)。 IQ4_NL, MXFP4_MOE、および UD-IQ2_XXS は、このベンチマークでは実質的に同じ品質で、元モデルより 約33〜35% 多くのエラーがあります。

  • Unsloth GGUF は他の非 Unsloth GGUF よりはるかに優れています。たとえば、 lmstudio-community - Q4_K_M (8GB 小さいにもかかわらず)や AesSedai - IQ3_S.

公式ベンチマーク

最終更新

役に立ちましたか?