MiniMax-M2.7 - ローカル実行方法
MiniMax-M2.7 LLMを自分のデバイスでローカル実行しましょう!
MiniMax-M2.7 は、エージェント型コーディングおよびチャット用途向けの新しいオープンモデルです。このモデルは、SWE-Pro (56.22%) と Terminal Bench 2 (57.0%) で SOTA 性能を達成しています。
この 230B パラメータ (10B アクティブ)モデルは、 MiniMax-M25 の後継であり、 200K のコンテキスト ウィンドウを備えています。量子化していない bf16 では 457GBが必要です。Unsloth Dynamic 4ビット GGUF によりサイズは 108GB (-60%) まで削減されるため、 128GB RAM のデバイスで実行できます: MiniMax-M2.7 GGUF
すべてのアップロードは Unsloth Dynamic 2.0 を使用して SOTA の量子化性能を実現します。そのため、重要な層はより高いビット数(例: 8ビットまたは16ビット)へ上位変換されます。初日からのアクセスを提供してくれた MiniMax に感謝します。
NEW MiniMax-M2.7 GGUF ベンチマークが利用可能です! こちらをご覧ください
⚙️ 使用ガイド
4ビットの動的量子化 UD-IQ4_XS を使用します 108GB のディスク容量で済みます。これは 128GB ユニファイドメモリのMac にちょうど収まり、約15+ tokens/sで動作し、さらに 1x16GB GPU と 96GB の RAM でもより高速に動作し、25+ tokens/s を実現します。 2ビット の量子化、または最大の2ビット版は 96GB のデバイスに収まります。
ほぼ 完全精度に近い場合は、 Q8_0 (8ビット)を使用してください。これは 243GB を使用し、256GB RAM のデバイス / Mac で 15+ tokens/s で動作します。
最高の性能を得るには、利用可能な総メモリ(VRAM + システムRAM)が、ダウンロードする量子化モデルファイルのサイズを上回っていることを確認してください。そうでない場合でも、llama.cpp は SSD/HDD オフロード経由で実行できますが、推論は遅くなります。
推奨設定
MiniMax は、最良の性能のために次のパラメータを使用することを推奨しています: temperature=1.0, top_p = 0.95, top_k = 40.
temperature = 1.0
top_p = 0.95
top_k = 40
最大コンテキストウィンドウ:
196,608デフォルトのシステムプロンプト:
あなたは役立つアシスタントです。あなたの名前は MiniMax-M2.7 で、MiniMax によって作られています。MiniMax-M2.7 のチュートリアルを実行:
MiniMax-M2.7 を 128GB RAM のデバイスで動かすために、4ビットの UD-IQ4_XS 量子化を使用します。これで MiniMax-M2.7 を llama.cpp と Unsloth Studio.
で実行できるようになります。どのモデルを実行する場合でも CUDA 13.2 は使用しないでください。文字化けや品質の低い出力の原因になる可能性があります。NVIDIA は修正に取り組んでいます。
🦥 Unsloth Studio で実行
MiniMax-M2.7 は現在 Unsloth Studio、ローカルAI向けの新しいオープンソースWeb UIである私たちの環境で実行できます。Unsloth Studio を使うと、モデルをローカルで MacOS、Windows、Linux で実行でき、さらに:
検索、ダウンロード、 GGUF を実行し safetensor モデルを実行
自己修復 ツール呼び出し + ウェブ検索
コード実行 (Python、Bash)
自動推論 パラメータ調整(temp、top-p など)
高速な CPU + GPU 推論と CPU オフロードのために llama.cpp を使用

MiniMax-M2.7 を検索してダウンロード
初回起動時には、アカウントを保護するためのパスワードを作成し、後で再度サインインする必要があります。その後、モデル、データセット、基本設定を選ぶ簡単な初期設定ウィザードが表示されます。いつでもスキップできます。
選択できます UD-IQ4_XS (動的4ビット量子化)または、次のような他の量子化版: UD-Q4_K_XL 。ダウンロードが止まる場合は、 Hugging Face Hub、XETデバッグ
次に Studio Chat タブへ移動し、検索バーで MiniMax-M2.7 を検索して、希望するモデルと量子化版をダウンロードしてください。サイズが大きいためダウンロードに時間がかかります。しばらくお待ちください。高速な推論を確実にするには、 十分な RAM/VRAMがあることを確認してください。そうでない場合でも推論は動作しますが、Unsloth は CPU にオフロードします。

MiniMax-M2.7 を実行
Unsloth Studio を使用すると推論パラメータは自動設定されますが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。
詳細については、 Unsloth Studio 推論ガイド.
✨ llama.cpp で実行
で実行できるようになります。どのモデルを実行する場合でも CUDA 13.2 は使用しないでください。文字化けや品質の低い出力の原因になる可能性があります。NVIDIA は修正に取り組んでいます。
最新の llama.cpp を GitHub こちらで入手してください。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論だけを使いたい場合です。 Apple Mac / Metal デバイスの場合、 -DGGML_CUDA=OFF を設定してから通常どおり続けてください。Metal サポートはデフォルトで有効です。
もし llama.cpp を直接使ってモデルを読み込みたい場合は、以下のようにできます: (:IQ4_XS) は量子化タイプです。Hugging Face 経由でダウンロードすることもできます(3番)。これは ollama run に似ています。 export LLAMA_CACHE="folder" を使って llama.cpp を特定の場所に保存するよう強制できます。モデルの最大コンテキスト長は 200K であることを忘れないでください。
以下は ほとんどのデフォルト 用途向けです:
モデルをダウンロードします(以下をインストール後) pip install huggingface_hub hf_transfer)。UD-IQ4_XS(動的4ビット量子化)または次のような他の量子化版を選べます UD-Q6_K_XL 。サイズと精度のバランスを取るために、4bit 動的量子化 UD-IQ4_XS の使用を推奨します。ダウンロードが止まる場合は、 Hugging Face Hub、XETデバッグ
編集できます --threads 32 CPU スレッド数を、 --ctx-size 16384 コンテキスト長を、 --n-gpu-layers 2 GPU オフロードする層数を指定します。GPU のメモリ不足になる場合は調整してみてください。CPU のみで推論する場合は、これも削除してください。
🦙 Llama-server と OpenAI の completion ライブラリ
MiniMax-M2.7 を本番環境にデプロイするには、 llama-server または OpenAI API を使用します。tmux などで新しいターミナルを開き、次のようにモデルをデプロイします:
次に、新しいターミナルで pip install openaiを実行した後、次を行います:
📊 ベンチマーク
GGUF ベンチマーク
以下は MiniMax-M2.7 の KLD 99% ベンチマークです。左下が良いです:

MiniMax-M2.7 は MiniMax-M2.5 と同じアーキテクチャを使用しているため、M2.7 の GGUF 量子化ベンチマークは M2.5 と非常に似ているはずです。そのため、M2.5 に対して実施された以前の量子化ベンチマークも参照します:

Benjamin Marie(第三者)が MiniMax-M2.5 を Unsloth GGUF 量子化 で 750プロンプトの混合セット (LiveCodeBench v6、MMLU Pro、GPQA、Math500)を用いてベンチマークし、 全体精度 と 相対誤差増加 (量子化モデルが元モデルよりどれだけ多く誤りを起こすか)を報告しました。
Unsloth の量子化版は、精度と相対誤差の両方で、非 Unsloth 版よりはるかに優れています(8GB 小さいにもかかわらず)。
主な結果:
ここでの最良の品質/サイズのトレードオフ:
unsloth UD-Q4_K_XL. 元モデルに最も近く、低下はわずか 6.0 ポイント で、「わずか」 +22.8% ベースラインより多いエラーのみ。他の Unsloth Q4 量子化版は互いに近い性能です(約64.5〜64.9の精度)。
IQ4_NL,MXFP4_MOE、およびUD-IQ2_XXSは、このベンチマークでは実質的に同じ品質で、元モデルより 約33〜35% 多くのエラーがあります。Unsloth GGUF は他の非 Unsloth GGUF よりはるかに優れています。たとえば、
lmstudio-community - Q4_K_M(8GB 小さいにもかかわらず)やAesSedai - IQ3_S.
公式ベンチマーク

最終更新
役に立ちましたか?

