🥝Kimi K2.6 - ローカル実行方法
Kimi-K2.6を自分のローカルデバイスで実行するステップバイステップガイド。
Kimi K2.6 は Moonshot によるオープンモデルで、ビジョン、コーディング、エージェント型、長文コンテキスト、チャットの各タスクで SOTA 性能を発揮します。1T パラメータのハイブリッド思考モデルは 256K のコンテキスト長を持ち、フル精度では 610GB のディスク容量が必要です。Dynamic 2-bit では 350GB(-43% のサイズ)。Unsloth Dynamic 経由で Kimi K2.6 を実行 Kimi-K2.6-GGUFs を Unsloth Studio または llama.cpp で。
Dynamic 2-bit は重要な層を 8-bit にアップキャストし、 350GB+ の VRAM/RAM 構成. 対象 ロスレス Kimi K2.6 には Q8(UD-Q8_K_XL)を使用してください。これは 10GB だけ大きい Q4(UD-Q4_K_XL)より。すべてのアップロードは Dynamic 2.0 を使用しており、SOTA の量子化性能を実現します。Kimi-K2.6 GGUF はまた ビジョンをサポートします。
表: ハードウェア要件 (単位 = 合計メモリ: RAM + VRAM、またはユニファイドメモリ)
ディスク容量
340 GB
584 GB
595 GB
パープレキシティ
2.4131
1.8420
1.8419
📊 量子化分析
UD-Q8_K_XL は、Kimi が MoE 重みに int4 を使用し、それ以外すべてに BF16 を使用しており、さらに Q8_K_XL がそれに従っているため、ロスレスです。 UD-Q4_K_XL は似ていますが、残りのテンソルが Q8_0であるため、ほぼフル精度で、600GB の RAM/VRAM を必要とします。他の提供元による非 Unsloth GGUF は、 UD-Q4_K_XL の手法に従う可能性があります。「真にロスレス」ではなく UD-Q8_K_XL.
私たちは jukofyorkの発見に従い、 const float d = max / -7; をデフォルトの const float d = max / -8; の代わりに、量子化プロセス中の MoE 層にのみ適用しました。INT4 ネイティブ MoE に対するこの全単射パッチにより、 Q4_0 量子化タイプは絶対誤差を 1.8% からほぼ 0%(イプシロン)まで低減できます。
ただし、他の層は BF16 のままにする必要があり、以下に BF16 ベースラインに対する両者の誤差プロットを示します。 UD-Q8-K_XL は、Q4_0 を BF16 に変換する際に機械イプシロン程度の差しかない、真に「ロスレス」です。 UD-Q8_K_XL のパープレキシティは 1.8419 ± 0.00721 で、 UD-Q4_K_XL 1.8420 ± 0.00720 でした。以下の誤差プロットは RMSE を bfloat16 のイプシロンで割ったものなので、誤差スケールは小さいことに注意してください。

Q4_K_XL (青)と Q8_K_XL (オレンジ)で、こちらはロスレスで 10GB 大きいです。⚙️ 使用ガイド
思考モードと非思考モードでは異なる設定が必要です:
temperature = 1.0
temperature = 0.6
top_p = 0.95
top_p = 0.95
推奨コンテキスト長 =
98,304(最大262,144)
モデルが収まれば、B200 使用時に >40 トークン/秒が得られます。サイズと品質のバランスが良いものとして UD-Q2_K_XL (350GB)を推奨します。最良の目安: RAM+VRAM ≈ 量子化サイズ。そうでなくても動作はしますが、オフロードのため遅くなります。
Kimi K2.6 用チャットテンプレート
実行中 tokenizer.apply_chat_template([{"role": "user", "content": "What is 1+1?"},]) 結果:
Kimi K2.6 実行ガイド
🦥 Unsloth Studio で Kimi-K2.6 を実行
Kimi K2.6 は Unsloth Studioで実行できます。これはローカル AI 向けのオープンソース Web UI です。 Unsloth Studio は自動的に RAM へオフロードし、マルチ GPU 構成を検出します。Unsloth Studio を使えば、 MacOS、Windows、Linux でローカルにモデルを実行でき、さらに:
検索、ダウンロード、 GGUF を実行 および safetensor モデル
自己修復型 ツール呼び出し + Web 検索
コード実行 (Python、Bash)
自動推論 パラメータ調整(temp、top-p など)
llama.cpp による高速 CPU + GPU 推論
LLM をトレーニング 70% 少ない VRAM で 2 倍高速

Unsloth のインストールと起動
インストールするには、ターミナルで次を実行してください:
MacOS、Linux、WSL:
Windows PowerShell:
Unsloth を起動
MacOS、Linux、WSL、および Windows:
その後、 http://localhost:8888 をブラウザで開いてください。
Kimi-K2.6 を検索してダウンロード
Unsloth Studio は自動的に RAM にオフロードし、マルチ GPU 構成を検出します。初回起動時には、アカウント保護のためパスワードを作成し、後で再度サインインする必要があります。
次に、 Studio Chat タブに移動し、 Kimi-K2.6 を検索バーで検索して、希望するモデルと量子化をダウンロードしてください。モデルを実行するのに十分な計算資源があることを確認してください。

Kimi-K2.6 を実行
Unsloth Studio を使用する場合、推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。
詳細については、こちらをご覧ください Unsloth Studio 推論ガイド.

🦙 llama.cpp で Kimi K2.6 を実行
このガイドでは UD-Q2_K_XL 量子化を実行します。これには少なくとも 350GB の RAM が必要です。量子化タイプは自由に変更してください。GGUF: Kimi-K2.6-GGUF
これらのチュートリアルでは、 llama.cpp を高速なローカル推論のために使用します。特に CPU をお持ちの場合に有効です。
最新のものを取得してください llama.cpp で GitHub はこちら。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON を -DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論のみを行いたい場合です。 Apple Mac / Metal デバイス向け、設定 -DGGML_CUDA=OFF してから通常どおり続行してください - Metal サポートはデフォルトで有効です。
使用したい場合は llama.cpp を使って直接モデルを読み込むには、以下を実行できます: (:Q2_K_XL)は量子化タイプです。Hugging Face(ポイント 3)経由でもダウンロードできます。これは ollama run に似ています。 export LLAMA_CACHE="folder" を使用して、 llama.cpp が特定の場所に保存するよう強制できます。モデルの最大 262,144 コンテキスト長。
用途に応じて、以下の特定のコマンドのいずれかを使用してください:
思考モード:
非思考モード(インスタント):
以下のコードでモデルをダウンロードしてください(インストール後 pip install huggingface_hub hf_transfer)。ダウンロードが止まる場合は、こちらを参照: Hugging Face Hub、XETデバッグ
その後、会話モードでモデルを実行します:
📊 ベンチマーク
ベンチマークはさらに下の表形式で確認できます:

最終更新
役に立ちましたか?

