For the complete documentation index, see llms.txt. This page is also available as Markdown.

🥝Kimi K2.6 - ローカル実行方法

Kimi-K2.6を自分のローカルデバイスで実行するステップバイステップガイド。

Kimi K2.6 は Moonshot によるオープンモデルで、ビジョン、コーディング、エージェント型、長文コンテキスト、チャットの各タスクで SOTA 性能を発揮します。1T パラメータのハイブリッド思考モデルは 256K のコンテキスト長を持ち、フル精度では 610GB のディスク容量が必要です。Dynamic 2-bit では 350GB(-43% のサイズ)。Unsloth Dynamic 経由で Kimi K2.6 を実行 Kimi-K2.6-GGUFs を Unsloth Studio または llama.cpp で。

Dynamic 2-bit は重要な層を 8-bit にアップキャストし、 350GB+ の VRAM/RAM 構成. 対象 ロスレス Kimi K2.6 には Q8(UD-Q8_K_XL)を使用してください。これは 10GB だけ大きい Q4(UD-Q4_K_XL)より。すべてのアップロードは Dynamic 2.0 を使用しており、SOTA の量子化性能を実現します。Kimi-K2.6 GGUF はまた ビジョンをサポートします。

表: ハードウェア要件 (単位 = 合計メモリ: RAM + VRAM、またはユニファイドメモリ)

測定値
Dynamic 2-bit
Q4
Q8(ロスレス)

ディスク容量

340 GB

584 GB

595 GB

パープレキシティ

2.4131

1.8420

1.8419

📊 量子化分析

UD-Q8_K_XL は、Kimi が MoE 重みに int4 を使用し、それ以外すべてに BF16 を使用しており、さらに Q8_K_XL がそれに従っているため、ロスレスです。 UD-Q4_K_XL は似ていますが、残りのテンソルが Q8_0であるため、ほぼフル精度で、600GB の RAM/VRAM を必要とします。他の提供元による非 Unsloth GGUF は、 UD-Q4_K_XL の手法に従う可能性があります。「真にロスレス」ではなく UD-Q8_K_XL.

私たちは jukofyorkの発見に従い、 const float d = max / -7; をデフォルトの const float d = max / -8; の代わりに、量子化プロセス中の MoE 層にのみ適用しました。INT4 ネイティブ MoE に対するこの全単射パッチにより、 Q4_0 量子化タイプは絶対誤差を 1.8% からほぼ 0%(イプシロン)まで低減できます。

ただし、他の層は BF16 のままにする必要があり、以下に BF16 ベースラインに対する両者の誤差プロットを示します。 UD-Q8-K_XL は、Q4_0 を BF16 に変換する際に機械イプシロン程度の差しかない、真に「ロスレス」です。 UD-Q8_K_XL のパープレキシティは 1.8419 ± 0.00721 で、 UD-Q4_K_XL 1.8420 ± 0.00720 でした。以下の誤差プロットは RMSE を bfloat16 のイプシロンで割ったものなので、誤差スケールは小さいことに注意してください。

の違いを見てください Q4_K_XL (青)と Q8_K_XL (オレンジ)で、こちらはロスレスで 10GB 大きいです。

⚙️ 使用ガイド

思考モードと非思考モードでは異なる設定が必要です:

デフォルト(思考モード)
インスタントモード

temperature = 1.0

temperature = 0.6

top_p = 0.95

top_p = 0.95

  • 推奨コンテキスト長 = 98,304 (最大 262,144)

モデルが収まれば、B200 使用時に >40 トークン/秒が得られます。サイズと品質のバランスが良いものとして UD-Q2_K_XL (350GB)を推奨します。最良の目安: RAM+VRAM ≈ 量子化サイズ。そうでなくても動作はしますが、オフロードのため遅くなります。

Kimi K2.6 用チャットテンプレート

実行中 tokenizer.apply_chat_template([{"role": "user", "content": "What is 1+1?"},]) 結果:

Kimi K2.6 実行ガイド

🦥 Unsloth Studio で Kimi-K2.6 を実行

Kimi K2.6 は Unsloth Studioで実行できます。これはローカル AI 向けのオープンソース Web UI です。 Unsloth Studio は自動的に RAM へオフロードし、マルチ GPU 構成を検出します。Unsloth Studio を使えば、 MacOS、Windows、Linux でローカルにモデルを実行でき、さらに:

1

Unsloth のインストールと起動

インストールするには、ターミナルで次を実行してください:

MacOS、Linux、WSL:

Windows PowerShell:

Unsloth を起動

MacOS、Linux、WSL、および Windows:

その後、 http://localhost:8888 をブラウザで開いてください。

2

Kimi-K2.6 を検索してダウンロード

Unsloth Studio は自動的に RAM にオフロードし、マルチ GPU 構成を検出します。初回起動時には、アカウント保護のためパスワードを作成し、後で再度サインインする必要があります。

次に、 Studio Chat タブに移動し、 Kimi-K2.6 を検索バーで検索して、希望するモデルと量子化をダウンロードしてください。モデルを実行するのに十分な計算資源があることを確認してください。

3

Kimi-K2.6 を実行

Unsloth Studio を使用する場合、推論パラメータは自動設定されるはずですが、手動で変更することもできます。コンテキスト長、チャットテンプレート、その他の設定も編集できます。

詳細については、こちらをご覧ください Unsloth Studio 推論ガイド.

ツール呼び出しで動作する Qwen3.6 の例

🦙 llama.cpp で Kimi K2.6 を実行

このガイドでは UD-Q2_K_XL 量子化を実行します。これには少なくとも 350GB の RAM が必要です。量子化タイプは自由に変更してください。GGUF: Kimi-K2.6-GGUF

これらのチュートリアルでは、 llama.cpp を高速なローカル推論のために使用します。特に CPU をお持ちの場合に有効です。

1

最新のものを取得してください llama.cpp GitHub はこちら。以下のビルド手順に従うこともできます。 -DGGML_CUDA=ON-DGGML_CUDA=OFF に変更してください。GPU がない場合、または CPU 推論のみを行いたい場合です。 Apple Mac / Metal デバイス向け、設定 -DGGML_CUDA=OFF してから通常どおり続行してください - Metal サポートはデフォルトで有効です。

2

使用したい場合は llama.cpp を使って直接モデルを読み込むには、以下を実行できます: (:Q2_K_XL)は量子化タイプです。Hugging Face(ポイント 3)経由でもダウンロードできます。これは ollama run に似ています。 export LLAMA_CACHE="folder" を使用して、 llama.cpp が特定の場所に保存するよう強制できます。モデルの最大 262,144 コンテキスト長。

用途に応じて、以下の特定のコマンドのいずれかを使用してください:

思考モード:

非思考モード(インスタント):

3

以下のコードでモデルをダウンロードしてください(インストール後 pip install huggingface_hub hf_transfer)。ダウンロードが止まる場合は、こちらを参照: Hugging Face Hub、XETデバッグ

4

その後、会話モードでモデルを実行します:

📊 ベンチマーク

ベンチマークはさらに下の表形式で確認できます:

最終更新

役に立ちましたか?