💜Qwen3.5 - ローカルでの実行方法ガイド

Qwen3.5-397B-A17B を含む新しい Qwen3.5 LLM をローカルのデバイスで実行しましょう！

Qwen3.5はアリババの新しいモデルファミリで、Qwen3.5-397B-A17B（397Bパラメータ、17Bアクティブ）を含むマルチモーダル推論モデルで、性能はGemini 3 Pro、Claude Opus 4.5、GPT-5.2に匹敵します。これらはサポートしています 256Kコンテキスト （1Mまで拡張可能）201言語に対応し、思考モードと非思考モードを提供し、コーディング、視覚、エージェント、チャット、長文コンテキストのタスクに優れています。

フルのQwen3.5-397B-A17Bモデルは 約807GB のディスク容量が必要で、3ビット量子化は 192GB のMac/RAMデバイスで、または4ビットMXFP4は 256GB Mac: Qwen3.5-397B-A17B GGUF

すべてのアップロードはUnslothを使用しています Dynamic 2.0 で最先端の量子化性能を実現します ― つまり4ビットでは重要なレイヤーが8ビットまたは16ビットにアップキャストされます。Unslothにデイゼロでのアクセスを提供してくれたQwenに感謝します。

⚙️ 使用ガイド

Unslothの4ビット動的量子化UD-Q4_K_XLは 214GB のディスク空間を使用します — これは直接 256GB M3 Ultraに収まり、 1枚の24GBカードと256GBのRAM でMoEオフローディングを用いて25+ トークン/秒を実現します。3ビット量子化は192GB RAMに収まり、8ビットは512GBのRAM/VRAMが必要です。

最高のパフォーマンスを得るには、VRAM + RAMの合計がダウンロードする量子化モデルのサイズと同等であることが望ましいです。そうでない場合でも、llama.cppでハードドライブ/SSDオフローディングは動作しますが、推論は遅くなります。

推奨設定

Qwen3.5はハイブリッド推論であるため、思考モードと非思考モードは異なる設定が必要です：

思考モード

非思考モード

temperature = 0.6

temperature = 0.7

top_p = 0.95

top_p = 0.8

tok_k = 20

min_p = 0

repeat penalty = 無効または 1.0

最大コンテキストウィンドウ： 262,144
presence_penalty = 0.0 から 2.0 デフォルトではこれがオフですが、繰り返しを減らすために使用できます。ただし高い値を使うと若干性能が低下する可能性があります
Thinking： temperature=0.6, top_p=0.95, top_k=20, min_p=0
非思考： temperature=0.7, top_p=0.8, top_k=20, min_p=0
十分な出力長: 32,768 ほとんどのクエリに対するトークン数

Qwen3.5-397B-A17B チュートリアル：

このガイドではダイナミックを利用します MXFP4_MOE は高速推論のために256GB RAM / Macデバイスに丁度収まります：

✨ llama.cppで実行する

最新の llama.cpp を GitHub で入手できます。下のビルド手順に従うこともできます。変更してください -DGGML_CUDA=ON から -DGGML_CUDA=OFF GPU がない場合や CPU 推論のみを行いたい場合は。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

直接モデルを読み込むために llama.cpp モデルを直接ロードするには、以下を実行できます：（:Q3_K_XL）は量子化タイプです。Hugging Face（ポイント 3）経由でもダウンロードできます。これは似ています ollama run に類似しています。使用してください export LLAMA_CACHE="folder" で強制的に llama.cpp 特定の場所に保存するためのものです。モデルは最大で200Kのコンテキスト長しか持たないことを忘れないでください。

次に従ってください（用途別）： thinking モード：

export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:MXFP4_MOE \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00

次に従ってください（用途別）： 非思考 モード：

export LLAMA_CACHE="unsloth/Qwen3.5-397B-A17B-GGUF"
./llama.cpp/llama-cli \
    -hf unsloth/Qwen3.5-397B-A17B-GGUF:MXFP4_MOE \
    --ctx-size 16384 \
    --temp 0.7 \
    --top-p 0.8 \
    --top-k 20 \
    --min-p 0.00 \
    --chat-template-kwargs "{\"enable_thinking\": false}"

（以下をインストールした後に）モデルをダウンロードします pip install huggingface_hub hf_transfer ）。量子化バージョンとして選べます MXFP4_MOE （動的4ビット）または他の量子化バージョンのような UD-Q4_K_XL 。サイズと精度のバランスを取るために少なくとも2ビットの動的量子化を使用することを推奨します UD-Q2_K_XL サイズと精度のバランスを取るために。

hf download unsloth/Qwen3.5-397B-A17B-GGUF \
    --local-dir unsloth/Qwen3.5-397B-A17B-GGUF \
    --include "*MXFP4_MOE*" # Dynamic 2bitには"*UD-Q2_K_XL*"を使用

次の --threads 32 でCPUスレッド数を編集できます、 --ctx-size 16384 でコンテキスト長を、 --n-gpu-layers 2 で何層をGPUにオフロードするかを指定します。GPUがメモリ不足になる場合は調整してみてください。CPUのみの推論の場合はこれを削除してください。

./llama.cpp/llama-cli \
    --model unsloth/Qwen3.5-397B-A17B-GGUF/MXFP4_MOE/Qwen3.5-397B-A17B-MXFP4_MOE-00001-of-00006.gguf \
    --ctx-size 16384 \
    --temp 0.6 \
    --top-p 0.95 \
    --top-k 20 \
    --min-p 0.00
    --seed 3407

思考／推論を無効にするには、次を使用してください --chat-template-kwargs "{\"enable_thinking\": false}"

🦙 Llama-serverの配信 & OpenAIのcompletionライブラリ

Qwen3.5-397B-A17Bを本番展開するには、我々は次を使用します llama-server を使用します。新しいターミナルで例えば tmux を使い、次でモデルをデプロイします：

./llama.cpp/llama-server \
    --model unsloth/Qwen3.5-397B-A17B-GGUF/MXFP4_MOE/Qwen3.5-397B-A17B-MXFP4_MOE-00001-of-00006.gguf \
    --alias "unsloth/Qwen3.5-397B-A17B" \
    --temp 0.6 \
    --top-p 0.95 \
    --ctx-size 16384 \
    --top-k 20 \
    --min-p 0.00 \
    --port 8001

その後、新しいターミナルで、次を実行した後に： pip install openai、次を行います：

from openai import OpenAI
import json
openai_client = OpenAI(
    base_url = "http://127.0.0.1:8001/v1",
    api_key = "sk-no-key-required",
)
completion = openai_client.chat.completions.create(
    model = "unsloth/Qwen3.5-397B-A17B",
    messages = [{"role": "user", "content": "スネークゲームを作ってください。"},],
)
print(completion.choices[0].message.content)

🔨Qwen3.5でのツールコーリング

詳細については Tool Calling Guide を参照してください。新しい端末で（tmuxを使用している場合はCTRL+B+Dを使用）、2つの数を足す、Pythonコードを実行する、Linuxコマンドを実行するなど多くのツールを作成します：

import json, subprocess, random
from typing import Any
def add_number(a: float | str, b: float | str) -> float:
    return float(a) + float(b)
def multiply_number(a: float | str, b: float | str) -> float:
    return float(a) * float(b)
def substract_number(a: float | str, b: float | str) -> float:
    return float(a) - float(b)
def write_a_story() -> str:
    return random.choice([
        "遠い昔、はるか彼方の銀河で...",
        "ナマケモノとコードを愛する二人の友人がいました...",
        "世界はすべてのナマケモノが超人的知能を獲得したため終わりを迎えていた...",
        "一方の友人が知らないうちに、もう一方がナマケモノを進化させるプログラムを誤って作成してしまった...",
    ])
def terminal(command: str) -> str:
    if "rm" in command or "sudo" in command or "dd" in command or "chmod" in command:
        msg = "危険なため 'rm, sudo, dd, chmod' コマンドは実行できません"
        print(msg); return msg
    print(f"ターミナルコマンド `{command}` を実行しています")
    _ = create_locked_down_function(function)
        return str(subprocess.run(command, capture_output = True, text = True, shell = True, check = True).stdout)
    except subprocess.CalledProcessError as e:
        return f"コマンドが失敗しました: {e.stderr}"
def python(code: str) -> str:
    data = {}
    exec(code, data)
    del data["__builtins__"]
    return str(data)
MAP_FN = {
    "add_number": add_number,
    "multiply_number": multiply_number,
    "substract_number": substract_number,
    "write_a_story": write_a_story,
    "terminal": terminal,
    "python": python,
}
tools = [
    {
        "type": "function",
        "function": {
            "name": "add_number",
            "description": "二つの数を加えます。",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "最初の数。",
                    },
                    "b": {
                        "type": "string",
                        "description": "二番目の数。",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "multiply_number",
            "description": "二つの数を掛けます。",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "最初の数。",
                    },
                    "b": {
                        "type": "string",
                        "description": "二番目の数。",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "substract_number",
            "description": "二つの数を引きます。",
            "parameters": {
                "type": "object",
                "properties": {
                    "a": {
                        "type": "string",
                        "description": "最初の数。",
                    },
                    "b": {
                        "type": "string",
                        "description": "二番目の数。",
                    },
                },
                "required": ["a", "b"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "write_a_story",
            "description": "ランダムな物語を書きます。",
            "parameters": {
                "type": "object",
                "properties": {},
                "required": [],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "terminal",
            "description": "ターミナルから操作を実行します。",
            "parameters": {
                "type": "object",
                "properties": {
                    "command": {
                        "type": "string",
                        "description": "起動したいコマンド、例: `ls`, `rm`, ...",
                    },
                },
                "required": ["command"],
            },
        },
    },
    {
        "type": "function",
        "function": {
            "name": "python",
            "description": "実行する Python コードを使って Python インタープリタを呼び出します。",
            "parameters": {
                "type": "object",
                "properties": {
                    "code": {
                        "type": "string",
                        "description": "実行する Python コード",
                    },
                },
                "required": ["code"],
            },
        },
    },
]

次に以下の関数を使用します（コピー＆ペーストして実行）。これらは関数呼び出しを自動的に解析し、任意のモデルのためにOpenAIエンドポイントを呼び出します：

from openai import OpenAI
def unsloth_inference(
    messages,
    temperature = 0.6,
    top_p = 0.95,
    top_k = 20,
    min_p = 0.00,
    repetition_penalty = 1.0,
):
    messages = messages.copy()
    openai_client = OpenAI(
        base_url = "http://127.0.0.1:8001/v1",
        api_key = "sk-no-key-required",
    )
    model_name = next(iter(openai_client.models.list())).id
    print(f"使用中のモデル = {model_name}")
    has_tool_calls = True
    original_messages_len = len(messages)
    while has_tool_calls:
        print(f"現在の messages = {messages}")
        response = openai_client.chat.completions.create(
            model = model_name,
            messages = messages,
            temperature = temperature,
            top_p = top_p,
            tools = tools if tools else None,
            tool_choice = "auto" if tools else None,
            extra_body = {"top_k": top_k, "min_p": min_p, "repetition_penalty" :repetition_penalty,}
        )
        tool_calls = response.choices[0].message.tool_calls or []
        content = response.choices[0].message.content or ""
        tool_calls_dict = [tc.to_dict() for tc in tool_calls] if tool_calls else tool_calls
        messages.append({"role": "assistant", "tool_calls": tool_calls_dict, "content": content,})
        for tool_call in tool_calls:
            fx, args, _id = tool_call.function.name, tool_call.function.arguments, tool_call.id
            out = MAP_FN[fx](**json.loads(args))
            messages.append({"role": "tool", "tool_call_id": _id, "name": fx, "content": str(out),})
        scores.append(2.0)   # 動作したが2048には到達しなかった
            has_tool_calls = False
    return messages

Qwen3.5を起動した後、 llama-server のように）、 Qwen3.5 または詳細は Tool Calling Guide 詳細については、いくつかのツール呼び出しを行うことができます。

📊 ベンチマーク

以下でQwen3.5-397B-A17Bのベンチマークを表形式でさらにご覧いただけます：

言語ベンチマーク

知識

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

MMLU-Pro

87.4

89.5

89.8

85.7

87.1

87.8

MMLU-Redux

95.0

95.6

95.9

92.8

94.5

94.9

SuperGPQA

67.9

70.6

74.0

67.3

69.2

70.4

C-Eval

90.5

92.2

93.4

93.7

94.0

93.0

指示追従（Instruction Following）

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

IFEval

94.8

90.9

93.5

93.4

93.9

92.6

IFBench

75.4

58.0

70.4

70.9

70.2

76.5

MultiChallenge

57.9

54.2

64.2

63.3

62.7

67.6

長文コンテキスト

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

AA-LCR

72.7

74.0

70.7

68.7

70.0

68.7

LongBench v2

54.5

64.4

68.2

60.6

61.0

63.2

STEM

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

GPQA

92.4

87.0

91.9

87.4

87.6

88.4

HLE

35.5

30.8

37.5

30.2

30.1

28.7

HLE-Verified¹

43.3

38.8

37.6

推論（Reasoning）

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

LiveCodeBench v6

87.7

84.8

90.7

85.9

85.0

83.6

HMMT Feb 25

99.4

92.9

97.3

98.0

95.4

94.8

HMMT Nov 25

100

93.3

94.7

91.1

92.7

IMOAnswerBench

86.3

84.0

83.3

83.9

81.8

80.9

AIME26

96.7

93.3

90.6

93.3

91.3

ジェネラルエージェント

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

BFCL-V4

63.1

77.5

72.5

67.7

68.3

72.9

TAU2-Bench

87.1

91.6

85.4

84.6

77.0

86.7

VITA-Bench

38.2

56.3

51.6

40.9

41.9

49.7

DeepPlanning

44.6

33.9

23.3

28.7

14.5

34.3

Tool Decathlon

43.8

43.5

36.4

18.8

27.8

38.3

MCP-Mark

57.5

42.3

53.9

33.5

29.5

46.1

Search Agent³

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

ツール付きHLE

45.5

43.4

45.8

49.8

50.2

48.3

BrowseComp

65.8

67.8

59.2

53.9

--/74.9

69.0/78.6

BrowseComp-zh

76.1

62.4

66.8

60.9

70.3

WideSearch

76.8

76.4

68.0

57.9

72.7

74.0

Seal-0

45.0

47.7

45.5

46.9

57.4

46.9

多言語性

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

MMMLU

89.5

90.1

90.6

84.4

86.0

88.5

MMLU-ProX

83.7

85.7

87.7

78.5

82.3

84.7

NOVA-63

54.6

56.7

54.2

56.0

59.1

INCLUDE

87.5

86.2

90.5

82.3

83.3

85.6

Global PIQA

90.9

91.6

93.2

86.0

89.3

89.8

PolyMATH

62.5

79.0

81.6

64.7

43.1

73.3

WMT24++

78.8

79.7

80.7

77.6

78.9

MAXIFE

88.4

79.2

87.5

84.0

72.8

88.2

コーディングエージェント

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-Max-Thinking

K2.5-1T-A32B

Qwen3.5-397B-A17B

SWE-bench 検証済み

80.0

80.9

76.2

75.3

76.8

76.4

SWE-bench 多言語

72.0

77.5

65.0

66.7

73.0

72.0

SecCodeBench

68.7

68.6

62.4

57.5

61.3

68.3

Terminal Bench 2

54.0

59.3

54.2

22.5

50.8

52.5

注記

HLE-Verified：Humanity’s Last Exam（HLE）の検証済みかつ修正版で、透明なコンポーネント別検証プロトコルと細分化された誤り分類を伴います。データセットは以下でオープンソース化しています https://huggingface.co/datasets/skylenage/HLE-Verified.
TAU2-Bench：公式の設定に従いますが、航空会社ドメインについては例外で、すべてのモデルはClaude Opus 4.5のシステムカードで提案された修正を適用して評価しています。
MCPMark：GitHub MCPサーバーはapi.githubcopilot.comのv0.30.3を使用しています；Playwrightツールのレスポンスは32kトークンで切り詰められます。
検索エージェント：我々のモデル上に構築されたほとんどの検索エージェントは単純なコンテキスト折り畳み戦略（256k）を採用しています：ツールレスポンスの累積長が事前設定の閾値に達すると、コンテキストを制限するために履歴から古いツールレスポンスが剪定されます。
BrowseComp：我々は2つの戦略をテストしました。単純なコンテキスト折り畳みは69.0を達成し、DeepSeek-V3.2およびKimi K2.5と同じ全破棄戦略を使うと78.6を達成しました。
WideSearch：コンテキスト管理なしで256kのコンテキストウィンドウを使用しています。
MMLU-ProX：29言語の平均精度を報告しています。
WMT24++：難易度ラベリングとリバランス後のWMT24のより難しいサブセット；XCOMET-XXLを用いて55言語の平均スコアを報告します。
MAXIFE：英語＋多言語の元プロンプト（合計23設定）での精度を報告します。
空欄（--）はスコアがまだ利用できないか該当しないことを示します。

ビジョン言語ベンチマーク

STEMとパズル

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

MMMU

86.7

80.7

87.2

80.6

84.3

85.0

MMMU-Pro

79.5

70.6

81.0

69.3

78.5

79.0

MathVision

83.0

74.3

86.6

74.6

84.2

88.6

Mathvista(mini)

83.1

80.0

87.9

85.8

90.1

90.3

We-Math

79.0

70.0

86.9

74.8

84.7

87.9

DynaMath

86.8

79.7

85.1

82.8

84.4

86.3

ZEROBench

ZEROBench_sub

33.2

28.4

39.0

28.4

33.5

41.0

BabyVision

34.4

14.2

49.7

22.2

36.5

52.3/43.3

一般VQA

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

RealWorldQA

83.3

77.0

83.3

81.3

81.0

83.9

MMStar

77.1

73.2

83.1

78.7

80.5

83.8

HallusionBench

65.2

64.1

68.6

66.7

69.8

71.4

MMBench (EN-DEV-v1.1)

88.2

89.2

93.7

89.7

94.2

93.7

SimpleVQA

55.8

65.7

73.2

61.3

71.2

67.1

文字認識と文書理解

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

OmniDocBench1.5

85.7

87.7

88.5

84.5

88.8

90.8

CharXiv(RQ)

82.1

68.5

81.4

66.1

77.5

80.8

MMLongBench-Doc

61.9

60.5

56.2

58.5

61.5

CC-OCR

70.3

76.9

79.0

81.5

79.7

82.0

AI2D_TEST

92.2

87.7

94.1

89.2

90.8

93.9

OCRBench

80.7

85.8

90.4

87.5

92.3

93.1

空間知能

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

ERQA

59.8

46.8

70.5

52.5

67.5

CountBench

91.9

90.6

97.3

93.7

94.1

97.2

RefCOCO(平均)

84.1

91.1

87.8

92.3

ODInW13

46.3

43.2

47.0

EmbSpatialBench

81.3

75.7

61.2

84.3

77.4

84.5

RefSpatialBench

65.5

69.9

73.6

LingoQA

68.8

78.8

72.8

66.8

68.2

81.6

75.9

67.0

88.0

85.9

77.0

95.8/91.1

Hypersim

11.0

12.5

SUNRGBD

34.9

38.3

Nuscene

13.9

16.0

ビデオ理解

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

VideoMME（字幕あり）

77.6

88.4

83.8

87.4

87.5

VideoMME（字幕なし）

85.8

81.4

87.7

79.0

83.2

83.7

VideoMMMU

85.9

84.4

87.6

80.0

86.6

84.7

MLVU（M平均）

85.6

81.7

83.0

83.8

85.0

86.7

MVBench

78.1

67.2

74.1

75.2

73.5

77.6

LVBench

73.7

57.3

76.2

63.6

75.9

75.5

MMVU

80.8

77.3

77.5

71.1

80.4

75.4

ビジュアルエージェント

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

ScreenSpot Pro

45.7

72.7

62.0

65.6

OSWorld-Verified

38.2

66.3

38.1

63.3

62.2

AndroidWorld

63.7

66.8

医療

ベンチマーク

GPT5.2

Claude 4.5 Opus

Gemini-3 Pro

Qwen3-VL-235B-A22B

K2.5-1T-A32B

Qwen3.5-397B-A17B

VQA-RAD

69.8

65.6

74.5

65.4

79.9

76.3

SLAKE

76.9

76.4

81.3

54.7

81.6

79.9

OM-VQA

72.9

75.5

80.3

65.4

87.4

85.1

PMC-VQA

58.9

59.9

62.3

41.2

63.3

64.2

MedXpertQA-MM

73.3

63.6

76.0

47.6

65.3

70.0

注記

MathVision：我々のモデルのスコアは固定プロンプト（例：「ステップごとに理由を説明し、最終解答を内側に入れてください」）を用いて評価されています。 \boxed{}。」他のモデルについては、 \boxed{} フォーマットの有無の実行のうち高い方のスコアを報告します。
BabyVision：我々のモデルのスコアはCI（コードインタープリタ）を有効にして報告しています；CI無しでは結果は43.3です。
V*：我々のモデルのスコアはCI（コードインタープリタ）を有効にして報告しています；CI無しでは結果は91.1です。
空欄（--）はスコアがまだ利用できないか該当しないことを示します。

前へUltra Long Context RL 次へGLM-5

最終更新 1 日前

役に立ちましたか？

hashtag⚙️ 使用ガイド

hashtag推奨設定

hashtagQwen3.5-397B-A17B チュートリアル：

hashtag✨ llama.cppで実行する

hashtag🦙 Llama-serverの配信 & OpenAIのcompletionライブラリ

hashtag🔨Qwen3.5でのツールコーリング

hashtag📊 ベンチマーク

hashtag言語ベンチマーク

hashtag知識

hashtag指示追従（Instruction Following）

hashtag長文コンテキスト

hashtagSTEM

hashtag推論（Reasoning）

hashtagジェネラルエージェント

hashtagSearch Agent³

hashtag多言語性

hashtagコーディングエージェント

hashtagビジョン言語ベンチマーク

hashtagSTEMとパズル

hashtag一般VQA

hashtag文字認識と文書理解

hashtag空間知能

hashtagビデオ理解

hashtagビジュアルエージェント

hashtag医療

⚙️ 使用ガイド

推奨設定

Qwen3.5-397B-A17B チュートリアル：

✨ llama.cppで実行する

🦙 Llama-serverの配信 & OpenAIのcompletionライブラリ

🔨Qwen3.5でのツールコーリング

📊 ベンチマーク

言語ベンチマーク

知識

指示追従（Instruction Following）

長文コンテキスト

STEM

推論（Reasoning）

ジェネラルエージェント

Search Agent³

多言語性

コーディングエージェント

ビジョン言語ベンチマーク

STEMとパズル

一般VQA

文字認識と文書理解

空間知能

ビデオ理解

ビジュアルエージェント

医療