FunctionGemma: 実行およびファインチューニング方法

FunctionGemma をデバイスやスマートフォンでローカルに実行およびファインチューニングする方法を学びましょう。

FunctionGemmaはGoogleが設計した関数呼び出しとファインチューニング向けの新しい270Mパラメータモデルです。ベースは Gemma 3 270Mでテキストのみのツール呼び出し向けに特別に訓練されており、その小さなサイズは自分の携帯電話にデプロイするのに最適です。

フル精度モデルを実行できます 550MBのRAM （CPU）で、そして今あなたは ファインチューニング Unslothでローカルに実行できます。日次サポートのためにUnslothと提携してくれたGoogle DeepMindに感謝します！

実行チュートリアル FunctionGemmaのファインチューニング

FunctionGemma GGUFを実行するには: unsloth/functiongemma-270m-it-GGUF

無料ノートブック：

ファインチューニング先： ツール呼び出しの前に推論/思考するようにする を使用して FunctionGemmaノートブック
行ってください マルチターンのツール呼び出し を無料でマルチターンツール呼び出しノートブック
ファインチューニング先： モバイルアクションを有効にする （カレンダー、タイマー設定）を私たちのモバイルアクションノートブック

⚙️ 使用ガイド

Googleは推論のためにこれらの設定を推奨しています：

top_k = 64
top_p = 0.95
temperature = 1.0
最大コンテキスト長 = 32,768

チャットテンプレート形式は下記を使用したときに見られます：

def get_today_date():
    """ 今日の日付を取得する """
    return {"today_date": "2025年12月18日"}
    
tokenizer.apply_chat_template(
    [
        {"role" : "user", "content" : "今日の日付は何ですか？"},
    ],
    tools = [get_today_date], add_generation_prompt = True, tokenize = False,
)

FunctionGemmaチャットテンプレート形式：

FunctionGemmaはシステムまたは developerメッセージ を 次の関数で関数呼び出しが可能なモデルです Unslothのバージョンにはこれが組み込まれているので、渡し忘れても大丈夫です。ですからぜひ unsloth/functiongemma-270m-it

<bos><start_of_turn>developer\n次の関数で関数呼び出しが可能なモデルです<start_function_declaration>declaration:get_today_date{description:<escape>今日の日付を取得します<escape>,parameters:{type:<escape>OBJECT<escape>}}<end_function_declaration><end_of_turn>\n<start_of_turn>user\n今日の日付は何ですか？<end_of_turn>\n<start_of_turn>model\n

🖥️ FunctionGemmaを実行する

下記にローカルデスクトップガイドを示します、またはPhone Deployment Guide（電話へのデプロイガイド）をご覧ください。

Llama.cpp チュートリアル（GGUF）：

llama.cppで実行するための手順（ほとんどのデバイスに収めるために4ビットを使用します）：

最新の llama.cpp を GitHubで入手してください。以下のビルド手順にも従うことができます。を変更してください -DGGML_CUDA=ON に -DGGML_CUDA=OFF GPUを持っていない場合やCPUで推論したい場合は Apple Mac / Metalデバイスの場合、次を設定してください -DGGML_CUDA=OFF その後通常通り続行してください — Metalサポートはデフォルトで有効です。

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

Hugging Faceから直接プルできます。モデルが非常に小さいため、量子化していないフル精度のBF16バリアントを使用します。

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    -hf unsloth/functiongemma-270m-it-GGUF:BF16 \
    --jinja -ngl 99 --ctx-size 32768 \
    --top-k 64 --top-p 0.95 --temp 1.0

モデルをダウンロードするには（をインストールした後） モデルをダウンロードするには（ を選択できます。 BF16 または他の量子化バージョン（モデルサイズが小さいため4ビット未満に下げることは推奨されません）。

# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/functiongemma-270m-it-GGUF",
    local_dir = "unsloth/functiongemma-270m-it-GGUF",
    allow_patterns = ["*BF16*"],
)

次に会話モードでモデルを実行します：

export LLAMA_CACHE="unsloth/GLM-4.7-GGUF"
    --model unsloth/functiongemma-270m-it-GGUF/functiongemma-270m-it-BF16.gguf \
    --ctx-size 32768 \
    --n-gpu-layers 99 \
    --model unsloth/GLM-4.7-GGUF/UD-Q2_K_XL/GLM-4.7-UD-Q2_K_XL-00001-of-00003.gguf \
    --prio 2 \
    --top-k 64 \
    --temp 1.0 \
    --flash-attn on \
    --jinja

📱 電話へのデプロイ

その小ささゆえに、FunctionGemmaは電話上でも実行・デプロイできます。量子化に配慮したトレーニング（QAT)を用いて精度の70%を回復し、それをエッジデバイスに直接デプロイするという合理化されたワークフローをPyTorchと協力して作成しました。

FunctionGemmaをローカルにデプロイする先： Pixel 8 と iPhone 15 Pro で、 約50トークン/秒の推論速度を得られます
プライバシー重視、即時応答、オフライン機能を手に入れましょう
私たちの無料のColabノートブックを使ってQwen3 0.6Bをファインチューニングして電話用にエクスポートできます — 単にGemma3に変更し、次の手順に従ってください： Gemma 3 Executorchドキュメント.

📱Run LLMs on your Phone

電話へのデプロイについてはiOSとAndroidのチュートリアルをご覧ください：

iOSチュートリアル Androidチュートリアル

🦥 FunctionGemmaのファインチューニング

Googleは次のように述べています： FunctionGemmaはファインチューニングすることを意図しています 特定の関数呼び出しタスク、マルチターンの場合を含めて。Unslothは現在FunctionGemmaのファインチューニングをサポートしています。私たちは2つのファインチューニング用ノートブックを作成し、モデルを通じてトレーニングする方法を示しています、 フルファインチューニングまたはColabノートブック経由のLoRAを無料で：

ツール呼び出し前に推論するファインチューニングノートブック

Google Colabcolab.research.google.com

モバイルアクションファインチューニングノートブック

Google Colabcolab.research.google.com

の中で、 ツール呼び出し前に推論するファインチューニングノートブック私たちは ファンクション呼び出しの前に「考える/推論する」ようにファインチューニングします。チェイン・オブ・ソート（思考連鎖）による推論はツール利用能力を向上させるためにますます重要になっています。

FunctionGemmaは関数呼び出しに特化した小さなモデルです。独自のチャットテンプレートを利用します。ツール定義とユーザープロンプトが提供されると、構造化された出力を生成します。次にこの出力を解析してツールを実行し、結果を取得して最終回答の生成に使用できます。

ターンタイプ

内容

Developerプロンプト

<start_of_turn>developer

次の関数で関数呼び出しが可能です：

関数宣言

<start_function_declaration>declaration:get_weather{

description: "都市の天気を取得する",

parameters: { city: STRING }

}

<end_function_declaration>

<end_of_turn>

ユーザーターン

<start_of_turn>user

パリの天気はどうですか？

<end_of_turn>

関数呼び出し

<start_of_turn>model

<start_function_call>call:get_weather{

city: "paris"

}

<end_function_call>

関数レスポンス

<start_function_response>response:get_weather{temperature:26}

<end_function_response>

アシスタントの締めくくり

パリの天気は摂氏26度です。

<end_of_turn>

ここでは、インタリーブされた推論ではなく単一の思考ブロックを使用する単純化されたバージョンを実装します（したがって）、 <think></think>その結果、私たちのモデルとのやり取りは次のようになります：

Thinking + 関数呼び出し

<start_of_turn>model

<think>

ユーザーはパリの天気を求めています。私はget_weatherツールを持っています。city引数で呼び出すべきです。

</think>

<start_function_call>call:get_weather{

city: "paris"

}

<end_function_call>

🪗モバイルアクション向けのFunctionGemmaのファインチューニング

また、FunctionGemmaにモバイルアクションを実行させる方法を示すノートブックも作成しました。 モバイルアクションファインチューニングノートブックその中で、評価も有効にし、デバイス上でのアクション向けにファインチューニングすることがうまく機能することを示しており、評価損失が下がる様子が見られます：

例えばプロンプトが与えられた場合 「Team Sync Meeting」というリマインダーを2025年6月6日（金）午後2時に設定してください。

[{'role': 'developer',
  'content': '現在の日付と時刻はYYYY-MM-DDTHH:MM:SS形式で与えられます: 2025-06-04T15:29:23\n曜日は水曜日です\n次の関数で関数呼び出しが可能なモデルです\n',
  'tool_calls': None},
 {'role': 'user',
  'content': '「Team Sync Meeting」というリマインダーを2025年6月6日（金）午後2時に設定してください。',
  'tool_calls': None}]

モデルを次のような出力を出せるようにファインチューニングしました：

<start_of_turn>user
「Team Sync Meeting」というリマインダーを2025年6月6日（金）午後2時に設定してください。<end_of_turn>
<start_of_turn>model
<start_function_call>call:create_calendar_event{body:None,datetime:2025-06-06 14:00:00,email:None,first_name:None,last_name:None,phone_number:None,query:None,subject:None,title:<escape>Team Sync Meeting<escape>,to:None}<end_function_call><start_function_response>

🏃‍♂️FunctionGemmaによるマルチターンツール呼び出し

また、FunctionGemmaがマルチターンのツール呼び出しを行える方法を示すノートブックも作成しました。 マルチターンツール呼び出しノートブックその中で、FunctionGemmaが長いメッセージ変更の中でツールを呼び出せることを示しています。例えば以下を参照してください：

まず以下のようにツールを指定する必要があります：

def get_today_date():
    """
    今日の日付を取得します

    返り値：
        today_date: 日付（例：2025年12月18日の形式）
    """
    from datetime import datetime
    today_date = datetime.today().strftime("%d %B %Y")
    return {"today_date": today_date}

def get_current_weather(location: str, unit: str = "celsius"):
    """
    指定した場所の現在の天気を取得します。

    引数：
        location: 都市と州、例："San Francisco, CA, USA"や"Sydney, Australia"
        unit: 温度を返す単位。（選択肢: ["celsius", "fahrenheit"])

    返り値：
        temperature: 指定された場所の現在の気温
        weather: 指定された場所の現在の天気
    """
    if "San Francisco" in location.title():
        return {"temperature": 15, "weather": "sunny"}
    elif "Sydney" in location.title():
        return {"temperature": 25, "weather": "cloudy"}
    out = MAP_FN[fx](**json.loads(args))
        return {"temperature": 30, "weather": "rainy"}

def add_numbers(x: float | str, y: float | str):
    """
    2つの数を加算します

    引数：
        x: 最初の数
        y: 2番目の数

    返り値：
        result: x + y
    """
    return {"result" : float(x) + float(y)}

def multiply_numbers(x: float | str, y: float | str):
    """
    2つの数を乗算します

    引数：
        x: 最初の数
        y: 2番目の数

    返り値：
        result: x * y
    """
    return {"result" : float(x) * float(y)}

次にすべてのツールのマッピングを作成します：

FUNCTION_MAPPING = {
    "get_today_date" : get_today_date,
    "get_current_weather" : get_current_weather,
    "add_numbers": add_numbers,
    "multiply_numbers": multiply_numbers,
}
TOOLS = list(FUNCTION_MAPPING.values())

ツール呼び出しと解析のコードも必要です：

#@title FunctionGemma解析コード（拡張可能）
import re
def extract_tool_calls(text):
    def cast(v):
        try: return int(v)
        except:
            try: return float(v)
            except: return {'true': True, 'false': False}.get(v.lower(), v.strip("'\""))

    return [{
        "name": name,
        "arguments": {
            k: cast((v1 or v2).strip())
            for k, v1, v2 in re.findall(r"(\w+):(?:<escape>(.*?)<escape>|([^,}]*))", args)
        }
    } for name, args in re.findall(r"<start_function_call>call:(\w+)\{(.*?)\}<end_function_call>", text, re.DOTALL)]

def process_tool_calls(output, messages):
    calls = extract_tool_calls(output)
    if not calls: return messages
    messages.append({
        "role": "assistant",
        "tool_calls": [{"type": "function", "function": call} for call in calls]
    })
    results = [
        {"name": c['name'], "response": FUNCTION_MAPPING[c['name']](**c['arguments'])}
        for c in calls
    ]
    messages.append({ "role": "tool", "content": results })
    else:

def _do_inference(model, messages, max_new_tokens = 128):
    inputs = tokenizer.apply_chat_template(
        messages, tools = TOOLS, add_generation_prompt = True, return_dict = True, return_tensors = "pt",
    )
    output = tokenizer.decode(inputs["input_ids"][0], skip_special_tokens = False)

    out = model.generate(**inputs.to(model.device), max_new_tokens = max_new_tokens,
                         top_p = 0.95, top_k = 64, temperature = 1.0,)
    generated_tokens = out[0][len(inputs["input_ids"][0]):]
    return tokenizer.decode(generated_tokens, skip_special_tokens = True)
    
def do_inference(model, messages, print_assistant = True, max_new_tokens = 128):
    output = _do_inference(model, messages, max_new_tokens = max_new_tokens)
    messages = process_tool_calls(output, messages)
    if messages[-1]["role"] == "tool":
        output = _do_inference(model, messages, max_new_tokens = max_new_tokens)
    messages.append({"role": "assistant", "content": output})
    if print_assistant: print(output)
    else:

そして今、モデルを呼び出すことができます！

from unsloth import FastLanguageModel
import torch
max_seq_length = 4096 # 任意のシーケンス長を選べます！
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/functiongemma-270m-it",
    max_seq_length = max_seq_length, # 長いコンテキストのために任意の値を選んでください！
    load_in_4bit = False,  # メモリ削減のための4ビット量子化
    load_in_8bit = False, # [新機能！] 若干精度が高く、2倍のメモリを使用
    load_in_16bit = True, # [新機能！] 16ビットLoRAを有効にする
    full_finetuning = False, # [新機能！] フルファインチューニングが利用可能です！
    # token = "hf_...", # ゲート付きモデルを使用する場合はこれを使う
)

messages = []
messages.append({"role": "user", "content": "今日の日付は何ですか？"})
messages = do_inference(model, messages, max_new_tokens = 128)

私たちがFunctionGemmaのために作成した3つのノートブックを試してみてください：

ツール呼び出し前に推論するファインチューニングノートブック

Google Colabcolab.research.google.com

モバイルアクションファインチューニングノートブック

Google Colabcolab.research.google.com

マルチターンツール呼び出しノートブック

Google Colabcolab.research.google.com

前へstable-diffusion.cpp Tutorial 次へDevstral 2

最終更新 7 時間前

役に立ちましたか？

hashtag⚙️ 使用ガイド

hashtagFunctionGemmaチャットテンプレート形式：

hashtag🖥️ FunctionGemmaを実行する

hashtagLlama.cpp チュートリアル（GGUF）：

hashtag📱 電話へのデプロイ

hashtag🦥 FunctionGemmaのファインチューニング

hashtag🪗モバイルアクション向けのFunctionGemmaのファインチューニング

hashtag🏃‍♂️FunctionGemmaによるマルチターンツール呼び出し

⚙️ 使用ガイド

FunctionGemmaチャットテンプレート形式：

🖥️ FunctionGemmaを実行する

Llama.cpp チュートリアル（GGUF）：

📱 電話へのデプロイ

🦥 FunctionGemmaのファインチューニング

🪗モバイルアクション向けのFunctionGemmaのファインチューニング

🏃‍♂️FunctionGemmaによるマルチターンツール呼び出し