# FunctionGemma : comment l'exécuter et l'affiner

FunctionGemma est un nouveau modèle de 270 M de paramètres de Google, conçu pour l’appel de fonctions et le fine-tuning. Basé sur [Gemma 3](/docs/fr/modeles/tutorials/gemma-3-how-to-run-and-fine-tune.md) 270M et entraîné spécifiquement pour l’appel d’outils en texte seul, sa petite taille le rend idéal à déployer sur votre propre téléphone.

Vous pouvez exécuter le modèle en précision complète sur **550 Mo de RAM** (CPU) et vous pouvez maintenant **fine-tuner** le localement avec Unsloth. Merci à Google DeepMind pour son partenariat avec Unsloth et son support dès le premier jour !

<a href="/pages/3c9d2836b7f65414c0a313d922358338d23d3862#run-functiongemma" class="button secondary">Tutoriel d’exécution</a><a href="/pages/3c9d2836b7f65414c0a313d922358338d23d3862#fine-tuning-functiongemma" class="button primary">Fine-tuning de FunctionGemma</a>

* FunctionGemma GGUF à exécuter : [unsloth/functiongemma-270m-it-GGUF](https://huggingface.co/unsloth/functiongemma-270m-it-GGUF)

**Notebooks gratuits :**

* Fine-tuner pour **raisonner/penser avant les appels d’outils** en utilisant notre [notebook FunctionGemma](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_\(270M\).ipynb)
* Faire **l’appel d’outils multi-tour** dans un notebook gratuit [Notebook d’appel d’outils multi-tour](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_\(270M\)-Multi-Turn-Tool-Calling.ipynb)
* Fine-tuner pour **activer les actions mobiles** (calendrier, définir une minuterie) dans notre [Notebook d’actions mobiles](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_\(270M\)-Mobile-Actions.ipynb)

### ⚙️ Guide d’utilisation

Google recommande ces réglages pour l’inférence :

* `top_k = 64`
* `top_p = 0.95`
* `temperature = 1.0`
* longueur maximale du contexte = `32,768`&#x20;

Le format du modèle de chat se trouve lorsque nous utilisons ce qui suit :

{% code overflow="wrap" %}

```python
def get_today_date():
    """ Obtient la date d’aujourd’hui """
    return {"today_date": "18 décembre 2025"}
    
tokenizer.apply_chat_template(
    [
        {"role" : "user", "content" : "quelle est la date d’aujourd’hui ?"},
    ],
    tools = [get_today_date], add_generation_prompt = True, tokenize = False,
)
```

{% endcode %}

#### Format du modèle de chat FunctionGemma :

{% hint style="info" %}
FunctionGemma nécessite le message système ou **message développeur** comme `Vous êtes un modèle capable d’effectuer des appels de fonctions avec les fonctions suivantes` Les versions Unsloth intègrent déjà cela si vous oubliez d’en fournir une, alors veuillez utiliser [unsloth/functiongemma-270m-it](https://huggingface.co/unsloth/functiongemma-270m-it)
{% endhint %}

{% code overflow="wrap" lineNumbers="true" %}

```
<bos><start_of_turn>developer\nVous êtes un modèle capable d’effectuer des appels de fonctions avec les fonctions suivantes<start_function_declaration>declaration:get_today_date{description:<escape>Obtient la date d’aujourd’hui<escape>,parameters:{type:<escape>OBJECT<escape>}}<end_function_declaration><end_of_turn>\n<start_of_turn>user\nquelle est la date d’aujourd’hui ?<end_of_turn>\n<start_of_turn>model\n
```

{% endcode %}

## 🖥️ Exécuter FunctionGemma

Voir ci-dessous pour un guide de bureau local, ou vous pouvez consulter notre Guide de déploiement sur téléphone.

#### Tutoriel Llama.cpp (GGUF) :

Instructions pour exécuter dans llama.cpp (notez que nous utiliserons du 4 bits pour s’adapter à la plupart des appareils) :

{% stepper %}
{% step %}
Obtenez la dernière version de `llama.cpp` sur [GitHub ici](https://github.com/ggml-org/llama.cpp). Vous pouvez également suivre les instructions de compilation ci-dessous. Remplacez `-DGGML_CUDA=ON` par `-DGGML_CUDA=OFF` si vous n’avez pas de GPU ou si vous souhaitez simplement une inférence CPU. **Pour les appareils Apple Mac / Metal**, définissez `-DGGML_CUDA=OFF` puis continuez normalement - la prise en charge de Metal est activée par défaut.

{% code overflow="wrap" %}

```bash
apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggml-org/llama.cpp
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-cli llama-mtmd-cli llama-server llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
```

{% endcode %}
{% endstep %}

{% step %}
Vous pouvez récupérer directement depuis Hugging Face. Comme le modèle est très petit, nous utiliserons la variante BF16 complète non quantifiée.

```bash
./llama.cpp/llama-cli \
    -hf unsloth/functiongemma-270m-it-GGUF:BF16 \
    --jinja -ngl 99 --ctx-size 32768 \
    --top-k 64 --top-p 0.95 --temp 1.0
```

{% endstep %}

{% step %}
Téléchargez le modèle via (après avoir installé `pip install huggingface_hub hf_transfer` ). Vous pouvez choisir `BF16` ou d’autres versions quantifiées (bien qu’il ne soit pas recommandé d’aller en dessous de 4 bits) en raison de la petite taille du modèle.

```python
# !pip install huggingface_hub hf_transfer
import os
os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"
from huggingface_hub import snapshot_download
snapshot_download(
    repo_id = "unsloth/functiongemma-270m-it-GGUF",
    local_dir = "unsloth/functiongemma-270m-it-GGUF",
    allow_patterns = ["*BF16*"],
)
```

{% endstep %}

{% step %}
Puis exécutez le modèle en mode conversation :

{% code overflow="wrap" %}

```bash
./llama.cpp/llama-cli \
    --model unsloth/functiongemma-270m-it-GGUF/functiongemma-270m-it-BF16.gguf \
    --ctx-size 32768 \
    --n-gpu-layers 99 \
    --seed 3407 \
    --prio 2 \
    --top-k 64 \
    --top-p 0.95 \
    --temp 1.0 \
    --jinja
```

{% endcode %}
{% endstep %}
{% endstepper %}

## 📱 Déploiement sur téléphone

Vous pouvez également exécuter et déployer FunctionGemma sur votre téléphone grâce à sa petite taille. Nous avons collaboré avec PyTorch pour créer un flux de travail simplifié utilisant l’entraînement conscient de la quantification ([QAT](/docs/fr/blog/quantization-aware-training-qat.md)) afin de récupérer 70 % de précision, puis de les déployer directement sur des appareils en périphérie.

* Déployez FunctionGemma localement sur **Pixel 8** et **iPhone 15 Pro** pour obtenir **des vitesses d’inférence d’environ 50 jetons/s**
* Obtenez la confidentialité d’abord, des réponses instantanées et des capacités hors ligne
* Utilisez notre [notebook Colab gratuit](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Qwen3_\(0_6B\)-Phone_Deployment.ipynb) pour fine-tuner Qwen3 0.6B et l’exporter pour le déploiement sur téléphone - remplacez simplement par Gemma3, et suivez la [documentation Gemma 3 Executorch](https://github.com/pytorch/executorch/tree/main/examples/models/gemma3).

{% content-ref url="/pages/feb774ec9526706cf5885edfba3f100fbb320ea6" %}
[Run LLMs on your Phone](/docs/fr/bases/inference-and-deployment/deploy-llms-phone.md)
{% endcontent-ref %}

Consultez nos tutoriels iOS et Android pour le déploiement sur votre téléphone :

<a href="/pages/feb774ec9526706cf5885edfba3f100fbb320ea6#ios-deployment" class="button secondary" data-icon="apple">Tutoriel iOS</a><a href="/pages/feb774ec9526706cf5885edfba3f100fbb320ea6#android-deployment" class="button secondary" data-icon="android">Tutoriel Android</a>

## 🦥 Fine-tuning de FunctionGemma

Google a noté que **FunctionGemma est destiné à être fine-tuné** pour votre tâche spécifique d’appel de fonctions, y compris les cas d’usage multi-tour. Unsloth prend désormais en charge le fine-tuning de FunctionGemma. Nous avons créé 2 notebooks de fine-tuning, qui montrent comment vous pouvez entraîner le modèle via **un fine-tuning complet ou LoRA gratuitement via un notebook Colab :**

{% columns %}
{% column %}
[**Notebook de fine-tuning Reason before Tool Calling**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_\(270M\).ipynb)

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_(270M).ipynb>" %}
{% endcolumn %}

{% column %}
[**Notebook de fine-tuning Mobile Actions**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_\(270M\)-Mobile-Actions.ipynb)

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_(270M)-Mobile-Actions.ipynb>" %}
{% endcolumn %}
{% endcolumns %}

Dans le [**Notebook de fine-tuning Reason before Tool Calling**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_\(270M\).ipynb), nous allons **le fine-tuner pour qu’il « pense/raisonne » avant l’appel de fonction**. Le raisonnement en chaîne de pensée devient de plus en plus important pour améliorer les capacités d’utilisation d’outils.

FunctionGemma est un petit modèle spécialisé dans l’appel de fonctions. Il utilise son propre modèle de chat distinct. Lorsqu’on lui fournit des définitions d’outils et une invite utilisateur, il génère une sortie structurée. Nous pouvons ensuite analyser cette sortie pour exécuter l’outil, récupérer les résultats et les utiliser pour générer la réponse finale.

| Type de tour                 | Contenu                                                                                                                                                                                                                                                                                                |
| ---------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ |
| **Invite développeur**       | <p><code>\<start\_of\_turn>developer</code></p><p><code>Vous pouvez effectuer des appels de fonctions avec les fonctions suivantes :</code></p>                                                                                                                                                        |
| **Déclaration de fonction**  | <p><code>\<start\_function\_declaration>declaration:get\_weather{</code></p><p><code>description: "Obtenir la météo d’une ville",</code></p><p><code>parameters: { city: STRING }</code></p><p><code>}</code></p><p><code>\<end\_function\_declaration></code></p><p><code>\<end\_of\_turn></code></p> |
| **Tour utilisateur**         | <p><code>\<start\_of\_turn>user</code></p><p><code>Quelle est la météo à Paris ?</code></p><p><code>\<end\_of\_turn></code></p>                                                                                                                                                                        |
| **Appel de fonction**        | <p><code>\<start\_of\_turn>model</code></p><p><code>\<start\_function\_call>call:get\_weather{</code></p><p><code>city: "paris"</code></p><p><code>}</code></p><p><code>\<end\_function\_call></code></p>                                                                                              |
| **Réponse de fonction**      | <p><code>\<start\_function\_response>response:get\_weather{temperature:26}</code></p><p><code>\<end\_function\_response></code></p>                                                                                                                                                                    |
| **Fermeture de l’assistant** | <p><code>La météo à Paris est de 26 degrés Celsius.</code></p><p><code>\<end\_of\_turn></code></p>                                                                                                                                                                                                     |

Ici, nous implémentons une version simplifiée utilisant un seul bloc de réflexion (plutôt qu’un raisonnement entrelacé) via `<think></think>`. Par conséquent, notre interaction avec le modèle ressemble à ceci :

| **Réflexion** + **Appel de fonction** | <p><code>\<start\_of\_turn>model</code></p><p><mark style="color:blue;"><strong><code>\<think></code></strong></mark></p><p><mark style="color:blue;"><strong><code>L’utilisateur veut la météo pour Paris. J’ai l’outil get\_weather. Je devrais l’appeler avec l’argument city.</code></strong></mark></p><p><mark style="color:blue;"><strong><code>\</think></code></strong></mark></p><p><code>\<start\_function\_call>call:get\_weather{</code></p><p><code>city: "paris"</code></p><p><code>}</code></p><p><code>\<end\_function\_call></code></p> |
| ------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |

## :accordion:Fine-tuning de FunctionGemma pour les actions mobiles

Nous avons également créé un notebook pour montrer comment faire exécuter à FunctionGemma des actions mobiles. Dans le [**Notebook de fine-tuning Mobile Actions**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_\(270M\)-Mobile-Actions.ipynb), nous avons également activé l’évaluation, et montrons comment le fine-tuning pour des actions sur appareil fonctionne bien, comme on peut le voir avec la baisse de la perte d’évaluation :

<figure><img src="/files/ee46c516bf15b6deba797ba1b67062d122e409f0" alt="" width="375"><figcaption></figcaption></figure>

Par exemple, avec une invite donnée `Veuillez définir un rappel pour une « réunion Team Sync » ce vendredi 6 juin 2025 à 14 h.`

{% code overflow="wrap" %}

```python
[{'role': 'developer',
  'content': 'Date et heure actuelles données au format YYYY-MM-DDTHH:MM:SS : 2025-06-04T15:29:23\nLe jour de la semaine est mercredi\nVous êtes un modèle capable d’effectuer des appels de fonctions avec les fonctions suivantes\n',
  'tool_calls': None},
 {'role': 'user',
  'content': 'Veuillez définir un rappel pour une « réunion Team Sync » ce vendredi 6 juin 2025 à 14 h.',
  'tool_calls': None}]
```

{% endcode %}

Nous avons fine-tuné le modèle pour qu’il puisse produire :

{% code overflow="wrap" %}

```
<start_of_turn>user
Veuillez définir un rappel pour une « réunion Team Sync » ce vendredi 6 juin 2025 à 14 h.<end_of_turn>
<start_of_turn>model
<start_function_call>call:create_calendar_event{body:None,datetime:2025-06-06 14:00:00,email:None,first_name:None,last_name:None,phone_number:None,query:None,subject:None,title:<escape>Team Sync Meeting<escape>,to:None}<end_function_call><start_function_response>
```

{% endcode %}

## :man\_running:Appel d’outils multi-tour avec FunctionGemma

Nous avons également créé un notebook pour montrer comment faire effectuer à FunctionGemma des appels d’outils multi-tour. Dans le [**Notebook d’appel d’outils multi-tour**](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_\(270M\)-Multi-Turn-Tool-Calling.ipynb), nous montrons comment FunctionGemma est capable d’appeler des outils dans une longue conversation, par exemple voir ci-dessous :

<figure><img src="/files/acda1d48643acb331392adcf4c95b5b0b67b315b" alt=""><figcaption></figcaption></figure>

Vous devez d’abord spécifier vos outils comme ci-dessous :

{% code expandable="true" %}

```python
def get_today_date():
    """
    Obtient la date d’aujourd’hui

    Renvoie :
        today_date : date d’aujourd’hui au format 18 décembre 2025
    """
    from datetime import datetime
    today_date = datetime.today().strftime("%d %B %Y")
    return {"today_date": today_date}

def get_current_weather(location: str, unit: str = "celsius"):
    """
    Obtient la météo actuelle dans un lieu donné.

    Args :
        location : la ville et l’État, par exemple "San Francisco, CA, USA" ou "Sydney, Australia"
        unit : l’unité dans laquelle renvoyer la température. (choix : ["celsius", "fahrenheit"])

    Renvoie :
        temperature : la température actuelle dans le lieu donné
        weather : la météo actuelle dans le lieu donné
    """
    if "San Francisco" in location.title():
        return {"temperature": 15, "weather": "sunny"}
    elif "Sydney" in location.title():
        return {"temperature": 25, "weather": "cloudy"}
    else:
        return {"temperature": 30, "weather": "rainy"}

def add_numbers(x: float | str, y: float | str):
    """
    Additionne 2 nombres

    Args :
        x : premier nombre
        y : deuxième nombre

    Renvoie :
        result : x + y
    """
    return {"result" : float(x) + float(y)}

def multiply_numbers(x: float | str, y: float | str):
    """
    Multiplie 2 nombres

    Args :
        x : premier nombre
        y : deuxième nombre

    Renvoie :
        result : x * y
    """
    return {"result" : float(x) * float(y)}
```

{% endcode %}

Nous créons ensuite une correspondance pour tous les outils :

```python
FUNCTION_MAPPING = {
    "get_today_date" : get_today_date,
    "get_current_weather" : get_current_weather,
    "add_numbers": add_numbers,
    "multiply_numbers": multiply_numbers,
}
TOOLS = list(FUNCTION_MAPPING.values())
```

Nous avons également besoin de code pour l’appel d’outils et le parsing :

{% code expandable="true" %}

```python
#@title Code de parsing FunctionGemma (extensible)
import re
def extract_tool_calls(text):
    def cast(v):
        try: return int(v)
        except:
            try: return float(v)
            except: return {'true': True, 'false': False}.get(v.lower(), v.strip("'\""))

    return [{
        "name": name,
        "arguments": {
            k: cast((v1 or v2).strip())
            for k, v1, v2 in re.findall(r"(\w+):(?:<escape>(.*?)<escape>|([^,}]*))", args)
        }
    } for name, args in re.findall(r"<start_function_call>call:(\w+)\{(.*?)\}<end_function_call>", text, re.DOTALL)]

def process_tool_calls(output, messages):
    calls = extract_tool_calls(output)
    if not calls: return messages
    messages.append({
        "role": "assistant",
        "tool_calls": [{"type": "function", "function": call} for call in calls]
    })
    results = [
        {"name": c['name'], "response": FUNCTION_MAPPING[c['name']](**c['arguments'])}
        for c in calls
    ]
    messages.append({ "role": "tool", "content": results })
    return messages

def _do_inference(model, messages, max_new_tokens = 128):
    inputs = tokenizer.apply_chat_template(
        messages, tools = TOOLS, add_generation_prompt = True, return_dict = True, return_tensors = "pt",
    )
    output = tokenizer.decode(inputs["input_ids"][0], skip_special_tokens = False)

    out = model.generate(**inputs.to(model.device), max_new_tokens = max_new_tokens,
                         top_p = 0.95, top_k = 64, temperature = 1.0,)
    generated_tokens = out[0][len(inputs["input_ids"][0]):]
    return tokenizer.decode(generated_tokens, skip_special_tokens = True)
    
def do_inference(model, messages, print_assistant = True, max_new_tokens = 128):
    output = _do_inference(model, messages, max_new_tokens = max_new_tokens)
    messages = process_tool_calls(output, messages)
    if messages[-1]["role"] == "tool":
        output = _do_inference(model, messages, max_new_tokens = max_new_tokens)
    messages.append({"role": "assistant", "content": output})
    if print_assistant: print(output)
    return messages
```

{% endcode %}

Et maintenant, nous pouvons appeler le modèle !

```python
from unsloth import FastLanguageModel
import torch
max_seq_length = 4096 # Vous pouvez choisir n’importe quelle longueur de séquence !
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/functiongemma-270m-it",
    max_seq_length = max_seq_length, # Choisissez n’importe quelle valeur pour un long contexte !
    load_in_4bit = False,  # quantification 4 bits pour réduire la mémoire
    load_in_8bit = False, # [NOUVEAU !] Un peu plus précis, utilise 2x plus de mémoire
    load_in_16bit = True, # [NOUVEAU !] Active LoRA en 16 bits
    full_finetuning = False, # [NOUVEAU !] Nous avons maintenant le fine-tuning complet !
    # token = "hf_...", # utilisez-en un si vous utilisez des modèles protégés
)

messages = []
messages.append({"role": "user", "content": "Quelle est la date d’aujourd’hui ?"})
messages = do_inference(model, messages, max_new_tokens = 128)
```

Essayez les 3 notebooks que nous avons créés pour FunctionGemma :

{% columns %}
{% column %}
[Notebook de fine-tuning Reason before Tool Calling](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_\(270M\).ipynb)

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_(270M).ipynb>" %}
{% endcolumn %}

{% column %}
[Notebook de fine-tuning Mobile Actions](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_\(270M\)-Mobile-Actions.ipynb)

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_(270M)-Mobile-Actions.ipynb>" %}
{% endcolumn %}

{% column %}
[Notebook d’appel d’outils multi-tour](https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_\(270M\)-Multi-Turn-Tool-Calling.ipynb)

{% embed url="<https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/FunctionGemma_(270M)-Multi-Turn-Tool-Calling.ipynb>" %}
{% endcolumn %}
{% endcolumns %}


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/fr/modeles/tutorials/functiongemma.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
