gpt-oss: Anleitung zum Ausführen
Führe aus und feinabstimme die neuen Open-Source-Modelle von OpenAI!
OpenAI veröffentlicht 'gpt-oss-120b' und 'gpt-oss-20b', zwei Open-Source-Sprachmodelle auf dem neuesten Stand der Technik unter der Apache-2.0-Lizenz. Beide 128k-Kontextmodelle übertreffen ähnlich große offene Modelle bei Schlussfolgerungen, Tool-Nutzung und agentischen Aufgaben. Sie können sie jetzt lokal mit Unsloth ausführen und feinabstimmen!
gpt-oss-20b ausführengpt-oss-120b ausführengpt-oss feinabstimmen
Feinabstimmen gpt-oss-20b kostenlos mit unserem Colab-Notebook
Trainiert mit RL, gpt-oss-120b konkurriert mit o4-mini und gpt-oss-20b konkurriert mit o3-mini. Beide glänzen bei Funktionsaufrufen und CoT-Schlussfolgerungen und übertreffen o1 und GPT-4o.
Für die beste Leistung stellen Sie sicher, dass Ihr gesamter verfügbarer Speicher (Unified Memory + VRAM + Systemspeicher) die Größe der quantisierten Modelldatei übersteigt, die Sie herunterladen. Falls nicht, kann llama.cpp zwar weiterhin per SSD/HDD-Offloading ausgeführt werden, aber die Inferenz wird langsamer sein.
gpt-oss - Unsloth GGUFs:
Enthält Unsloths Korrekturen für Chat-Templates. Für die besten Ergebnisse verwenden Sie unsere Uploads und trainieren Sie mit Unsloth!
20B: gpt-oss-20B
120B: gpt-oss-120B
📜Unsloth-Korrekturen für gpt-oss
Einige unserer Korrekturen wurden nach oben in OpenAIs offizielles Modell auf Hugging Face übernommen. Siehe
OpenAI hat eine eigenständige Parsing- und Tokenisierungsbibliothek namens Harmony veröffentlicht, die es ermöglicht, Unterhaltungen in OpenAIs bevorzugtes Format für gpt-oss zu tokenisieren.
Inferenz-Engines verwenden im Allgemeinen stattdessen das Jinja-Chat-Template und nicht das Harmony-Paket, und wir haben beim direkten Vergleich mit Harmony einige Probleme damit gefunden. Wie Sie unten sehen, ist der obere Teil die korrekte gerenderte Form wie in Harmony. Der untere Teil ist die vom aktuellen Jinja-Chat-Template gerenderte Form. Es gibt einige Unterschiede!

Wir haben außerdem einige Funktionen erstellt, mit denen Sie OpenAIs Harmony-Bibliothek direkt verwenden können, falls Sie möchten – ganz ohne Jinja-Chat-Template. Sie können einfach normale Unterhaltungen wie unten parsen:
Dann verwenden Sie die encode_conversations_with_harmony Funktion von Unsloth:
Das Harmony-Format enthält mehrere interessante Dinge:
reasoning_effort = "medium"Sie können zwischen low, medium oder high wählen, und dies verändert das Schlussfolgerungsbudget von gpt-oss – im Allgemeinen gilt: je höher, desto besser die Genauigkeit des Modells.developer_instructionsist wie ein System-Prompt, den Sie hinzufügen können.model_identitylässt man am besten unverändert – Sie können es bearbeiten, aber wir sind uns nicht sicher, ob benutzerdefinierte funktionieren.
Wir finden mehrere Probleme mit aktuellen Jinja-Chat-Templates (es gibt mehrere Implementierungen im gesamten Ökosystem):
Funktions- und Tool-Aufrufe werden mit
tojsongerendert, was in Ordnung ist, wenn es ein Dict ist, aber wenn es ein String ist, werden Anführungszeichen und andere Symbole mit Backslashes versehen.Es gibt einige zusätzliche Zeilenumbrüche im Jinja-Template an einigen Grenzen.
Die Denkgänge des Modells beim Tool-Calling sollten das
analysisTag haben und nichtfinalTag.Andere Chat-Templates scheinen
<|channel|>finalgar nicht zu verwenden – man sollte dies für die finale Assistenten-Nachricht nutzen. Sie sollten dies nicht für Denkspuren oder Tool-Aufrufe verwenden.
Unsere Chat-Templates für die GGUF-, unsere BnB- und BF16-Uploads und alle Versionen sind behoben! Wenn wir beispielsweise unser Format mit dem von Harmony vergleichen, erhalten wir keine unterschiedlichen Zeichen:

🔢 Präzisionsprobleme
Wir haben mehrere Präzisionsprobleme auf Tesla T4- und float16-Maschinen gefunden, hauptsächlich weil das Modell mit BF16 trainiert wurde und daher Ausreißer und Überläufe vorhanden waren. MXFP4 wird auf Ampere- und älteren GPUs tatsächlich nicht unterstützt, daher stellt Triton tl.dot_scaled für MXFP4-Matrixmultiplikation bereit. Es upcastet die Matrizen intern im laufenden Betrieb nach BF16.
Wir haben ein MXFP4-Inferenz-Notebook auch im Tesla-T4-Colab erstellt!
Software-Emulation ermöglicht das Ansprechen von Hardwarearchitekturen ohne native Unterstützung für Microscaling-Operationen. Derzeit werden in einem solchen Fall mikroskalierte lhs/rhs vorab auf bf16 Elementtyp
für die Dot-Berechnung hochgestuft,
Wir haben festgestellt, dass Sie, wenn Sie float16 als Mixed-Precision-Autocast-Datentyp verwenden, nach einiger Zeit Unendlichkeiten erhalten. Um dem entgegenzuwirken, haben wir festgestellt, dass die Ausführung von MoE in bfloat16 und danach das Belassen in entweder bfloat16- oder float32-Präzision hilft. Wenn ältere GPUs nicht einmal bfloat16-Unterstützung haben (wie T4), wird float32 verwendet.
🖥️ gpt-oss ausführen
Unten finden Sie Anleitungen für die 20B und 120B Varianten des Modells.
Jede Quantisierung kleiner als F16, einschließlich 2-Bit, hat nur minimale Genauigkeitsverluste, da nur einige Teile (z. B. Attention-Schichten) mit weniger Bits arbeiten, während der Großteil in voller Präzision bleibt. Deshalb liegen die Größen nahe am F16-Modell; zum Beispiel verhält sich die 2-Bit-Version (11,5 GB) fast gleich wie die vollständige 16-Bit-Version (14 GB). Sobald llama.cpp eine bessere Quantisierung für diese Modelle unterstützt, laden wir sie so schnell wie möglich hoch.
Die gpt-oss Modelle von OpenAI enthalten eine Funktion, mit der Benutzer den „reasoning effort“ des Modells anpassen können. Damit haben Sie Kontrolle über den Kompromiss zwischen Leistung des Modells und Antwortgeschwindigkeit (Latenz), die durch die Anzahl der Tokens bestimmt wird, die das Modell zum „Nachdenken“ verwendet.
Die gpt-oss Modelle bieten drei unterschiedliche Stufen des reasoning effort, aus denen Sie wählen können:
Niedrig: Optimiert für Aufgaben, die sehr schnelle Antworten erfordern und keine komplexe mehrstufige Schlussfolgerung benötigen.
Mittel: Ein Gleichgewicht zwischen Leistung und Geschwindigkeit.
Hoch: Bietet die stärkste Schlussfolgerungsleistung für Aufgaben, die sie benötigen, führt jedoch zu höherer Latenz.
⚙️ Empfohlene Einstellungen
OpenAI empfiehlt für beide Modelle diese Inferenz-Einstellungen:
temperature=1.0, top_p=1.0, top_k=0
Temperatur von 1,0
Top_K = 0 (oder experimentieren Sie mit 100 für möglicherweise bessere Ergebnisse)
Top_P = 1,0
Empfohlener Mindestkontext: 16.384
Maximale Kontextfensterlänge: 131.072
Chat-Template:
Das Ende-des-Satzes-/Generierungstoken: EOS ist <|return|>
gpt-oss-20B ausführen
Um Inferenzgeschwindigkeiten von 6+ Tokens pro Sekunde für unsere dynamische 4-Bit-Quantisierung zu erreichen, sollten Sie mindestens 14 GB Unified Memory (kombinierter VRAM und RAM) oder 14 GB Systemspeicher allein haben. Als Faustregel sollte Ihr verfügbarer Speicher der Größe des Modells entsprechen oder sie übertreffen, das Sie verwenden. GGUF-Link: unsloth/gpt-oss-20b-GGUF
HINWEIS: Das Modell kann mit weniger Speicher als seiner Gesamtgröße ausgeführt werden, aber das verlangsamt die Inferenz. Der maximale Speicher wird nur für die höchsten Geschwindigkeiten benötigt.
Befolgen Sie die oben genannten Best Practices. Sie sind dieselben wie beim 120B-Modell.
Sie können das Modell derzeit auf Google Colab, Docker, LM Studio oder llama.cpp ausführen. Siehe unten:
Sie können gpt-oss-20b kostenlos mit unserem Google-Colab-Notebook
🦥 Unsloth Studio-Leitfaden
Für dieses Tutorial verwenden wir Unsloth Studio, unsere neue Web-UI zum Ausführen und Trainieren von LLMs. Mit Unsloth Studio können Sie Modelle lokal auf Mac, Windowsund Linux ausführen und:
Suchen, herunterladen, GGUFs ausführen und Safetensor-Modelle
Modelle vergleichen nebeneinander
Selbstheilendes Tool Calling + Websuche
Codeausführung (Python, Bash)
Automatische Inferenz Parameter-Tuning (Temp, Top-p usw.)
LLMs trainieren 2x schneller mit 70 % weniger VRAM

Unsloth Studio einrichten (einmalig)
Die Einrichtung installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und erstellt llama.cpp mit CUDA-Unterstützung.
Die erste Installation kann 5–10 Minuten dauern. Das ist normal, da llama.cpp Binärdateien kompilieren muss. Bbrechen Sie den Vorgang nicht ab.
Für WSL-Nutzer: Sie werden nach Ihrem sudo Passwort gefragt, um Build-Abhängigkeiten zu installieren (cmake, git, libcurl4-openssl-dev).
gpt-oss-20b suchen und herunterladen
Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu schützen, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und Grundeinstellungen auszuwählen. Sie können ihn jederzeit überspringen.
Gehen Sie dann zum Studio Chat Registerkarte und suchen Sie in der Suchleiste nach gpt-oss, und laden Sie das gewünschte Modell und die gewünschte Quantisierung herunter.

gpt-oss-20b ausführen
Die Inferenzparameter sollten in Unsloth Studio automatisch gesetzt werden, Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chatvorlage und andere Einstellungen bearbeiten.
Weitere Informationen finden Sie in unserem Unsloth Studio Inferenzleitfaden.

🐋 Docker: Tutorial zum Ausführen von gpt-oss-20b
Wenn Sie bereits Docker Desktop haben, müssen Sie nur den folgenden Befehl ausführen und sind fertig:
✨ Llama.cpp: Tutorial zum Ausführen von gpt-oss-20b
Holen Sie sich die neueste
llama.cppauf GitHub hier. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie-DGGML_CUDA=ONauf-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz wünschen. Für Apple-Mac-/Metal-Geräte, setzen Sie-DGGML_CUDA=OFFund fahren Sie dann wie gewohnt fort - Metal-Unterstützung ist standardmäßig aktiviert.
Sie können direkt von Hugging Face herunterladen über:
Laden Sie das Modell herunter über (nach der Installation von
pip install huggingface_hub hf_transfer). Falls Downloads hängen bleiben, siehe Hugging Face Hub, XET-Debugging
gpt-oss-120b ausführen:
Um Inferenzgeschwindigkeiten von 6+ Tokens pro Sekunde für unsere 1-Bit-Quantisierung zu erreichen, empfehlen wir mindestens 66 GB Unified Memory (kombinierter VRAM und RAM) oder 66 GB Systemspeicher allein haben. Als Faustregel sollte Ihr verfügbarer Speicher der Größe des Modells entsprechen oder sie übertreffen, das Sie verwenden. GGUF-Link: unsloth/gpt-oss-120b-GGUF
HINWEIS: Das Modell kann mit weniger Speicher als seiner Gesamtgröße ausgeführt werden, aber das verlangsamt die Inferenz. Der maximale Speicher wird nur für die höchsten Geschwindigkeiten benötigt.
Befolgen Sie die oben genannten Best Practices. Sie sind dieselben wie beim 20B-Modell.
🦥 Unsloth Studio-Leitfaden
Für dieses Tutorial verwenden wir Unsloth Studio, unsere neue Web-UI zum Ausführen und Trainieren von LLMs. Mit Unsloth Studio können Sie Modelle lokal auf Mac, Windowsund Linux ausführen und:
Suchen, herunterladen, GGUFs ausführen und Safetensor-Modelle
Modelle vergleichen nebeneinander
Selbstheilendes Tool Calling + Websuche
Codeausführung (Python, Bash)
Automatische Inferenz Parameter-Tuning (Temp, Top-p usw.)
LLMs trainieren 2x schneller mit 70 % weniger VRAM

Unsloth Studio einrichten (einmalig)
Die Einrichtung installiert automatisch Node.js (über nvm), baut das Frontend, installiert alle Python-Abhängigkeiten und erstellt llama.cpp mit CUDA-Unterstützung.
Die erste Installation kann 5–10 Minuten dauern. Das ist normal, da llama.cpp Binärdateien kompilieren muss. Bbrechen Sie den Vorgang nicht ab.
Für WSL-Nutzer: Sie werden nach Ihrem sudo Passwort gefragt, um Build-Abhängigkeiten zu installieren (cmake, git, libcurl4-openssl-dev).
gpt-oss-120b suchen und herunterladen
Beim ersten Start müssen Sie ein Passwort erstellen, um Ihr Konto zu schützen, und sich später erneut anmelden. Anschließend sehen Sie einen kurzen Einrichtungsassistenten, um ein Modell, einen Datensatz und Grundeinstellungen auszuwählen. Sie können ihn jederzeit überspringen.
Gehen Sie dann zum Studio Chat Registerkarte und suchen Sie in der Suchleiste nach gpt-oss, und laden Sie das gewünschte Modell und die gewünschte Quantisierung herunter.

gpt-oss-120b ausführen
Die Inferenzparameter sollten in Unsloth Studio automatisch gesetzt werden, Sie können sie jedoch weiterhin manuell ändern. Sie können auch die Kontextlänge, die Chatvorlage und andere Einstellungen bearbeiten.
Weitere Informationen finden Sie in unserem Unsloth Studio Inferenzleitfaden.

📖 Llama.cpp: Tutorial zum Ausführen von gpt-oss-120b
Für gpt-oss-120b werden wir speziell Llama.cpp für optimierte Inferenz verwenden.
Wenn Sie eine vollständig präzise, unquantisierte Versionwollen, verwenden Sie unsere F16 Versionen!
Holen Sie sich die neueste
llama.cppauf GitHub hier. Sie können auch den Build-Anweisungen unten folgen. Ändern Sie-DGGML_CUDA=ONauf-DGGML_CUDA=OFFwenn Sie keine GPU haben oder nur CPU-Inferenz wünschen.Sie können llama.cpp direkt verwenden, um das Modell herunterzuladen, aber ich empfehle normalerweise die Verwendung von
huggingface_hubUm llama.cpp direkt zu verwenden, tun Sie:Oder laden Sie das Modell über (nach der Installation von
pip install huggingface_hub hf_transfer). Sie können UD-Q2_K_XL oder andere quantisierte Versionen wählen..Führen Sie das Modell im Konversationsmodus aus und probieren Sie irgendeinen Prompt aus.
Bearbeiten Sie
--threads -1für die Anzahl der CPU-Threads,--ctx-size262114 für die Kontextlänge,--n-gpu-layers 99für GPU-Offloading, auf wie viele Schichten. Versuchen Sie, dies anzupassen, wenn Ihre GPU nicht mehr in den Speicher passt. Entfernen Sie es auch, wenn Sie nur auf der CPU inferieren.
Verwenden -ot ".ffn_.*_exps.=CPU" um alle MoE-Schichten auf die CPU auszulagern! Dadurch können Sie effektiv alle nicht-MoE-Schichten auf 1 GPU unterbringen und die Generierungsgeschwindigkeiten verbessern. Sie können den Regex-Ausdruck anpassen, um mehr Schichten auszulagern, wenn Sie mehr GPU-Kapazität haben. Weitere Optionen besprochen hier.
🛠️ Verbesserung der Generierungsgeschwindigkeit
Wenn Sie mehr VRAM haben, können Sie versuchen, mehr MoE-Schichten auszulagern oder ganze Schichten selbst auszulagern.
Normalerweise, -ot ".ffn_.*_exps.=CPU" lagert alle MoE-Schichten auf die CPU aus! Dadurch können Sie effektiv alle nicht-MoE-Schichten auf 1 GPU unterbringen und die Generierungsgeschwindigkeiten verbessern. Sie können den Regex-Ausdruck anpassen, um mehr Schichten auszulagern, wenn Sie mehr GPU-Kapazität haben.
Wenn Sie etwas mehr GPU-Speicher haben, versuchen Sie -ot ".ffn_(up|down)_exps.=CPU" Dadurch werden die MoE-Schichten für Up- und Down-Projektion ausgelagert.
Versuchen Sie -ot ".ffn_(up)_exps.=CPU" wenn Sie noch mehr GPU-Speicher haben. Dadurch werden nur die Up-Projektions-MoE-Schichten ausgelagert.
Sie können auch den Regex anpassen, zum Beispiel -ot "\.(6|7|8|9|[0-9][0-9]|[0-9][0-9][0-9])\.ffn_(gate|up|down)_exps.=CPU" bedeutet, Gate-, Up- und Down-MoE-Schichten auszulagern, aber nur ab der 6. Schicht.
Die neueste llama.cpp-Version führt außerdem einen High-Throughput-Modus ein. Verwenden Sie llama-parallel. Lesen Sie mehr darüber hier. Sie können auch den KV-Cache auf 4 Bits quantisieren zum Beispiel, um die VRAM-/RAM-Bewegung zu reduzieren, was den Generierungsprozess ebenfalls beschleunigen kann.
🦥 gpt-oss mit Unsloth feinabstimmen
28.-Aug.-Update: Sie können Ihr mit QLoRA feinabgestimmtes gpt-oss-Modell jetzt nach llama.cpp, vLLM, HF usw. exportieren/speichern.
Wir haben außerdem Unsloth Flex Attention eingeführt, das >8× längere Kontextlängen, >50 % weniger VRAM-Nutzung und >1,5× schnelleres Training gegenüber allen Implementierungen ermöglicht. Lesen Sie hier mehr
Das gpt-oss-Fine-Tuning mit Unsloth ist 1,5× schneller, benötigt 70 % weniger VRAM und unterstützt 10× längere Kontextlängen. Das gpt-oss-20b-QLoRA-Training passt auf 14 GB VRAM, und gpt-oss-120b funktioniert mit 65 GB VRAM.
QLoRA-Anforderungen: gpt-oss-20b = 14 GB VRAM • gpt-oss-120b = 65 GB VRAM.
BF16-LoRA-Anforderungen: gpt-oss-20b = 44 GB VRAM • gpt-oss-120b = 210 GB VRAM.
Lesen Sie unser Schritt-für-Schritt-Tutorial zur Feinabstimmung von gpt-oss:
Tutorial: Wie man gpt-oss feinabstimmtSie können Ihr mit QLoRA feinabgestimmtes gpt-oss-Modell jetzt nach llama.cpp, vLLM, HF usw. exportieren/speichern.
Kostenlose Unsloth-Notebooks zur Feinabstimmung von gpt-oss:
gpt-oss-20b Reasoning- + Konversations-Notebook
Reinforcement Learning (GRPO)
Unsloth unterstützt jetzt RL für gpt-oss! Wir haben zwei Notebooks erstellt; weitere Details finden Sie in unserem speziellen Blog zu gpt-oss-RL: gpt-oss RL
2048-Notebook (Offizielles OpenAI-Beispiel)
💾NEU: Speichern in GGUF, vLLM nach dem gpt-oss-Training
Sie können gpt-oss jetzt mit QLoRA feinabstimmen und das Modell direkt speichern, exportieren oder zusammenführen nach llama.cpp, vLLModer HF - nicht nur Unsloth. Wir werden hoffentlich bald ein kostenloses Notebook veröffentlichen.
Bisher war jedes mit QLoRA feinabgestimmte gpt-oss-Modell auf die Ausführung in Unsloth beschränkt. Wir haben diese Einschränkung entfernt, indem wir On-Demand-Dekquantisierung von MXFP4 Basis-Modellen (wie gpt-oss) während des LoRA-Merge-Prozesses eingeführt haben. Dadurch wird es möglich, Ihr feinabgestimmtes Modell im bf16-Format zu exportieren.
Nachdem Sie Ihr gpt-oss-Modell feinabgestimmt haben, können Sie es jetzt mit einem einzigen Befehl:
zusammenführen. Wenn Sie das Modell lieber zusammenführen und direkt zum Hugging-Face-Hub pushen möchten, können Sie dies stattdessen mit folgendem tun:
💡Effizientes gpt-oss-Fine-Tuning zum Laufen bringen
Wir haben festgestellt, dass MXFP4 zwar sehr effizient ist, aber kein natives Training mit gpt-oss unterstützt. Um diese Einschränkung zu umgehen, haben wir benutzerdefinierte Trainingsfunktionen speziell für MXFP4-Schichten implementiert, indem wir es über Bitsandbytes NF4-Quantisierung
nachahmen. Wir haben OpenAIs Triton-Kernels-Bibliothek direkt genutzt, um MXFP4-Inferenz zu ermöglichen. Für Finetuning/Training unterstützen die MXFP4-Kernels jedoch noch kein Training, da der Rückwärtsdurchlauf noch nicht implementiert ist. Wir arbeiten aktiv daran, dies in Triton zu implementieren! Es gibt ein Flag namens W_TRANSPOSE wie erwähnt hierwerden sollte implementiert werden. Die Ableitung kann durch die Transponierung der Gewichtsmatrizen berechnet werden, daher müssen wir die Transponierungsoperation implementieren.
Wenn Sie gpt-oss mit einer anderen Bibliothek als Unsloth trainieren möchten, müssen Sie die Gewichte vor dem Training nach bf16 hochstufen. Dieser Ansatz erhöht erheblich sowohl den VRAM-Verbrauch als auch die Trainingszeit um bis zu 300 % mehr Speicherverbrauch! ALLE anderen Trainingsmethoden erfordern mindestens 65 GB VRAM, um das 20b-Modell zu trainieren, während Unsloth nur 14 GB VRAM benötigt (-80 %).
Da beide Modelle eine MoE-Architektur verwenden, wählt das 20B-Modell 4 Experten aus 32, während das 120B-Modell pro Token 4 aus 128 auswählt. Während des Trainings und der Veröffentlichung werden Gewichte im MXFP4-Format als nn.Parameter Objekte gespeichert, nicht als nn.Linear Schichten, was die Quantisierung erschwert, insbesondere da MoE/MLP-Experten etwa 19B der 20B-Parameter ausmachen.
Um BitsandBytes Quantisierung und speichereffizientes Fine-Tuning zu ermöglichen, haben wir diese Parameter in nn.Linear Schichten umgewandelt. Obwohl dies Operationen leicht verlangsamt, ermöglicht es ein Fine-Tuning auf GPUs mit begrenztem Speicher, ein lohnender Kompromiss.
Leitfaden zur Feinabstimmung von Datensätzen
Obwohl gpt-oss nur Reasoning unterstützt, können Sie es trotzdem mit einem nicht-reasoning Datensatzfeinabstimmen, aber das kann seine Schlussfolgerungsfähigkeit beeinträchtigen. Wenn Sie seine Reasoning-Fähigkeiten beibehalten möchten (optional), können Sie eine Mischung aus direkten Antworten und Chain-of-Thought-Beispielen verwenden. Verwenden Sie mindestens 75 % Reasoning und 25 % Non-Reasoning in Ihrem Datensatz, damit das Modell seine Reasoning-Fähigkeiten beibehält.
Unser gpt-oss-20b-Konversationsnotebook verwendet OpenAIs Beispiel, das Hugging Face's Multilingual-Thinking-Datensatz ist. Der Zweck der Verwendung dieses Datensatzes besteht darin, dem Modell zu ermöglichen, Schlussfolgerungsfähigkeiten in diesen vier verschiedenen Sprachen zu erlernen und zu entwickeln.

Zuletzt aktualisiert
War das hilfreich?


