# Unsloth推論

Unsloth はネイティブで推論を2x高速化します。推論専用ノートブックについては、をクリックしてください [ここ](https://colab.research.google.com/drive/1aqlNQi7MMJbynFDyOQteD2t0yVfjb9Zh?usp=sharing).

すべての QLoRA、LoRA、および非 LoRA の推論経路が2x高速になります。これはコードの変更や新しい依存関係を必要としません。

<pre class="language-python"><code class="lang-python"><strong>from unsloth import FastLanguageModel
</strong>model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "lora_model", # トレーニングに使用したあなたのモデル
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)
FastLanguageModel.for_inference(model) # ネイティブな2x高速推論を有効化
text_streamer = TextStreamer(tokenizer)
_ = model.generate(**inputs, streamer = text_streamer, max_new_tokens = 64)
</code></pre>

#### NotImplementedError: UTF-8 ロケールが必要です。ANSI が検出されました

セルを実行するときに [このエラーが](https://github.com/googlecolab/colabtools/issues/3409) 発生することがあります。これを解決するには、新しいセルで次を実行してください：

```python
import locale
locale.getpreferredencoding = lambda: "UTF-8"
```


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://unsloth.ai/docs/jp/ji-ben/inference-and-deployment/unsloth-inference.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
