🐳DeepSeek-OCR 2:実行&ファインチューニングガイド

DeepSeek-OCR-2 をローカルで実行およびファインチューニングする方法のガイド。

DeepSeek-OCR 2 は、2026年1月27日にDeepSeekが公開した最先端のビジョンとドキュメント理解のための新しい3Bパラメータモデルです。本モデルは単なるテキスト抽出ではなく、より強力な視覚的推論を伴う画像→テキストに注力しています。

DeepSeek-OCR 2はDeepEncoder V2を導入しており、これによりモデルは人間と同じ論理的な順序で画像を「見る」ことが可能になります。

従来の視覚LLMが固定グリッド(左上→右下)で画像を走査するのとは異なり、DeepEncoder V2はまずグローバルな理解を構築し、その後で人間のような読み順(何にまず注意を払い、次に何を見るべきか、など)を学習します。これにより、カラムの追従、ラベルと値の紐付け、表の一貫した読み取り、テキストと構造が混在するケースの処理など、複雑なレイアウトでのOCR性能が向上します。

Unsloth上でDeepSeek-OCR 2をファインチューニングできるようになりました。以下の 無料ファインチューニングノートブックarrow-up-right. 我々は 88.6%の改善 を言語理解で実証しました。

DeepSeek-OCR 2の実行DeepSeek-OCR 2のファインチューニング

🖥️ DeepSeek-OCR 2の実行

モデルを実行するために、最初のモデルと同様にDeepSeek-OCR 2は最新のtransformersで推論と学習を可能にするよう編集されています(精度の変更はありません)。以下で確認できます: こちらarrow-up-right.

モデルを transformers または Unslothで実行するには、推奨設定は次の通りです:

⚙️ 推奨設定

DeepSeekが推奨する設定:

  • Temperature = 0.0

  • max_tokens = 8192

  • ngram_size = 30

  • window_size = 90

サポートモード - 動的解像度:

  • デフォルト: (0-6)×768×768 + 1×1024×1024 — (0-6)×144 + 256 ビジュアルトークン

プロンプト例:

Visual Causal Flowを用いて任意のドキュメントをマークダウンに変換します。

🦥 Unsloth: DeepSeek-OCR 2 実行チュートリアル

  1. 最新の unsloth 経由 pip install --upgrade unsloth 。既にUnslothをお持ちの場合は、以下で更新してください pip install --upgrade --force-reinstall --no-deps --no-cache-dir unsloth unsloth_zoo

  2. 次に、以下のコードを使用してDeepSeek-OCR 2を実行します:

🤗 Transformers: DeepSeek-OCR 2 実行チュートリアル

NVIDIA GPU上でHuggingface transformersを使用した推論。要件はpython 3.12.9 + CUDA11.8でテストされています:

🦥 DeepSeek-OCR 2のファインチューニング

Unslothは現在DeepSeek-OCR 2のファインチューニングをサポートしています。最初のモデルと同様に、動作させるためには我々の カスタムアップロードarrow-up-right を使用する必要があります(その上で動作します) transformers (精度の変更はありません)。最初のモデルと同様に、UnslothはDeepSeek-OCR-2を40%少ないVRAMで1.4倍高速に学習させ、精度低下なしで5倍長いコンテキスト長を実現します。 無料のColabノートブックを通じてDeepSeek-OCR 2をファインチューニングできるようになりました。

以下はペルシア語におけるCER(文字誤り率)の改善です:

サンプル毎のCER(10サンプル)

idx
OCR1 前
OCR1 後
OCR2 前
OCR2 後

1520

1.0000

0.8000

10.4000

1.0000

1521

0.0000

0.0000

2.6809

0.0213

1522

2.0833

0.5833

4.4167

1.0000

1523

0.2258

0.0645

0.8710

0.0968

1524

0.0882

0.1176

2.7647

0.0882

1525

0.1111

0.1111

0.9444

0.2222

1526

2.8571

0.8571

4.2857

0.7143

1527

3.5000

1.5000

13.2500

1.0000

1528

2.7500

1.5000

1.0000

1.0000

1529

2.2500

0.8750

1.2500

0.8750

平均CER(10サンプル)

  • OCR1:1.4866、後 0.6409 (-57%)

  • OCR2:4.1863、後 0.6018 (-86%)

📊 ベンチマーク

DeepSeek-OCR 2モデルのベンチマークは公式の研究論文に基づいています。

表1: OmniDocBench v1.5におけるドキュメント読取の包括的評価。V-token𝑚𝑎𝑥はこのベンチマークでページごとに使用される最大ビジュアルトークン数を表します。R-orderは読み順を示します。DeepSeek OCRおよびDeepSeek OCR 2を除き、この表の他のモデル結果はすべてOmniDocBenchリポジトリからのものです。

表2: OmniDocBench v1.5におけるドキュメント要素のカテゴリ別編集距離。 V-token𝑚𝑎𝑥は最小の最大ビジュアルトークン数を示します。

OmniDocBenchでGemini-3 Proを上回る性能

最終更新

役に立ちましたか?