🐳DeepSeek-OCR:実行&ファインチューニング

DeepSeek-OCR をローカルで実行およびファインチューニングするためのガイド。

DeepSeek-OCR はOCRと文書理解のための30億パラメータのビジョンモデルです。これは コンテキスト光学圧縮 を使用して2Dレイアウトをビジョントークンに変換し、効率的な長文コンテキスト処理を可能にします。

表、論文、手書きに対応可能なDeepSeek-OCRは、テキストトークンより10倍少ないビジョントークンを使用しながら97%の精度を達成し、テキストベースのLLMより10倍効率的です。

DeepSeek-OCRは視覚や言語の性能を向上させるためにファインチューニングできます。我々のUnslothでは 無料のファインチューニングノートブックarrow-up-right、我々は 88.26%の改善 を言語理解で実証しました。

DeepSeek-OCRの実行DeepSeek-OCRのファインチューニング

ファインチューニングとより多くの推論サポートを可能にするモデルアップロード: DeepSeek-OCRarrow-up-right

🖥️ DeepSeek-OCRの実行

モデルを vLLM または Unslothで実行するには、推奨設定は次の通りです:

⚙️ 推奨設定

DeepSeekが推奨する設定:

  • Temperature = 0.0

  • max_tokens = 8192

  • ngram_size = 30

  • window_size = 90

📖 vLLM: DeepSeek-OCRチュートリアルの実行

  1. 最新の vLLM 経由:

  1. その後、次のコードを実行します:

🦥 Unsloth: DeepSeek-OCRチュートリアルの実行

  1. 最新の unsloth 経由 pip install --upgrade unsloth 。既にUnslothをお持ちの場合は、以下で更新してください pip install --upgrade --force-reinstall --no-deps --no-cache-dir unsloth unsloth_zoo

  2. 次に以下のコードを使用してDeepSeek-OCRを実行します:

🦥 DeepSeek-OCRのファインチューニング

UnslothはDeepSeek-OCRのファインチューニングをサポートします。デフォルトモデルは最新の transformers バージョンでは実行できないため、推論を可能にするために Stranger Vision HFarrow-up-right チームからの変更を追加しました。いつものように、UnslothはDeepSeek-OCRを40%少ないVRAMで1.4倍速く、かつコンテキスト長を5倍に拡張して訓練しますが、精度の劣化はありません。 我々はDeepSeek-OCRの無料Colabノートブックを2つ作成しました(評価あり/なし):

200Kサンプルのペルシア語データセットでDeepSeek-OCRをファインチューニングしたところ、ペルシア語テキストの検出と理解に大幅な改善が見られました。我々はベースモデルとファインチューニング済みバージョンを200のペルシア語書き起こしサンプルで評価し、 88.26%の絶対改善 を観測しました。わずか60ステップの訓練(バッチサイズ = 8)後、平均CERは 149.07% から平均 60.81%になりました。これは、ファインチューニングされたモデルが 57% ペルシア語の理解においてより正確であることを意味します。

ペルシア語データセットを他のデータに置き換えて、DeepSeek-OCRを他のユースケース向けに改善することができます。 replica-tableの評価結果については上記の評価ノートブックを使用してください。詳細な評価結果は以下をご覧ください:

ファインチューニング済み評価結果:

DeepSeek-OCR ベースライン

この評価セットにおける平均ベースラインモデル性能:149.07% CER!

DeepSeek-OCR ファインチューニング済み

60ステップでCERを149.07%から60.43%に低減しました(CER改善率89%)

我々が使用した200Kのペルシア語データセットの例(任意のデータを使用できます)。左に画像、右に対応するテキストを示しています。

最終更新

役に立ちましたか?