🐳DeepSeek-OCR:実行&ファインチューニング
DeepSeek-OCR をローカルで実行およびファインチューニングするためのガイド。
DeepSeek-OCR はOCRと文書理解のための30億パラメータのビジョンモデルです。これは コンテキスト光学圧縮 を使用して2Dレイアウトをビジョントークンに変換し、効率的な長文コンテキスト処理を可能にします。
表、論文、手書きに対応可能なDeepSeek-OCRは、テキストトークンより10倍少ないビジョントークンを使用しながら97%の精度を達成し、テキストベースのLLMより10倍効率的です。
DeepSeek-OCRは視覚や言語の性能を向上させるためにファインチューニングできます。我々のUnslothでは 無料のファインチューニングノートブック、我々は 88.26%の改善 を言語理解で実証しました。
DeepSeek-OCRの実行DeepSeek-OCRのファインチューニング
ファインチューニングとより多くの推論サポートを可能にするモデルアップロード: DeepSeek-OCR
🖥️ DeepSeek-OCRの実行
モデルを vLLM または Unslothで実行するには、推奨設定は次の通りです:
⚙️ 推奨設定
DeepSeekが推奨する設定:
Temperature = 0.0
max_tokens = 8192ngram_size = 30window_size = 90
📖 vLLM: DeepSeek-OCRチュートリアルの実行
最新の
vLLM経由:
その後、次のコードを実行します:
🦥 Unsloth: DeepSeek-OCRチュートリアルの実行
最新の
unsloth経由pip install --upgrade unsloth。既にUnslothをお持ちの場合は、以下で更新してくださいpip install --upgrade --force-reinstall --no-deps --no-cache-dir unsloth unsloth_zoo次に以下のコードを使用してDeepSeek-OCRを実行します:
🦥 DeepSeek-OCRのファインチューニング
UnslothはDeepSeek-OCRのファインチューニングをサポートします。デフォルトモデルは最新の transformers バージョンでは実行できないため、推論を可能にするために Stranger Vision HF チームからの変更を追加しました。いつものように、UnslothはDeepSeek-OCRを40%少ないVRAMで1.4倍速く、かつコンテキスト長を5倍に拡張して訓練しますが、精度の劣化はありません。
我々はDeepSeek-OCRの無料Colabノートブックを2つ作成しました(評価あり/なし):
DeepSeek-OCR: ファインチューニング専用ノートブック
DeepSeek-OCR: ファインチューニング + 評価ノートブック (A100)
200Kサンプルのペルシア語データセットでDeepSeek-OCRをファインチューニングしたところ、ペルシア語テキストの検出と理解に大幅な改善が見られました。我々はベースモデルとファインチューニング済みバージョンを200のペルシア語書き起こしサンプルで評価し、 88.26%の絶対改善 を観測しました。わずか60ステップの訓練(バッチサイズ = 8)後、平均CERは 149.07% から平均 60.81%になりました。これは、ファインチューニングされたモデルが 57% ペルシア語の理解においてより正確であることを意味します。
ペルシア語データセットを他のデータに置き換えて、DeepSeek-OCRを他のユースケース向けに改善することができます。 replica-tableの評価結果については上記の評価ノートブックを使用してください。詳細な評価結果は以下をご覧ください:
ファインチューニング済み評価結果:
DeepSeek-OCR ベースライン
この評価セットにおける平均ベースラインモデル性能:149.07% CER!
DeepSeek-OCR ファインチューニング済み
60ステップでCERを149.07%から60.43%に低減しました(CER改善率89%)
我々が使用した200Kのペルシア語データセットの例(任意のデータを使用できます)。左に画像、右に対応するテキストを示しています。

最終更新
役に立ちましたか?

