🐳DeepSeek-OCR:如何运行与微调

关于如何在本地运行和微调 DeepSeek-OCR 的指南。

DeepSeek-OCR 是一个用于光学字符识别和文档理解的3B参数视觉模型。它使用 上下文光学压缩 将二维布局转换为视觉标记,从而实现高效的长上下文处理。

DeepSeek-OCR 能处理表格、论文和手写内容,在精度上达到97%,同时使用的视觉标记比文本标记少10× —— 使其比基于文本的LLM高效10倍。

您可以对 DeepSeek-OCR 进行微调以提升其视觉或语言性能。在我们的 Unsloth 免费微调笔记本arrow-up-right中,我们展示了 88.26% 的提升 用于语言理解。

运行 DeepSeek-OCR微调 DeepSeek-OCR

我们的模型上传,支持微调 + 更多推理支持: DeepSeek-OCRarrow-up-right

🖥️ 运行 DeepSeek-OCR

要在以下环境中运行该模型 vLLMUnsloth,推荐的设置如下:

⚙️ 推荐设置

DeepSeek 推荐以下设置:

  • Temperature = 0.0

  • max_tokens = 8192

  • ngram_size = 30

  • window_size = 90

📖 vLLM:运行 DeepSeek-OCR 教程

  1. 通过以下方式获取最新的 vLLM 通过:

  1. 然后运行以下代码:

🦥 Unsloth:运行 DeepSeek-OCR 教程

  1. 通过以下方式获取最新的 unsloth 通过 pip install --upgrade unsloth . 如果您已经安装了 Unsloth,请通过以下方式更新它 pip install --upgrade --force-reinstall --no-deps --no-cache-dir unsloth unsloth_zoo

  2. 然后使用下面的代码运行 DeepSeek-OCR:

🦥 微调 DeepSeek-OCR

Unsloth 支持对 DeepSeek-OCR 的微调。由于默认模型在最新的 transformers 版本上无法运行,我们采纳了 Stranger Vision HFarrow-up-right 团队的更改,从而启用推理。如往常一样,Unsloth 训练 DeepSeek-OCR 的速度提高 1.4 倍,显存减少 40%,上下文长度增加 5 倍——且没有准确性下降。 我们创建了两个免费的 DeepSeek-OCR Colab 笔记本(带评估与不带评估):

在一个包含 20 万样本的波斯语数据集上微调 DeepSeek-OCR 后,在波斯语文本检测和理解方面取得了显著提升。我们在 200 个波斯语抄本样本上对基础模型和微调模型进行了评估,观察到 88.26% 的绝对提升 在字符错误率(CER)上。仅在 60 步训练(批量大小 = 8)之后,平均 CER 从 149.07% 降到平均为 60.81%。这意味着微调后的模型在理解波斯语方面 57% 更准确。

您可以用自己的数据集替换波斯语数据集,以改进 DeepSeek-OCR 在其他用例中的表现。 有关 replica-table 的评估结果,请使用上面的评估笔记本。有关详细的评估结果,请参见下文:

微调后的评估结果:

DeepSeek-OCR 基线

该评估集的基线模型平均表现:149.07% 的 CER!

DeepSeek-OCR 微调后

在 60 步中,我们将 CER 从 149.07% 降至 60.43%(CER 改善 89%)

我们使用的 20 万样本波斯语数据集中的一个示例(您也可以使用自己的数据),左侧显示图像,右侧显示对应文本。

最后更新于

这有帮助吗?