🐳DeepSeek-OCR:如何运行与微调
关于如何在本地运行和微调 DeepSeek-OCR 的指南。
DeepSeek-OCR 是一个用于光学字符识别和文档理解的3B参数视觉模型。它使用 上下文光学压缩 将二维布局转换为视觉标记,从而实现高效的长上下文处理。
DeepSeek-OCR 能处理表格、论文和手写内容,在精度上达到97%,同时使用的视觉标记比文本标记少10× —— 使其比基于文本的LLM高效10倍。
您可以对 DeepSeek-OCR 进行微调以提升其视觉或语言性能。在我们的 Unsloth 免费微调笔记本中,我们展示了 88.26% 的提升 用于语言理解。
运行 DeepSeek-OCR微调 DeepSeek-OCR
我们的模型上传,支持微调 + 更多推理支持: DeepSeek-OCR
🖥️ 运行 DeepSeek-OCR
要在以下环境中运行该模型 vLLM 或 Unsloth,推荐的设置如下:
⚙️ 推荐设置
DeepSeek 推荐以下设置:
Temperature = 0.0
max_tokens = 8192ngram_size = 30window_size = 90
📖 vLLM:运行 DeepSeek-OCR 教程
通过以下方式获取最新的
vLLM通过:
然后运行以下代码:
🦥 Unsloth:运行 DeepSeek-OCR 教程
通过以下方式获取最新的
unsloth通过pip install --upgrade unsloth. 如果您已经安装了 Unsloth,请通过以下方式更新它pip install --upgrade --force-reinstall --no-deps --no-cache-dir unsloth unsloth_zoo然后使用下面的代码运行 DeepSeek-OCR:
🦥 微调 DeepSeek-OCR
Unsloth 支持对 DeepSeek-OCR 的微调。由于默认模型在最新的 transformers 版本上无法运行,我们采纳了 Stranger Vision HF 团队的更改,从而启用推理。如往常一样,Unsloth 训练 DeepSeek-OCR 的速度提高 1.4 倍,显存减少 40%,上下文长度增加 5 倍——且没有准确性下降。
我们创建了两个免费的 DeepSeek-OCR Colab 笔记本(带评估与不带评估):
DeepSeek-OCR: 仅微调笔记本
DeepSeek-OCR: 微调 + 评估 笔记本 (A100)
在一个包含 20 万样本的波斯语数据集上微调 DeepSeek-OCR 后,在波斯语文本检测和理解方面取得了显著提升。我们在 200 个波斯语抄本样本上对基础模型和微调模型进行了评估,观察到 88.26% 的绝对提升 在字符错误率(CER)上。仅在 60 步训练(批量大小 = 8)之后,平均 CER 从 149.07% 降到平均为 60.81%。这意味着微调后的模型在理解波斯语方面 57% 更准确。
您可以用自己的数据集替换波斯语数据集,以改进 DeepSeek-OCR 在其他用例中的表现。 有关 replica-table 的评估结果,请使用上面的评估笔记本。有关详细的评估结果,请参见下文:
微调后的评估结果:
DeepSeek-OCR 基线
该评估集的基线模型平均表现:149.07% 的 CER!
DeepSeek-OCR 微调后
在 60 步中,我们将 CER 从 149.07% 降至 60.43%(CER 改善 89%)
我们使用的 20 万样本波斯语数据集中的一个示例(您也可以使用自己的数据),左侧显示图像,右侧显示对应文本。

最后更新于
这有帮助吗?

