📈数据集指南
了解如何为微调创建和准备数据集。
什么是数据集?
数据格式
格式
说明
训练类型
入门
1
2
3
格式化数据
用于大型语言模型训练的常见数据格式
在 Unsloth 中应用聊天模板
格式化数据 问答
你也可以使用任何本地大型模型,例如 Llama 3.3(70B)或 OpenAI 的 GPT-4.5 来生成合成数据。通常,使用更大的模型(如 Llama 3.3(70B))能确保输出质量更高。你可以直接使用像 vLLM、Ollama 或 llama.cpp 这样的推理引擎来生成合成数据,但这将需要一些手工工作来收集并提示生成更多数据。合成数据有三个目标:
我们与 Meta 合作推出了一个免费笔记本,用于使用 Llama 3.2 等本地模型自动创建合成数据集。
你的目标是提示模型生成并处理符合你指定格式的问答数据。模型需要学习你提供的结构和上下文,因此至少确保你已有 10 个示例数据。示例提示:
我的数据集应有多大?
我们通常建议微调至少使用至少 100 行数据以获得合理的结果。为了达到最佳性能,最好有超过 1,000 行的数据集,并且在这种情况下,更多数据通常带来更好效果。如果你的数据集太小,也可以添加合成数据或从 Hugging Face 添加数据集以增加多样性。然而,微调模型的有效性在很大程度上取决于数据集的质量,因此请务必彻底清理和准备你的数据。
如果你想微调一个已经具有推理能力的模型,例如 DeepSeek-R1 的蒸馏版本(例如 DeepSeek-R1-Distill-Llama-8B),你仍然需要遵循问题/任务与答案对的格式;不过你的答案需要包含推理/链式思维(chain-of-thought)过程以及得出答案的步骤。
对于没有推理能力且你想训练其后来具备推理能力的模型,你需要使用标准数据集,但答案中这次不包含推理过程。这一训练过程称为
如果你有多个用于微调的数据集,你可以:
你可以对已经微调过的模型进行多次微调,但最好将所有数据集合并并在一次流程中完成微调。对已微调模型再次训练可能会改变先前微调过程中获得的质量和知识。
Alpaca 数据集
在 Google Colab 中查看在 Unsloth 中使用 Alpaca 数据集的示例:



但一个大问题是对于 ChatGPT 风格的助手,我们只允许 1 条指令 / 1 个提示,而不是多列 / 多输入。例如在 ChatGPT 中,我们必须提交 1 个提示,而不是多个提示。





年龄(Age)
票价(Fare)
S
多轮对话



用于微调视觉或多模态模型的数据集还包括图像输入。例如,
说明文字(Caption)
全景放射影像显示右上颌后部的溶骨性病变,并伴有上颌窦底的吸收(箭头所示)。
最后更新于
这有帮助吗?


