DeepSeek-R1
我们介绍了我们的第一代推理模型 DeepSeek-R1-Zero 和 DeepSeek-R1。 DeepSeek-R1-Zero 是一种通过大规模强化学习 (RL) 训练的模型,无需监督微调 (SFT) 作为初步步骤,在推理方面表现出了卓越的性能。 有了 RL,DeepSeek-R1-Zero 自然而然地出现了许多强大而有趣的推理行为。 然而,DeepSeek-R1-Zero 遇到了无休止的重复、可读性差和语言混合等挑战。为了解决这些问题并进一步提高推理性能, 我们介绍了 DeepSeek-R1,它在 RL 之前合并了冷启动数据。 DeepSeek-R1 在数学、代码和推理任务中实现了与 OpenAI-o1 相当的性能。 为了支持研究社区,我们开源了 DeepSeek-R1-Zero、DeepSeek-R1 以及从 DeepSeek-R1 中提炼的六个基于 Llama 和 Qwen 的密集模型。DeepSeek-R1-Distill-Qwen-32B 在各种基准测试中优于 OpenAI-o1-mini,为密集模型取得了新的最先进的结果。
注意:在本地运行 DeepSeek-R1 系列型号之前,我们建议您查看“使用建议”部分。

2. 模型总结
训练后:基于基础模型的大规模强化学习
- 我们直接将强化学习(RL)应用于基础模型,而不依赖监督微调(SFT)作为初步步骤。这种方法允许模型探索解决复杂问题的思维链(CoT),从而开发出 DeepSeek-R1-Zero。DeepSeek-R1-Zero 展示了自我验证、反射和生成长 CoT 等功能,这标志着研究界的一个重要里程碑。值得注意的是,这是第一个验证 LLM 的推理能力可以纯粹通过 RL 来激励,而无需 SFT 的开放研究。这一突破为该领域的未来进步铺平了道路。
- 我们介绍了开发 DeepSeek-R1 的管道。该管道包含两个 RL 阶段,旨在发现改进的推理模式并符合人类偏好,以及两个 SFT 阶段,作为模型推理和非推理能力的种子。 我们相信,该管道将通过创造更好的模型使行业受益。
蒸馏:较小的型号也可以很强大
- 我们证明,与通过 RL 在小型模型上发现的推理模式相比,大型模型的推理模式可以提炼成更小的模型,从而获得更好的性能。开源 DeepSeek-R1 及其 API 将使研究界受益,以在未来提炼出更好的小型模型。
- 利用 DeepSeek-R1 生成的推理数据,我们微调了几个在研究界广泛使用的密集模型。评估结果表明,蒸馏后的较小密度模型在基准测试中表现异常出色。我们将基于 Qwen2.5 和 Llama3 系列的精炼 1.5B、7B、8B、14B、32B 和 70B 检查点开源到社区。
上一篇
GPT_API_free
下一篇
RAG_Techniques
延伸阅读:
awesome-chatgpt-prompts
f/awesome-chatgpt-prompts: This repo includes ChatGPT prompt...