deepseek-r1

显示行号 | 选择喜欢的代码风格

deepseek-r1 是 DeepSeek 第一代推理模型，性能与 OpenAI-o1 相当，其中包括基于 Llama 和 Qwen 从 DeepSeek-R1 蒸馏提炼出的六个密集模型。

1.5b 7b 8b 14b 32b 70b 671b

DeepSeek

DeepSeek 的第一代推理模型，在数学、代码和推理任务中实现了与 OpenAI-o1 相当的性能。

{
    "stop": [
        "<｜begin▁of▁sentence｜>",
        "<｜end▁of▁sentence｜>",
        "<｜User｜>",
        "<｜Assistant｜>"
    ]
}

DeepSeek 团队已经证明，较大模型的推理模式可以提炼为较小的模型，与通过强化学习在小型模型上发现的推理模式相比，其性能更好。

以下是使用 DeepSeek-R1 生成的推理数据，针对研究界广泛使用的几种密集模型进行微调而创建的模型。评估结果表明，提炼后的较小密集模型在基准测试中表现优异。

Command A

模型权重在 MIT 许可下获得许可。DeepSeek-R1 系列支持商业使用，允许任何修改和衍生作品，包括但不限于用于训练其他 LLM 的蒸馏。请注意：

Qwen 蒸馏模型源自 Qwen-2.5 系列，最初在 Apache 2.0 许可下获得许可，现在使用 DeepSeek-R1 策划的 800k 个样本进行了微调。

Llama 8B 蒸馏模型源自 Llama3.1-8B-Base，最初在 llama3.1 许可下获得许可。

Llama 70B 蒸馏模型源自 Llama3.3-70B-Instruct，最初在 llama3.3 许可下获得许可。