deepcoder

| 选择喜欢的代码风格  

deepcoder 参数量


1.5b 141b
 

deepcoder 模型介绍


DeepCoder-14B-Preview 是由 Agentica 团队与 Together AI 联合打造的代码推理模型,通过分布式强化学习对 Deepseek-R1-Distilled-Qwen-14B 进行了微调。它在 LiveCodeBench 上实现了令人印象深刻的 60.6% Pass@1 准确率(提升了 8%),仅用 140 亿个参数就达到了 o3-mini-2025-01-031(低)和 o1-2024-12-17 的性能水平。

 

deepcoder 模型评估:


Model LCB (v5)(8/1/24-2/1/25) Codeforces Rating Codeforces Percentile HumanEval+
DeepCoder-14B-Preview 60.6 1936 95.3 92.6
DeepSeek-R1-Distill-Qwen-14B 53.0 1791 92.7 92.0
O1-2024-12-17 (Low) 59.5 1991 96.1 90.8
O3-Mini-2025-1-31 (Low) 60.9 1918 94.9 92.6
O1-Preview 42.7 1658 88.5 89
Deepseek-R1 62.8 1948 95.4 92.6
Llama-4-Behemoth 49.4 - - -
 

deepcoder 代码沙盒环境


为了计算代码强化学习训练的奖励,我们必须在编码沙箱中对模型生成的代码运行单元测试。在每次强化学习迭代中,我们的训练批次会针对 1024 个问题进行评估,每个问题包含多个单元测试(≥ 5 个测试)。如此高负荷的工作负载需要扩展 100 多个编码沙箱以并行运行,确保 LLM 生成的代码在合理的时间内得到准确验证。目前,我们使用两个沙箱:Together 代码解释器和本地代码沙箱。

 

AI 扩展阅读:




发表评论