DeepCoder-14B-Preview 是由 Agentica 团队与 Together AI 联合打造的代码推理模型,通过分布式强化学习对 Deepseek-R1-Distilled-Qwen-14B 进行了微调。它在 LiveCodeBench 上实现了令人印象深刻的 60.6% Pass@1 准确率(提升了 8%),仅用 140 亿个参数就达到了 o3-mini-2025-01-031(低)和 o1-2024-12-17 的性能水平。
Model | LCB (v5)(8/1/24-2/1/25) | Codeforces Rating | Codeforces Percentile | HumanEval+ |
---|---|---|---|---|
DeepCoder-14B-Preview | 60.6 | 1936 | 95.3 | 92.6 |
DeepSeek-R1-Distill-Qwen-14B | 53.0 | 1791 | 92.7 | 92.0 |
O1-2024-12-17 (Low) | 59.5 | 1991 | 96.1 | 90.8 |
O3-Mini-2025-1-31 (Low) | 60.9 | 1918 | 94.9 | 92.6 |
O1-Preview | 42.7 | 1658 | 88.5 | 89 |
Deepseek-R1 | 62.8 | 1948 | 95.4 | 92.6 |
Llama-4-Behemoth | 49.4 | - | - | - |
为了计算代码强化学习训练的奖励,我们必须在编码沙箱中对模型生成的代码运行单元测试。在每次强化学习迭代中,我们的训练批次会针对 1024 个问题进行评估,每个问题包含多个单元测试(≥ 5 个测试)。如此高负荷的工作负载需要扩展 100 多个编码沙箱以并行运行,确保 LLM 生成的代码在合理的时间内得到准确验证。目前,我们使用两个沙箱:Together 代码解释器和本地代码沙箱。