Devstral AI Models
Devstral 是一个用于软件工程任务的代理 LLM 模型,由 Mistral AI 和 All Hands AI 合作开发。Devstral 擅长使用工具探索代码库、编辑多个文件以及为软件工程代理提供支持。该模型在 SWE-bench 上取得了卓越的性能,使其成为排名第一的开源模型。
Devstral 基于 Mistral Small 3.1 进行了微调,因此拥有高达 128k 个 token 的长上下文窗口。作为一个编码代理,Devstral 仅支持文本,并且在基于 Mistral-Small-3.1 进行微调之前,其视觉编码器已被移除。
devstral 主要特点包括:
Devstral 在 SWE-Bench Verified 上取得了 46.8% 的得分,比之前的开源最先进技术高出 6%。
Model | Scaffold | SWE-Bench Verified (%) |
---|---|---|
Devstral | OpenHands Scaffold | 46.8 |
GPT-4.1-mini | OpenAI Scaffold | 23.6 |
Claude 3.5 Haiku | Anthropic Scaffold | 40.6 |
SWE-smith-LM 32B | SWE-agent Scaffold | 40.2 |
在相同的测试框架(OpenHands,由 All Hands AI 提供)下进行评估时,Devstral 的表现远超 Deepseek-V3-0324 和 Qwen3 232B-A22B 等规模更大的模型。
Devstral 的性能显著优于许多闭源替代方案。例如,Devstral 的表现比最近的 GPT-4.1-mini 高出 20% 以上。