Mistral开源编程模型：大模型性能超Kimi、Qwen，小模型PC可运行

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

Mistral开源编程模型：大模型性能超Kimi、Qwen，小模型PC可运行

热心网友时间：2025-12-11

转载

智东西
编译王欣逸
编辑程茜

智东西12月10日消息，昨晚，法国大模型独角兽Mistral AI发布并开源编程系列模型Devstral 2，该系列分为两个不同规格的模型Devstral 2 132B和Devstral Small 2 24B。此外，Mistral还同时推出了原生CLI工具Mistral Vibe，能实现端到端的代码自动化。此次发布距Mistral 3系列模型才过去一周。

Devstral 2参数为123B，支持256K上下文窗口，可以探索代码库，并能在保持架构层面上下文理解的同时，进行跨文件协调更改；Devstral Small 2参数为24B，同样具备256K上下文窗口，支持快速推理和反馈，可以定制和本地部署，同时还支持图像输入，可应用于多模态Agents。

在SWE-bench Verified编程基准测试中，Devstral 2取得了72.2%的成绩，优于Qwen 3 coder plus、Kimi K2 Thinking等开源模型，仅次于DeepSeek V3.2；Devstral Small 2取得了68.8%的成绩，超过GPT-OOS-120B，和GLM 4.6持平；在针对实际编程任务进行的人工测试中，Devstral 2表现优于DeepSeek V3.2。基准测试结果如下：

此外，在部署上，Devstral 2至少需要四块H100级GPU，更轻量化的Devstral Small 2可以在消费级硬件上本地运行。

Mistral Vibe是一个由Devstral驱动的开源命令行编程助手，集成了文件操作、代码搜索、版本控制及命令执行等工具。

Mistral AI是一家法国创企，成立于2024年，由前DeepMind和Meta研究人员成立，专注于开源模型开发。今年9月，该公司宣布获得17亿欧元（约合人民币139.9亿元）C轮融资，估值达到117亿欧元（约合人民币962.6亿元），英伟达曾三次投资这家公司。

一、基准测试位列开源第二，和顶尖闭源还有性能差距

据Mistral正式，Devstral 2 123B支持探索代码库，能跨多个文件协调修改，还能保持上下文理解。它可以跟踪框架依赖、检测故障，并能通过修正后重试，从而解决如修复错误、改造遗留系统等复杂挑战。

该模型支持微调，可针对特定编程语言进行优化，适配大型企业代码库的需求。

不过，Devstral 2以修改版的MIT协议发布，这一协议对大企业进行了限制：月收入超过2000万美元（约合人民币1.41亿元）的公司，在未获得Mistral单独商业许可的情况下，无法使用该模型。

更轻量化的模型Devstral Small 2 24B支持快速推理、迭代反馈和定制，可本地部署，同时还支持图像输入，可应用于多模态Agents。

从基准测试来看，Devstral 2模型位列开源模型的第二名，并正赶超顶尖闭源模型。

Devstral 2在SWE-bench Verified编程基准测试中取得了72.2%的得分，Devstral Small 2取得了68%的得分，在开源模型中已经达到了领先水平，Devstral 2的得分仅次于DeepSeek V3.2。

Devstral 2系列模型的亮点在于小参数设计，其模型在关键基准测试中展现出和顶尖开源模型齐平的性能，却仅需后者几分之一的参数量。

得分只比Devstral 2高0.9%的DeepSeek V3.2，其参数大小是Devstral 2的5倍，是Devstral Small 2的28倍，而表现次于Devstral 2的Kimi K2 Thinking，其参数大小是Devstral 2的8倍，是Devstral Small 2的41倍。

不过，Devstral 2系列模型与顶尖闭源模型之间还存在差距。

人工评测结果显示，在Cline构建的任务场景中，Devstral 2相对DeepSeek V3.2优势明显，胜率为42.8%，败率为28.6%。然而，Devstral 2相对顶尖闭源模型Claude Sonnet 4.5败下阵来，胜率仅为21.4%，败率为53.1%。

二、端到端代码自动化，能进行架构级推理

Mistral Vibe是基于Devstral模型构建的开源命令行编程助手，能通过自然语言交互，接入IDE，实现对代码库的探索、修改与变更执行。

Mistral Vibe提供了一个交互式对话界面，集成了文件操作、代码搜索、版本控制及命令执行等工具。

它能自动扫描用户文件结构及Git状态，提供相关上下文信息，能理解整个代码库的架构，并进行架构级推理，此外，它还拥有智能引用、持久化历史、自动补全和可自定义主题等功能。

开发者可以通过脚本编程方式运行Mistral Vibe，启用工具执行的自动批准功能，通过简洁的config.toml配置文件管理本地模型与供应商设置，灵活控制工具权限。

结语：平衡高性能与小参数，为企业提供了低门槛解决方案

从Mistral 3到Devstral 2系列、Mistral Vibe，Mistral AI正以相当快的进击速度参与AI竞争，并在模型的高性能与轻量化间实现了平衡，从测试结果看，Devstral Small 2模型在参数仅为24B的情况下，依然优于不少开源模型，和GLM 4.6打平。

Mistral AI在公告中提到，Devstral 2系列模型专为生产级工作流打造，并被定位为下一代SOTA编程模型。尽管和顶尖闭源编程模型还有很大差距，不过，对大多数企业而言，Devstral 2和Devstral Small 2可以作为一个低门槛的初步解决方案，尤其是在和Mistral Vibe的搭配使用上，Devstral 2系列模型或将在特定的生产环节发挥作用。

来源：Mistral AI

来源:https://www.163.com/dy/article/KGEGESSK051180F7.html

上一篇：余凯智驾突围：地平线如何定义物理世界新摩尔定律

下一篇： Starcloud初創完成太空軌道模型訓練，創新行業首次