当前位置: 首页
AI资讯
Mistral开源编程模型:大模型性能超Kimi、Qwen,小模型PC可运行

Mistral开源编程模型:大模型性能超Kimi、Qwen,小模型PC可运行

热心网友 时间:2025-12-11
转载


智东西
编译 王欣逸
编辑 程茜

智东西12月10日消息,昨晚,法国大模型独角兽Mistral AI发布并开源编程系列模型Devstral 2,该系列分为两个不同规格的模型Devstral 2 132B和Devstral Small 2 24B。此外,Mistral还同时推出了原生CLI工具Mistral Vibe,能实现端到端的代码自动化。此次发布距Mistral 3系列模型才过去一周。


Devstral 2参数为123B,支持256K上下文窗口,可以探索代码库,并能在保持架构层面上下文理解的同时,进行跨文件协调更改;Devstral Small 2参数为24B,同样具备256K上下文窗口,支持快速推理和反馈,可以定制和本地部署,同时还支持图像输入,可应用于多模态Agents。

在SWE-bench Verified编程基准测试中,Devstral 2取得了72.2%的成绩,优于Qwen 3 coder plus、Kimi K2 Thinking等开源模型,仅次于DeepSeek V3.2;Devstral Small 2取得了68.8%的成绩,超过GPT-OOS-120B,和GLM 4.6持平;在针对实际编程任务进行的人工测试中,Devstral 2表现优于DeepSeek V3.2。基准测试结果如下:


此外,在部署上,Devstral 2至少需要四块H100级GPU,更轻量化的Devstral Small 2可以在消费级硬件上本地运行。

Mistral Vibe是一个由Devstral驱动的开源命令行编程助手,集成了文件操作、代码搜索、版本控制及命令执行等工具。

Mistral AI是一家法国创企,成立于2024年,由前DeepMind和Meta研究人员成立,专注于开源模型开发。今年9月,该公司宣布获得17亿欧元(约合人民币139.9亿元)C轮融资,估值达到117亿欧元(约合人民币962.6亿元),英伟达曾三次投资这家公司。

一、基准测试位列开源第二,和顶尖闭源还有性能差距

据Mistral正式,Devstral 2 123B支持探索代码库,能跨多个文件协调修改,还能保持上下文理解。它可以跟踪框架依赖、检测故障,并能通过修正后重试,从而解决如修复错误、改造遗留系统等复杂挑战。

该模型支持微调,可针对特定编程语言进行优化,适配大型企业代码库的需求。

不过,Devstral 2以修改版的MIT协议发布,这一协议对大企业进行了限制:月收入超过2000万美元(约合人民币1.41亿元)的公司,在未获得Mistral单独商业许可的情况下,无法使用该模型。

更轻量化的模型Devstral Small 2 24B支持快速推理、迭代反馈和定制,可本地部署,同时还支持图像输入,可应用于多模态Agents。

从基准测试来看,Devstral 2模型位列开源模型的第二名,并正赶超顶尖闭源模型。

Devstral 2在SWE-bench Verified编程基准测试中取得了72.2%的得分,Devstral Small 2取得了68%的得分,在开源模型中已经达到了领先水平,Devstral 2的得分仅次于DeepSeek V3.2。


Devstral 2系列模型的亮点在于小参数设计,其模型在关键基准测试中展现出和顶尖开源模型齐平的性能,却仅需后者几分之一的参数量。

得分只比Devstral 2高0.9%的DeepSeek V3.2,其参数大小是Devstral 2的5倍,是Devstral Small 2的28倍,而表现次于Devstral 2的Kimi K2 Thinking,其参数大小是Devstral 2的8倍,是Devstral Small 2的41倍。


不过,Devstral 2系列模型与顶尖闭源模型之间还存在差距。

人工评测结果显示,在Cline构建的任务场景中,Devstral 2相对DeepSeek V3.2优势明显,胜率为42.8%,败率为28.6%。然而,Devstral 2相对顶尖闭源模型Claude Sonnet 4.5败下阵来,胜率仅为21.4%,败率为53.1%。


二、端到端代码自动化,能进行架构级推理

Mistral Vibe是基于Devstral模型构建的开源命令行编程助手,能通过自然语言交互,接入IDE,实现对代码库的探索、修改与变更执行。


Mistral Vibe提供了一个交互式对话界面,集成了文件操作、代码搜索、版本控制及命令执行等工具。

它能自动扫描用户文件结构及Git状态,提供相关上下文信息,能理解整个代码库的架构,并进行架构级推理,此外,它还拥有智能引用、持久化历史、自动补全和可自定义主题等功能。

开发者可以通过脚本编程方式运行Mistral Vibe,启用工具执行的自动批准功能,通过简洁的config.toml配置文件管理本地模型与供应商设置,灵活控制工具权限。

结语:平衡高性能与小参数,为企业提供了低门槛解决方案

从Mistral 3到Devstral 2系列、Mistral Vibe,Mistral AI正以相当快的进击速度参与AI竞争,并在模型的高性能与轻量化间实现了平衡,从测试结果看,Devstral Small 2模型在参数仅为24B的情况下,依然优于不少开源模型,和GLM 4.6打平。

Mistral AI在公告中提到,Devstral 2系列模型专为生产级工作流打造,并被定位为下一代SOTA编程模型。尽管和顶尖闭源编程模型还有很大差距,不过,对大多数企业而言,Devstral 2和Devstral Small 2可以作为一个低门槛的初步解决方案,尤其是在和Mistral Vibe的搭配使用上,Devstral 2系列模型或将在特定的生产环节发挥作用。

来源:Mistral AI

来源:https://www.163.com/dy/article/KGEGESSK051180F7.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
豆包AI读书笔记制作指南 快速提炼书籍核心内容

豆包AI读书笔记制作指南 快速提炼书籍核心内容

豆包AI能根据书籍类型与笔记需求,通过多种方式提炼核心内容。常见书籍可直接输入书名获取摘要;冷门或内部资料可上传文件分析。深度阅读可分章节提问构建结构化笔记,长篇PDF可借助插件自动处理。无章节标记的文本需手动引导AI划分逻辑单元并概括,最终整合为连贯笔记。

时间:2026-05-23 18:17
海螺AI产品FAQ自动生成功能使用教程

海螺AI产品FAQ自动生成功能使用教程

使用海螺AI高效生成产品FAQ需遵循三阶段流程:首先从真实用户交互中提炼5-8个高频问题样本;其次通过结构化提示词强制AI输出编号清晰的问答格式;最后必须人工校验关键业务信息,确保版本、链接及合规声明的准确性。此方法能产出精准实用的FAQ文档。

时间:2026-05-23 18:16
CodeBuddy代码补全触发方式设置与切换指南

CodeBuddy代码补全触发方式设置与切换指南

CodeBuddy提供灵活的代码补全功能,可通过状态栏图标或设置按语言启用,并自定义自动触发条件(如新行、缩进、括号输入)。支持快捷键手动唤出补全面板,可选择基于行或词的补全粒度,还可通过命令面板使用前瞻性补全,全面适配个人编码习惯。

时间:2026-05-23 18:16
灵珠AI辅助学术论文写作全流程指南

灵珠AI辅助学术论文写作全流程指南

灵珠AI平台通过多模态能力辅助学术论文写作,构建高效工作流:将文献图像转为结构化文本以快速精读;提取单页资料要点;横向对比多篇文献方法并生成表格;通过语音交互润色段落;将实验记录图像自动转化为符合期刊要求的方法描述。这些工具节省研究者重复性劳动时间,使其更专注。

时间:2026-05-23 18:15
Hermes Agent自动内容生成功能使用指南

Hermes Agent自动内容生成功能使用指南

使用HermesAgent自动生成内容需先通过配置文件定义身份与平台规范,再输入结构化指令触发生成。Agent调用知识库确保可信,通过语义转换适配多平台格式,并可绑定现有文档提升准确性。最后借助本地化渲染插件输出PDF等格式,形成可控的自动化生产闭环。

时间:2026-05-23 18:14
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程