JetBrains开源混合专家模型Mellum2

AI热点日报时间：2026-06-03

热点解读

Mellum2是什么？专为软件工程设计的MoE开源模型 JetBrains近期开源了一款名为Mellum2的模型，其目标非常明确——专门针对软件工程系统进行优化。模型总参数量为12B，但每个token仅激活2 5B参数，这在推理成本与性能之间实现了极为巧妙的平衡。简而言之，Mellum2能用更少的计

Mellum2是什么？专为软件工程设计的MoE开源模型

JetBrains近期开源了一款名为Mellum2的模型，其目标非常明确——专门针对软件工程系统进行优化。模型总参数量为12B，但每个token仅激活2.5B参数，这在推理成本与性能之间实现了极为巧妙的平衡。简而言之，Mellum2能用更少的计算资源完成更多任务，特别适用于代码生成、智能路由、子Agent调用以及企业级私有化部署等场景。在LiveCodeBench这类代码评测中，它的表现十分亮眼，堪称构建AI编程助手与工作流的实用选择。

Mellum2的核心功能解析

智能代码生成：基于代码与自然语言数据训练，支持代码补全、函数生成及重构建议——IDE中那些重复性工作，它可以承接大部分。
双模式推理：提供Thinking（深度思考）与Non-thinking（快速响应）两种模式，可根据需求灵活切换。面对复杂逻辑开启深度模式，日常补全则走快速通道。
工作流路由与摘要：充当AI工作流的智能路由器，负责任务分发、文档摘要与中间推理。简单来说，就是让不同AI工具实现协作。
工具调用与Agent协作：支持子Agent调用与工具链集成，可嵌入自动化流程，例如自动构建、测试部署等场景。
本地私有部署：可在企业内网或本地设备独立运行，无需依赖外部API，确保数据安全与合规性。

Mellum2的技术架构与原理

MoE稀疏架构：采用64专家、每token激活8个专家的混合专家设计。总参数量12B，但实际激活仅2.5B，推理成本接近2.5B的密集模型。配合Grouped-Query Attention与滑动窗口注意力，显存占用大幅压缩，解码速度同步提升。此外，多Token预测头作为辅助预训练目标，同时充当投机解码的内置Draft模型，进一步降低延迟。
三阶段课程预训练：模型在大约10.6万亿Token上进行训练，数据配比从通用网页数据逐步过渡到精选代码与数学内容，形成渐进式课程。优化方面采用Muon优化器结合FP8混合精度，学习率使用Warmup-Hold-Decay（线性衰减至零）策略，兼顾效率与稳定性。
长上下文扩展：基础模型通过Layer-Selective YaRN将上下文窗口扩展到128K，仅对关键层进行位置编码插值，避免全层微调带来的性能损失。

Mellum2的核心竞争优势

MoE高效架构：12B总参数仅激活2.5B，推理成本低、吞吐量高、延迟低。
垂直领域专精：放弃多模态，聚焦代码与自然语言处理，在软件工程场景下更加精准与轻量。
生产级性能表现：在LiveCodeBench v6代码评测中，Thinking模式得分69.9，领先同类开源模型。
完全开源可商用：采用Apache 2.0协议，支持自由实验、微调及大规模商用部署。
企业隐私友好：支持完全本地化运行，满足代码安全与数据合规要求。

Mellum2与同类竞品的对比分析

对比维度	Mellum2	Qwen3.5-9B	SeedCoder-8B
模型架构	12B MoE（64专家，8激活，2.5B活跃参数）	9B密集模型（Dense）	8B密集模型（Dense）
开源协议	Apache 2.0（完全可商用）	开源（可商用）	未明确/部分受限
模态支持	仅文本+代码（垂直专精）	文本、代码、图像、视频（多模态通用）	仅代码（单一领域）
每Token计算量	≈2.5B参数（极低）	9B参数（全量激活）	8B参数（全量激活）
LiveCodeBench v6	69.9（Thinking）	68.3（Thinking）	28.1（Non-thinking）
BFCL V4工具调用	45.6（Thinking）	42.7（Thinking）	N/A（不支持）
AIME数学推理	58.4（Thinking）	73.4（Thinking）	0（不支持）
上下文长度	128K（YaRN扩展）	128K+	通常4K-8K
推理模式	双模式：Thinking + Non-thinking	双模式：Thinking + Non-thinking	仅Non-thinking

Mellum2的典型应用场景

智能代码补全与生成：在IDE中提供实时代码补全、函数生成、代码重构与编辑建议，可替代传统自动补全工具。
调试与错误诊断：辅助开发者定位Bug、分析堆栈信息、生成修复方案，有效降低调试时间成本。
多步推理与复杂任务分解：在Agent工作流中承担中间推理节点，将复杂需求拆解为可执行的子任务序列。
工具调用与函数编排：通过Function Calling连接外部API、数据库或开发工具，实现自动化构建、测试与部署流程。
对话式编程助手：以自然语言交互方式解答技术问题、解释代码逻辑、推荐最佳实践，充当7×24小时的技术顾问。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：JetBrains开源混合专家模型Mellum2要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://ai-bot.cn/mellum2/

Brain

上一篇：ECC开源跨平台AI Agent性能优化系统

下一篇：开源开发者设反AI陷阱代码埋隐藏指令引争议

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周AI视频制作跃迁引擎真实体验与效果测评 02 / 本周in3D快速生成可定制逼真3D头像助力虚拟应用集成 03 / 本周AI名称生成器在线免费生成独特创意名称 04 / 本周塔猫AI一键免费解析PPT，办公更轻松高效 05 / 本周Mermaid图表使用技巧与教程

01 / 本月AI视频制作跃迁引擎真实体验与效果测评 02 / 本月in3D快速生成可定制逼真3D头像助力虚拟应用集成 03 / 本月AI名称生成器在线免费生成独特创意名称 04 / 本月塔猫AI一键免费解析PPT，办公更轻松高效 05 / 本月Mermaid图表使用技巧与教程

热点快看

06-03 21:36AI视频制作跃迁引擎真实体验与效果测评 06-03 21:36in3D快速生成可定制逼真3D头像助力虚拟应用集成 06-03 21:36AI名称生成器在线免费生成独特创意名称 06-03 21:36塔猫AI一键免费解析PPT，办公更轻松高效 06-03 21:35Mermaid图表使用技巧与教程

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别