面包屑图标 当前位置: 首页
AI资讯
热点详情

JetBrains开源混合专家模型Mellum2

AI热点日报
AI热点日报时间:2026-06-03
热点解读

Mellum2是什么?专为软件工程设计的MoE开源模型 JetBrains近期开源了一款名为Mellum2的模型,其目标非常明确——专门针对软件工程系统进行优化。模型总参数量为12B,但每个token仅激活2 5B参数,这在推理成本与性能之间实现了极为巧妙的平衡。简而言之,Mellum2能用更少的计

Mellum2是什么?专为软件工程设计的MoE开源模型

JetBrains近期开源了一款名为Mellum2的模型,其目标非常明确——专门针对软件工程系统进行优化。模型总参数量为12B,但每个token仅激活2.5B参数,这在推理成本与性能之间实现了极为巧妙的平衡。简而言之,Mellum2能用更少的计算资源完成更多任务,特别适用于代码生成、智能路由、子Agent调用以及企业级私有化部署等场景。在LiveCodeBench这类代码评测中,它的表现十分亮眼,堪称构建AI编程助手与工作流的实用选择。

Mellum2的核心功能解析

  • 智能代码生成:基于代码与自然语言数据训练,支持代码补全、函数生成及重构建议——IDE中那些重复性工作,它可以承接大部分。
  • 双模式推理:提供Thinking(深度思考)与Non-thinking(快速响应)两种模式,可根据需求灵活切换。面对复杂逻辑开启深度模式,日常补全则走快速通道。
  • 工作流路由与摘要:充当AI工作流的智能路由器,负责任务分发、文档摘要与中间推理。简单来说,就是让不同AI工具实现协作。
  • 工具调用与Agent协作:支持子Agent调用与工具链集成,可嵌入自动化流程,例如自动构建、测试部署等场景。
  • 本地私有部署:可在企业内网或本地设备独立运行,无需依赖外部API,确保数据安全与合规性。

Mellum2的技术架构与原理

  • MoE稀疏架构:采用64专家、每token激活8个专家的混合专家设计。总参数量12B,但实际激活仅2.5B,推理成本接近2.5B的密集模型。配合Grouped-Query Attention与滑动窗口注意力,显存占用大幅压缩,解码速度同步提升。此外,多Token预测头作为辅助预训练目标,同时充当投机解码的内置Draft模型,进一步降低延迟。
  • 三阶段课程预训练:模型在大约10.6万亿Token上进行训练,数据配比从通用网页数据逐步过渡到精选代码与数学内容,形成渐进式课程。优化方面采用Muon优化器结合FP8混合精度,学习率使用Warmup-Hold-Decay(线性衰减至零)策略,兼顾效率与稳定性。
  • 长上下文扩展:基础模型通过Layer-Selective YaRN将上下文窗口扩展到128K,仅对关键层进行位置编码插值,避免全层微调带来的性能损失。

Mellum2的核心竞争优势

  • MoE高效架构:12B总参数仅激活2.5B,推理成本低、吞吐量高、延迟低。
  • 垂直领域专精:放弃多模态,聚焦代码与自然语言处理,在软件工程场景下更加精准与轻量。
  • 生产级性能表现:在LiveCodeBench v6代码评测中,Thinking模式得分69.9,领先同类开源模型。
  • 完全开源可商用:采用Apache 2.0协议,支持自由实验、微调及大规模商用部署。
  • 企业隐私友好:支持完全本地化运行,满足代码安全与数据合规要求。

Mellum2与同类竞品的对比分析

对比维度 Mellum2 Qwen3.5-9B SeedCoder-8B
模型架构 12B MoE(64专家,8激活,2.5B活跃参数) 9B密集模型(Dense) 8B密集模型(Dense)
开源协议 Apache 2.0(完全可商用) 开源(可商用) 未明确/部分受限
模态支持 仅文本+代码(垂直专精) 文本、代码、图像、视频(多模态通用) 仅代码(单一领域)
每Token计算量 ≈2.5B参数(极低) 9B参数(全量激活) 8B参数(全量激活)
LiveCodeBench v6 69.9(Thinking) 68.3(Thinking) 28.1(Non-thinking)
BFCL V4工具调用 45.6(Thinking) 42.7(Thinking) N/A(不支持)
AIME数学推理 58.4(Thinking) 73.4(Thinking) 0(不支持)
上下文长度 128K(YaRN扩展) 128K+ 通常4K-8K
推理模式 双模式:Thinking + Non-thinking 双模式:Thinking + Non-thinking 仅Non-thinking

Mellum2的典型应用场景

  • 智能代码补全与生成:在IDE中提供实时代码补全、函数生成、代码重构与编辑建议,可替代传统自动补全工具。
  • 调试与错误诊断:辅助开发者定位Bug、分析堆栈信息、生成修复方案,有效降低调试时间成本。
  • 多步推理与复杂任务分解:在Agent工作流中承担中间推理节点,将复杂需求拆解为可执行的子任务序列。
  • 工具调用与函数编排:通过Function Calling连接外部API、数据库或开发工具,实现自动化构建、测试与部署流程。
  • 对话式编程助手:以自然语言交互方式解答技术问题、解释代码逻辑、推荐最佳实践,充当7×24小时的技术顾问。
热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:JetBrains开源混合专家模型Mellum2要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://ai-bot.cn/mellum2/
Brain

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-06-03 21:39
AI音频合成工具AI Voice Generator & Realist评测

在AI语音合成领域,能够将“人声”还原到以假乱真程度的工具并不多见。今天要介绍的这款——AI Voice Generator & Realist,正是其中的代表性产品。它由国外团队开发,核心能力非常直接:通过文本生成自然流畅、高度逼真的合成语音,并支持导出为MP3等常见音频格式。 简单来说,用户只需

AI热点2026-06-03 21:39
Petals AI编程工具深度使用评测

在开发大规模语言模型的过程中,算力瓶颈常常成为难以逾越的障碍。尤其是像BLOOM-176B这样拥有千亿参数的巨型模型,单台机器根本无法承载。Petals这款工具恰好精准地解决了这一痛点——它并非要求个人独自承担,而是将模型拆解为多个小块,由社区参与者分别加载,协同完成推理或微调任务。 这听起来很像分

AI热点2026-06-03 21:39
Wave.video 集成直播编辑托管素材库的在线视频制作平台

Wa ve video 一站式在线视频制作平台介绍 随着视频创作日益普及,能够真正实现从拍摄到发布全流程一站式处理的工具并不多见。Wa ve video 正是这样一款综合性在线视频制作平台,集直播、剪辑、缩略图设计、视频托管及海量素材库于一体。接下来,让我们详细了解它的功能亮点。 直播功能详解:多平

AI热点2026-06-03 21:38
AI音频合成Podcastle怎么样?功能效果与深度体验评测

Podcastle 近期在音频创作圈备受关注。简而言之,它是一套集成在浏览器内的在线音频工作台——从录制、剪辑到导出,一站式完成。对于播客创作者,或是需要处理长视频配音、旁白等内容的朋友而言,这款工具确实值得深入了解。 其核心体验可拆解为三个方面:第一,录音质量直接媲美专业工作室水准,无需额外添置声

延伸阅读