微软发布Phi-3.5模型:128K上下文首用混合专家
微软此次一口气发布了三款 Phi-3 5 系列 AI 模型,其中最引人注目的是该系列首次引入混合专家(MoE)架构的版本——Phi-3 5-MoE。整个系列基于合成数据与经过筛选的公开网站数据构建,上下文窗口统一扩展至 128K,所有模型现已通过 MIT 许可在 Hugging Face 上完全开源
微软此次一口气发布了三款 Phi-3.5 系列 AI 模型,其中最引人注目的是该系列首次引入混合专家(MoE)架构的版本——Phi-3.5-MoE。整个系列基于合成数据与经过筛选的公开网站数据构建,上下文窗口统一扩展至 128K,所有模型现已通过 MIT 许可在 Hugging Face 上完全开源。下面逐一介绍:

Phi-3.5-MoE:首款混合专家模型
这是 Phi 家族中首个采用 MoE 架构的模型。其结构为 16 x 3.8B MoE,每次推理仅激活 2 个专家,相当于只调动 66 亿参数参与计算。训练过程使用了 512 块 H100,在 4.9T 的 token 数据上进行打磨。微软团队从零开始设计,旨在榨取更高性能。结果在标准 AI 基准测试中,它直接超越了 Llama-3.1 8B、Gemma-2-9B 和 Gemini-1.5-Flash,甚至与当前领先的 GPT-4o-mini 仅差一步之遥。
Phi-3.5-vision:多帧图像理解能力升级
视觉版拥有 42 亿参数,采用 256 块 A100,在 500B token 上完成训练。此次最大的升级是支持多帧图像理解与推理——即能够同时分析多张图片并识别它们之间的关联。实测成绩十分亮眼:MMMU 从 40.2 提升至 43.0,MMBench 从 80.5 提高到 81.9,文档理解基准 TextVQA 从 70.9 上升至 72.0,每项指标均有实质性进步。
Phi-3.5-mini:轻量级却硬刚大模型
尽管仅有 38 亿参数,但该模型表现极为强劲:不仅超越 Llama3.1 8B 和 Mistral 7B,甚至能与拥有 120 亿参数的 Mistral NeMo 12B 一较高下。训练使用 512 块 H100,在 3.4T token 上完成。有效参数虽仅 3.8B,但在多语言任务中完全不逊于参数更多的竞品。此外,它支持 128K 上下文窗口,而主要对手 Gemma-2 系列仅提供 8K——这一差距堪称降维打击。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:微软发布Phi-3.5模型:128K上下文首用混合专家要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。
SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。
需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,
艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来
- 日榜
- 周榜
- 月榜
热点快看
