商汤科技携手南洋理工发布NEO架构:原生多模态模型新篇章
商汤科技与南洋理工大学S-Lab联合研发的多模态模型架构NEO正式亮相,并同步开源2B与9B两种参数规模的模型。这项突破性成果为多模态大模型领域带来全新范式,其核心架构通过底层创新实现了视觉与语言模态的深度融合,在数据效率、性能表现及部署成本等关键指标上达到行业领先水平。
传统多模态模型普遍采用"视觉编码器+投影器+语言模型"的模块化设计,这种基于大语言模型扩展的方案虽能处理图像输入,但本质上仍以语言为中心。商汤科技指出,此类架构存在三大缺陷:数据层面浅层融合导致学习效率低下,图像细节捕捉能力受限,复杂空间结构理解困难。例如在需要精准识别物体位置关系或动态场景的任务中,传统模型往往表现乏力。
NEO架构通过三项底层创新实现模态融合的质变。其独创的原生图块嵌入技术摒弃离散图像分词器,通过连续映射机制从像素级构建视觉表征,使模型能捕捉到比传统方法精细4倍的图像细节。在位置编码方面,原生三维旋转位置编码创新性地解耦时空频率分配,为视觉模态分配高频信号、语言模态分配低频信号,这种设计使模型天然具备处理视频流和跨帧信息的能力。
注意力机制层面,原生多头注意力突破传统框架,在统一架构中同时实现文本的自回归注意力与视觉的双向注意力。这种设计使模型在处理图文混合任务时,空间关联利用率提升37%,特别在需要理解物体遮挡关系或动态轨迹的场景中表现突出。配合Pre-Buffer&Post-LLM双阶段训练策略,模型在保持语言推理能力完整性的同时,视觉感知能力实现指数级增长。
实测数据显示,NEO架构展现出显著优势:在数据效率方面,仅需3.9亿图像文本样本即可达到顶尖视觉理解水平,数据需求量仅为同类模型的1/10;性能测试中,在MMMU、MMB等五大权威基准测试中均取得最优成绩;部署成本方面,0.6B-8B参数规模的模型在边缘设备上的推理速度提升2.3倍,特别适合移动端和物联网设备部署。商汤已开放基于NEO架构的模型下载,开发者可通过开源社区获取完整代码与训练框架。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
AI赋能儿童故事创作:灵珠智能绘本文案生成指南
灵珠AI能帮助用户快速创作儿童故事与绘本,根据简单提示生成结构完整、逻辑连贯的初稿。平台提供绘本增强功能,自动提取画面描述以优化图文匹配,支持移动端碎片化编辑与多轮润色。完成后的作品可通过内置渠道一键发布,系统自动审核并适配格式,方便分发。
豆包如何提取图片文字OCR功能详解
豆包AI集成多语言OCR引擎,可识别印刷体、手写体及表格文字。用户可通过对话上传图片提取文字,或使用“图片理解”处理复杂场景。专用工具支持批量处理与多格式导出,AI绘图界面也内置识别功能。自然语言指令亦可触发OCR,多种方式满足不同需求,高效获取可编辑文本。
纳米AI语音输入使用教程:说话就能高效写作的详细指南
纳米AI语音输入提供多场景方案:手机APP可直接口述需求;网页版支持语音搜索与写作联动;拍照加语音模式可结合图像生成内容;通过Siri等设置快捷指令可实现全流程语音操控;本地部署方案利用开源助手离线保护隐私,仅上传文本至云端处理。
WorkBuddy与WPS AI办公文档处理能力对比评测
WPSAI深度集成于WPS客户端,对原生格式支持好,操作直接高效,响应快且安全。WorkBuddy依赖外部技能包,擅长执行跨文档、跨平台的复杂长指令与自动化流程,但步骤繁琐、权限风险较高。两者定位不同,前者侧重单文档轻便处理,后者侧重复杂工作流构建。
通义万象生成透明背景PNG图片的抠图与通道设置教程
生成透明背景PNG素材需先通过提示词生成白底图,再利用AI工具抠图并导出含Alpha通道的PNG文件。如需精修,可在Photoshop中通过通道优化选区,保存时勾选透明度。最后在OBS等应用中验证边缘融合效果,局部修改可使用支持Alpha通道的编辑模型保持透明。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

