当前位置: 首页
AI
商汤开源NEO架构:行业首个多模态模型统一视觉与语言

商汤开源NEO架构:行业首个多模态模型统一视觉与语言

热心网友 时间:2025-12-03
转载

12月2日,商汤科技正式发布并开源了与南洋理工大学S-Lab实验室联合研发的全新多模态模型架构——NEO,为旗下日日新SenseNova多模态模型的下一代架构奠定了坚实基础。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

行业首个:商汤发布并开源NEO原生多模态模型架构,实现视觉、语言深层统一

NEO架构被誉为“业内首个可实现深层融合的可用原生多模态架构(Native VLM)”。该架构从底层原理出发,突破了传统“模块化”范式的限制,采用“专为多模态而生”的设计理念。通过核心架构层面的多模态深度融合,该架构在性能表现、运行效率与通用能力方面实现了全面突破。

商汤科技技术团队指出,当前业界主流的多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式。这种基于大型语言模型(LLM)的扩展方案虽然实现了图像输入的兼容,但从本质上仍以语言处理为核心,图像与语言的融合仅限于数据层面。这种“拼凑式”的设计不仅导致模型学习效率低下,更限制了其在复杂多模态场景(如图像细节捕捉、空间结构理解等)的处理能力。

行业首个:商汤发布并开源NEO原生多模态模型架构,实现视觉、语言深层统一

NEO架构通过从零开始的全新设计,在注意力机制、位置编码和语义映射三个维度实现底层创新,使模型天生具备统一处理视觉与语言信息的能力:

原生图像块嵌入(Native Patch Embedding):摒弃了传统离散的图像分词器,通过独创的图像块嵌入层自底向上构建从像素到词元的连续映射。这种设计能更精准地捕捉图像细节特征,突破了主流模型的图像建模瓶颈。

原生三维旋转位置编码(Native-RoPE):创新实现三维时空频率解耦,视觉维度采用高频编码、文本维度采用低频编码,完美适配两种模态的自然结构特性。这使得NEO不仅能准确捕捉图像的空间结构,更具备向视频处理、跨帧建模等复杂场景无缝拓展的潜力。

原生多头注意力(Native Multi-Head Attention):针对不同模态特征,NEO在统一框架下实现了文本词元的自回归注意力和视觉词元的双向注意力并存。这种设计显著提升了模型对空间结构关联的利用率,从而更好地支撑复杂的图文混合理解与推理任务。

行业首个:商汤发布并开源NEO原生多模态模型架构,实现视觉、语言深层统一

更重要的是,配合预缓冲与后融合双阶段训练策略,NEO能够在完整吸收原始LLM语言推理能力的同时,从零构建视觉感知能力,有效解决了传统跨模态训练中语言能力受损的行业难题。

测试数据显示,NEO架构在多个维度实现显著突破:

数据效率:仅需业界同等性能模型十分之一的数据量(约3.9亿图文示例),NEO即可开发出“顶尖的视觉感知能力”。无需依赖海量数据及额外视觉编码器,该架构就能在多项视觉理解任务中追平Qwen2-VL、InternVL3等顶级模块化旗舰模型。

性能表现:在MMMU、MMB、MMStar、SEED-I、POPE等多项公开评测中,NEO架构均取得优异成绩。

推理性价比:特别是在0.6B-8B参数区间内,NEO在边缘部署方面展现出明显优势。

行业首个:商汤发布并开源NEO原生多模态模型架构,实现视觉、语言深层统一

商汤科技已正式开源基于NEO架构的2B与9B两种规格模型,完整开源地址如下:

https://github.com/EvolvingLMMs-Lab/NEO

https://arxiv.org/abs/2510.14979

来源:https://www.ithome.com/0/901/985.htm

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
硅谷巨头竞相投资!奶企AI项圈估值超20亿美元

硅谷巨头竞相投资!奶企AI项圈估值超20亿美元

新智元报道编辑:倾倾【新智元导读】这家新西兰的公司给奶牛戴上AI项圈,估值一年飙升20亿美元!Founders Fund领投,投资人抢到超额认购。它的秘密武器叫「Cowgorithm」——一套让牛自

时间:2026-03-29 18:49
马斯克AI创业搭子“全跑了”:真相与项目复盘

马斯克AI创业搭子“全跑了”:真相与项目复盘

智东西3月29日报道,今天,xAI联合创始人罗斯·诺丁在社交平台X上悄然移除了自己的xAI员工认证,离开了这家以马斯克为首的AI独角兽。至此,xAI最初的12名联合创始人中,仅剩马斯克一人。诺丁的x

时间:2026-03-29 16:49
行业首发:OpenClaw全网刷屏,ClawManager一键收编AI龙虾大军

行业首发:OpenClaw全网刷屏,ClawManager一键收编AI龙虾大军

新智元报道编辑:KingHZ【新智元导读】研究员三个月科研对话记录一夜清零,企业敏感数据公网裸奔……全行业首个企业级OpenClaw服务器部署管理方案ClawManager问世,让OpenClaw真

时间:2026-03-29 14:55
甲子光年:科技如何重塑空间设计行业新价值

甲子光年:科技如何重塑空间设计行业新价值

当“好看”成为基础门槛,头部设计公司开始把自己改造成一种新的组织:它既做创意,也做设计开源;既做项目,也做科技能力构建。矩阵纵横(Matrix Design)上海新总部的落成,正是这一产业价值锚点变

时间:2026-03-29 14:49
马斯克AI创业项目xAI:完整解析与未来展望

马斯克AI创业项目xAI:完整解析与未来展望

智东西作者 陈骏达编辑 李水青智东西3月29日报道,今天,xAI联合创始人罗斯·诺丁(Ross Nordeen)在社交平台X上悄然移除了自己的xAI员工认证,离开了这家以马斯克为首的AI独角兽。至此

时间:2026-03-29 12:49
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程