商汤科技联手南洋理工开源NEO架构:原生多模态模型新版发布
商汤科技与南洋理工大学S-Lab联合发布新一代多模态架构NEO,该架构现已正式开源,为日日新SenseNova多模态模型提供了全新的技术底座。这一突破性架构通过底层创新实现了视觉与语言的深度交融,在性能、效率及通用性方面均有显著提升,标志着多模态技术从“模块化拼接”向“原生融合”的范式转变。
传统多模态模型多采用“视觉编码器+投影器+语言模型”的模块化设计,以语言模型为核心扩展图像处理能力。然而,这种架构本质上仍以文本为主导,图像与语言的融合仅停留在数据层面,导致模型在复杂场景中(如精细图像分析或空间结构理解)表现受限。商汤科技指出,此类“拼凑式”设计不仅学习效率低下,更难以满足真实场景对多模态协同的需求。
针对上述痛点,NEO架构从底层机制重构多模态处理逻辑,通过三大核心创新实现原生融合:其一,原生图块嵌入技术摒弃离散图像分块方式,采用自底向上的连续映射技术,直接从像素生成语义词元,显著提升图像细节捕捉能力;其二,原生三维旋转位置编码解耦时空频率分配,为视觉与文本模态分配差异化频率参数,使模型同时具备图像空间结构解析与视频跨帧建模潜力;其三,原生多头注意力机制在统一框架下实现文本自回归注意力与视觉双向注意力的协同,强化空间关联推理能力。
在训练策略上,NEO采用Pre-Buffer与Post-LLM双阶段融合机制,既保留原始语言模型的完整推理能力,又从零构建视觉感知模块,有效解决跨模态训练中语言能力退化问题。测试数据显示,该架构仅需3.9亿图像文本样本(约为行业同等性能模型的十分之一),即可在视觉理解任务中比肩Qwen2-VL、InternVL3等旗舰模型。在MMMU、MMB等权威评测中,NEO架构多项指标位居前列,尤其在0.6B至8B参数规模的边缘部署场景中,展现出显著的成本与效率优势。
目前,商汤已开源基于NEO架构的2B与9B参数模型,开发者可通过开源社区获取技术文档与模型权重。此次开源不仅为学术界提供前沿研究基准,更为工业界部署高效多模态应用提供新选择。随着原生融合架构的普及,多模态技术有望在智能终端、自动驾驶、医疗影像等领域实现更广泛的应用突破。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
2026年第一季度手机排行榜:iPhone持续领先,行业价值竞争成主流
2026年第一季度全球最畅销十款手机出货量占比达四分之一,创季度新高,行业加速向价值化转型。iPhone17系列包揽前三,标准版因关键配置升级而热销。安卓阵营中,三星多款A系列机型凭借新兴市场需求进入前十。高端市场韧性凸显,厂商需从“以量取胜”转向“以价值取胜”。
分形工艺Dynamic 3风扇系列发布:120mm与140mm ARGB版本可选
分形工艺推出Dynamic3系列风扇,提供120mm和140mm规格及黑白两色。新品采用来福轴承与弧形叶片,兼顾静音、寿命与风量。支持PWM调速与菊花链连接,简化理线。ARGB版本可自定义灯效,海外起售价约14 99美元。
苹果 iPhone 17 Pro 将首次全程直播 MLS 赛事提供多视角画面
北京时间5月24日,一场美国职业足球大联盟比赛将全程由iPhone17Pro拍摄转播,不再使用传统专业摄像机。此举标志着iPhone首次独立完成大型职业赛事拍摄。手机的小巧灵活使其能置于球门后等特殊位置,提供更多独特视角与临场画面。这是苹果在体育转播领域从辅助到主导的关键尝试。
神舟二十三号任务公布将开展为期一年的太空驻留实验
神舟二十三号任务将执行长期驻留试验,挑战一年在轨生活。航天员将完成太空会师与轮换,开展出舱活动以安装防护装置和调试设备。任务还包括前沿科学实验,如构建太空胚胎研究体系及制备高性能新材料,旨在验证长期太空生存能力并拓展空间站应用效益。
SpaceX星舰V3成功发射完成IPO前关键测试
5月23日,SpaceX升级版星舰V3成功发射并部署模拟卫星,完成首次亮相。此次试飞验证了关键性能升级,虽过程有波折,但意义重大。同期公司正式提交IPO申请,计划以高估值融资,并设置特殊股权结构确保创始人控制权。此次发射被视为面向资本市场的技术展示。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

