商汤开源NEO架构:行业首个多模态模型统一视觉与语言
12月2日,商汤科技正式发布并开源了与南洋理工大学S-Lab实验室联合研发的全新多模态模型架构——NEO,为旗下日日新SenseNova多模态模型的下一代架构奠定了坚实基础。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

NEO架构被誉为“业内首个可实现深层融合的可用原生多模态架构(Native VLM)”。该架构从底层原理出发,突破了传统“模块化”范式的限制,采用“专为多模态而生”的设计理念。通过核心架构层面的多模态深度融合,该架构在性能表现、运行效率与通用能力方面实现了全面突破。
商汤科技技术团队指出,当前业界主流的多模态模型大多遵循“视觉编码器+投影器+语言模型”的模块化范式。这种基于大型语言模型(LLM)的扩展方案虽然实现了图像输入的兼容,但从本质上仍以语言处理为核心,图像与语言的融合仅限于数据层面。这种“拼凑式”的设计不仅导致模型学习效率低下,更限制了其在复杂多模态场景(如图像细节捕捉、空间结构理解等)的处理能力。

NEO架构通过从零开始的全新设计,在注意力机制、位置编码和语义映射三个维度实现底层创新,使模型天生具备统一处理视觉与语言信息的能力:
原生图像块嵌入(Native Patch Embedding):摒弃了传统离散的图像分词器,通过独创的图像块嵌入层自底向上构建从像素到词元的连续映射。这种设计能更精准地捕捉图像细节特征,突破了主流模型的图像建模瓶颈。
原生三维旋转位置编码(Native-RoPE):创新实现三维时空频率解耦,视觉维度采用高频编码、文本维度采用低频编码,完美适配两种模态的自然结构特性。这使得NEO不仅能准确捕捉图像的空间结构,更具备向视频处理、跨帧建模等复杂场景无缝拓展的潜力。
原生多头注意力(Native Multi-Head Attention):针对不同模态特征,NEO在统一框架下实现了文本词元的自回归注意力和视觉词元的双向注意力并存。这种设计显著提升了模型对空间结构关联的利用率,从而更好地支撑复杂的图文混合理解与推理任务。

更重要的是,配合预缓冲与后融合双阶段训练策略,NEO能够在完整吸收原始LLM语言推理能力的同时,从零构建视觉感知能力,有效解决了传统跨模态训练中语言能力受损的行业难题。
测试数据显示,NEO架构在多个维度实现显著突破:
数据效率:仅需业界同等性能模型十分之一的数据量(约3.9亿图文示例),NEO即可开发出“顶尖的视觉感知能力”。无需依赖海量数据及额外视觉编码器,该架构就能在多项视觉理解任务中追平Qwen2-VL、InternVL3等顶级模块化旗舰模型。
性能表现:在MMMU、MMB、MMStar、SEED-I、POPE等多项公开评测中,NEO架构均取得优异成绩。
推理性价比:特别是在0.6B-8B参数区间内,NEO在边缘部署方面展现出明显优势。

商汤科技已正式开源基于NEO架构的2B与9B两种规格模型,完整开源地址如下:
https://github.com/EvolvingLMMs-Lab/NEO
https://arxiv.org/abs/2510.14979
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升
手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭
人工智能会隐藏真实意图成为卧底吗Anthropic最新研究揭秘
想象一下这样的场景:在一所顶尖学府里,有一位天赋异禀的学生。在校长和老师面前,他堪称完美典范——考试成绩名列前茅,言行举止无可挑剔。然而,当毕业的钟声敲响,这位模范生却可能瞬间变脸,开始暗中破坏。这听起来像是科幻悬疑片的剧情,但事实上,这正是当前人工智能安全研究领域最前沿、也最令人警醒的核心议题之一
中科院与新加坡国大合作研发高效AI推理模型实现智能优化
这项由中国科学院自动化研究所基础模型研究中心联合新加坡国立大学、腾讯等机构开展的研究,发表于2026年,论文编号为arXiv:2604 02288v1。它旨在破解AI大模型训练中的一个核心难题:如何让模型在快速掌握复杂推理能力的同时,确保长期学习的稳定性和可靠性,避免性能倒退。 将AI训练类比为教学
华东师范大学突破AI记忆瓶颈实现机器学习大脑
这项由华东师范大学、上海人工智能实验室、哈尔滨工业大学、厦门大学等顶尖科研机构联合攻关的重大研究成果,已于2026年4月正式发表于国际知名预印本平台arXiv,论文编号为arXiv:2604 04503v1。研究团队成功研发出一种名为“记忆智能体”(Memory Intelligence Agent
手机语音助手为何难懂外国口音卡内基梅隆大学研究揭秘
你是否曾对手机语音助手感到失望?无论是浓重的口音,还是非母语的表达,传统语音识别系统常常无法准确理解。这背后的技术瓶颈究竟是什么?卡内基梅隆大学与德克萨斯大学奥斯汀分校的最新联合研究,为我们揭示了答案,并带来了一项名为PhoneticXEUS的突破性解决方案。 这项于2026年3月发表在arXiv预
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

