商汤科技发布日日新5o 国内首款实时多模态交互模型对标GPT-4o

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

商汤科技发布日日新5o 国内首款实时多模态交互模型对标GPT-4o

热心网友时间：2026-05-16

转载

2024年7月5日，上海世界人工智能大会盛大开幕。作为大会战略合作伙伴，商汤科技在其主办的“大爱无疆·向新力”人工智能论坛上，重磅发布了国内首个实现“所见即所得”交互体验的多模态大模型——“日日新5o”。这款模型旨在提供一种可对标GPT-4o的全新交互范式，将多模态实时对话从技术概念推向可感知、可体验的现实应用。

那么，究竟什么是“所见即所得”的AI交互？简单来说，它意味着人工智能能够像人类一样，同步接收、处理并理解来自语音、文本、图像及视频的混合信息流，并给出实时、流畅的反馈。这不再是简单的多模态识别与信息拼接，而是一种更接近人类自然对话的融合感知与理解能力。

论坛现场的实时演示，生动诠释了“日日新5o”的这一核心能力。工作人员刚刚向模型发出问候，“日日新5o”便通过设备摄像头，自动识别出工作人员胸卡带上的字样，随即准确判断出：“这里是世界人工智能大会会场”，并幽默地表示在此可以“好好学习，天天向上”。

接下来的展示环节更具趣味性。当工作人员拿起一只小狗玩偶时，模型不仅准确描述了小狗的外貌特征和憨态可掬的表情，还特别注意到了它头上那顶印有商汤科技Logo的白色帽子，细节捕捉能力相当出色。

演示难度随即升级。工作人员随机翻开一本书的任意一页，“日日新5o”的表现超越了简单的OCR文字识别。它能够快速理解页面上的图文混合布局与内容逻辑，并给出一个清晰、易懂的摘要总结，整个响应过程几乎在瞬间完成，交互流畅度令人印象深刻。

最能体现其“人性化”交互特质的，或许是对简笔画的实时理解与反馈。工作人员随手画了一只小兔子，模型直呼“可爱”。随后，一个简单的微笑表情被画出，模型能从中捕捉到平静、愉悦的情绪；当工作人员添上一笔，将嘴巴画大并加上舌头时，模型立刻反馈道：“这个表情看起来开心多了”。这种能听、会看、懂意图，并能主动延伸话题的交流方式，让AI对话拥有了几分与真人聊天的自然感与温度。

这种强大的实时多模态交互能力，尤其适用于需要自然连续对话和复杂场景深度理解的各类应用场景。其卓越表现的背后，是“日日新5.5”基础模型能力的全面进化与升级作为坚实支撑。

模型能力再进化：从性能对标到体验对齐

回顾今年4月，商汤发布的“日日新5.0”大模型已被业界视为国内首个在综合性能上对标GPT-4 Turbo的国产大模型。而短短两个多月后，全面升级的“日日新5.5”体系便宣告登场。据悉，其综合性能平均提升幅度超过30%，特别是在数学推理、英文理解以及复杂指令跟随等方面进步显著。正是这些核心能力指标的跨越式提升，为其在终端交互体验上实现与GPT-4o的对标奠定了坚实基础。

在技术架构层面，“日日新5.5”采用了创新的混合专家模型架构，并实现端云协同推理。这种设计旨在最大限度发挥云端强大算力与边缘侧低延迟的优势，从而在显著提升模型能力的同时，有效优化与控制推理成本。模型的训练数据规模已超过10TB tokens，其中包含了大量用于提升逻辑思维与推理能力的合成思维链数据，这是其复杂问题解决能力增强的关键因素之一。

降低应用门槛：“大模型0元Go”计划正式启动

为了助力更多企业与开发者能够以极低门槛体验并应用“日日新”大模型的先进能力，商汤科技近期同步推出了“大模型0元Go”普惠计划。根据该计划，新注册企业用户将获得一个包含模型调用、数据迁移、训练支持等多项专业服务的免费资源礼包。此外，商汤还将直接赠送高达5000万Tokens的免费额度，并为有意从OpenAI等平台迁移的用户配备专属技术顾问，旨在实现“零服务成本”的平滑、无忧迁移。

从快速迭代的模型升级，到实时流畅的多模态交互演示，再到旨在吸引开发者的普惠计划，商汤科技这一系列紧密的动作清晰地表明，国产大模型的发展正从技术层面的追赶，迈入以用户体验为核心竞争力的新阶段。未来的竞争焦点，或许将不止于学术基准测试的分数高低，更在于谁能提供更自然、更实用、更触手可及的智能交互体验。

来源:https://www.leiphone.com/category/ai/J8pZVmhIZTiINli2.html

上一篇： OpenClaw营销页面自动生成工具使用指南

下一篇： AI绘画版权归属与商用风险法律指南