普通人如何用商汤大模型AI高效度过一天
刚刚落幕的世界人工智能大会(WAIC 2024),堪称今年的“AI界春晚”。会上,一个备受瞩目的角色登场了——来自商汤科技的“日日新5o”,它被称作国内首个具备“流式交互”能力的多模态大模型,也被视为“中国版GPT-4o”。
在演示中,日日新5o展现出了类人的实时视觉与对话能力。它能听、能说、能看,几乎没有延迟,通过摄像头和语音与用户所处的真实场景进行无缝交互。这感觉,就像打破了次元壁,第一次实现了与AI的“视频通话”,体验已无限接近真人聊天。
时间拉回两个月前,OpenAI推出GPT-4o,其突破性的智能交互彻底刷新了人们对AI语音助手的认知,也为人机交互模式带来了又一次震撼。
不过,震撼之余,国内大模型圈对GPT-4o的看法似乎不如当初对GPT-4那般一致。有人觉得“在通往AGI的路上,GPT-4o并非关键一步”;也有人评价“其技术突破谈不上惊艳”;当然,也有观点认为,GPT-4o的发布是AI 2.0时代的标志性事件,将催生全新的应用平台与商业模式。
但共识也逐渐清晰:多模态很可能引领下一波交互革命和产品创新,它正成为国内大模型竞争的下一个核心战场。
有趣的是,当国内业界还在探讨GPT-4o的产品形态是否将成为主流时,商汤科技已经用“日日新5o”给出了自己的答案和行动力。这无疑表明了他们对趋势的判断。
正如商汤CEO徐立在WAIC 2024上所强调的:“行业要变化,交互模式一定是先行的。”这句话,也道出了商汤为何要率先打造这款国产流式交互大模型。
1 大模型可以是每个人的贴身AI全能助手
想象一下,如果拥有一个能“看见”现实世界、能“听懂”指令、能“开口”回答的贴身AI助手,生活会变成什么样?
这位助手不仅学识渊博,覆盖生活、学习、工作的各个领域,关键在于,它能真正理解眼前的现实。摄像头成为它观察世界的眼睛,而视觉捕捉到的信息,它能瞬间分析、总结,并通过实时对话,像朋友一样立刻给你反馈,毫无迟滞。
清晨准备出门,想知道外面的天气该如何应对。日日新5o可以准确描述天气状况,并给出贴心的外出建议。
路过一处风景绝佳之地,想拍照却苦于姿势。这时,日日新5o便能化身摄影指导,根据当前景色告诉你如何调整姿势、利用光线。
晚间聚餐是户外烧烤,大家忙着生火架炉。日日新5o不仅能准确识别视频里的人们在做什么,还能详细提醒你户外烧烤的注意事项。
至于每种食材该怎么烤才美味?它又能瞬间切换成经验老道的“烧烤大师”,一一为你分辨讲解。
回到酒店,看到一袋咖啡粉不知如何下手。询问日日新5o,它能识别出这不是速溶咖啡,并像专业咖啡师一样告诉你冲泡步骤。
可见,日日新5o的知识储备足够丰富多元。它在生活场景中能扮演发型顾问、摄影师、烧烤大师、咖啡师等多种角色。而在职场环境中,它同样是一把好手。例如,快速总结书中某一页的核心内容,其反应和分析速度远超常人。
面对一张手写字条或诗句,它能立刻解读其含义与出处。
甚至能根据前三个字,准确预测出整个成语。
从这些场景不难看出,日日新5o凭借其广泛的多领域知识、首创的实时流式交互方式,以及精准的环境信息识别与分析能力,完全有潜力成为我们生活、学习与工作中的AI全能助手。
2 重塑交互的意义
日日新5o之所以能成为一款出色的全能助手,除了展示出对标GPT-4o的各类能力——看见现实世界的人、物、文字;听懂指令并反馈;阅读并概括内容——其最根本的变革,在于交互模式本身。
作为国内首个流式交互多模态大模型,商汤将这种无缝、连续的交互方式融入大模型,带来了近乎真人的交流体验,让系统本身显得更“像人”。
回顾人工智能发展,ChatGPT当初一鸣惊人,正是因为它初步展现了人类才具备的自主学习、分析与逻辑能力。然而,让大模型“像人一样交流”,是否就是行业变革的先导?对此,业界此前并非没有争议。
而商汤发布日日新5o,正是基于其对AI 2.0时代的判断。徐立的观点很明确:行业变革,交互必须先行。
那么,什么才是定义AI 2.0时代的“超级时刻”?在徐立看来,这类似于iPhone定义移动互联网的时刻。超级时刻需要超级应用来引爆。即便是ChatGPT、Sora,也尚未真正到达那个“时刻”,原因在于它们还未深度融入垂直行业并引发广泛变革。
要走向真正的应用爆发,商汤认为有几个关键点必须突破:
首当其冲的,是实时交互带来的流畅体验。这是推动超级时刻与应用爆发的核心动力之一。
其次,是构建能够提升模型智力的高阶思维逻辑合成数据。
最后,是对生成内容(无论是文本、图像还是视频)的可控性。如果无法有效控制,那么它作为工具的效能提升将非常有限。
大模型的核心本质是记忆,记住世界的知识才能回答得更准。但徐立指出,它那一点有限的“智力”,恰恰来源于对知识背后高阶思维逻辑的记忆。因此,如何在垂直行业中构造高阶思维链的合成数据,往往成为制胜、差异化乃至中国人工智能发展之路的关键。
商汤最新发布的日日新5.5基座模型,便大量采用了这类合成的高阶思维链数据,使得模型平均能力提升了约30%。

徐立认为,要推动人工智能“超级时刻”的到来,大模型必须展现出卓越的深度思考能力。而合成数据,特别是高阶思维数据,在其中扮演着至关重要的角色。越是深入的应用场景,越能催生出高质量的核心数据。
过去,垂直领域的高级思维链数据依赖人工构建。但商汤的思路是再向前一步:不应依赖人力,而应通过与真实世界的交互,形成执行数据,并在此基础上进行推理。
正因如此,基于日日新5.5基座模型,商汤研发了日日新5o这款流式交互多模态大模型。它在摄像头移动、与真实世界持续互动的过程中,不断获取新信息进行推理和反馈。
日日新5o各项功能的实现,离不开基座模型日日新5.5的支撑。今年4月发布的日日新5.0,已是国内首个对标GPT-4 Turbo的大模型。经过两个多月的迭代,日日新5.5在数学推理、英文能力、指令跟随等方面显著增强,其交互效果与多项核心指标已可对标GPT-4o。
展望未来,徐立设想,如果将这种流式交互多模态大模型嵌入眼镜、手机、电脑等终端设备,很可能会真正点燃一批革命性应用的爆发。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
OceanBase共享存储产品发布一体化架构迎来重大升级
5月17日,OceanBase在第三届开发者大会上带来了一项重磅升级:推出全新的“共享存储”产品。这项产品实现了一个关键突破——将对象存储与事务型数据库(TP)进行了深度集成。它创新性地构建了存算一体与分离并存的多云原生架构,带来的直接好处是,云上数据存储的弹性扩展能力大幅提升,同时,TP负载的存储
Cortex获6000万美元融资消除开发者税 智谱完成数十亿元国资融资 Claude企业版上线
Cortex融资6000万美元优化工程运营,智谱AI获数十亿元国资领投。ArsenalBio融资3 25亿美元开发癌症疗法,You com筹集5000万美元发展AI搜索。Claude推出企业版定制助手,腾讯发布混元Turbo大模型。支付宝上线AI生活管家,零一万物开源编程助手模型。多领域AI初创公司获得融资,产品聚焦医疗、安全与开发效率。
中国为何仅有一个DeepSeek深度求索
DeepSeek的崛起引发行业反思。此前资本过度追捧背景光鲜但技术积累不足的团队,导致资源错配,真正专注技术的团队反而难以获得支持。行业曾低估创新门槛,部分公司转向短期应用。DeepSeek的成功得益于独立资金、顶尖人才、扁平文化及对AGI的纯粹专注,凸显了技术理想主义与持续创新的重要性。当前共识。
宇树科技亮相2026世界机器人大会 创始人王兴兴详解人形机器人未来规划
宇树科技在2026世界机器人大会上展示了全系列机器人产品,包括消费级与工业级四足机器人及通用人形机器人H1。新发布的G1人形智能体完成国内首秀,具备出色运动能力和精细操作手,起售价9 9万元。公司基于市场共识与客户需求于2023年启动人形机器人研发,并借助四足机器人技术积累控制成本。
网易有道携手DeepSeek-R1加速AI教育商业化进程
DeepSeek发布推理模型DeepSeek-R1,在数学、编程等领域表现突出且成本降低。网易有道宣布全面接入该模型,率先应用于AI学习助手“有道小P”,以提升解题答疑的个性化深度,公司其他产品及智能硬件也将陆续升级。内部测试显示,该模型在K12内容上准确率达88%。有道通过结合通用模型推理能力与自身垂直领域数据优势。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

