何宝宏认为大语言模型上半场已进入垃圾时间
过去一年里,大语言模型领域的竞争态势变得颇为微妙。中国通信院云计算与大数据研究所所长何宝宏在第十九届中国IDC产业年度大典上,提出了一个相当犀利的观点:大语言模型的竞赛上半场,实际上已迈入“垃圾时间”。训练效果普遍未能达到预期,能力提升的步伐也明显放缓,进入了瓶颈期。观察行业的风向标,不难发现:Op
过去一年里,大语言模型领域的竞争态势变得颇为微妙。中国通信院云计算与大数据研究所所长何宝宏在第十九届中国IDC产业年度大典上,提出了一个相当犀利的观点:大语言模型的竞赛上半场,实际上已迈入“垃圾时间”。训练效果普遍未能达到预期,能力提升的步伐也明显放缓,进入了瓶颈期。
观察行业的风向标,不难发现:OpenAI的模型迭代周期显著拉长,从过去的24个月更新一次,延长至33个月,且新版本的表现并未带来足够惊艳的突破;谷歌的Gemini 2.0也呈现出仓促上阵的迹象。这些信号背后,指向一个核心困境——Scaling law,那个曾驱动大模型一路高歌猛进的“万有引力”,如今正步入减速区间,发力渐弱。
上半场“垃圾时间”:Scaling law的放缓与失效
何宝宏明确指出,大语言模型的发展已然步入“下半场”。他强调,过去一年,大模型训练效果普遍不及预期,一个关键原因就在于Scaling law正面临增速放缓甚至失效的境地。值得注意的是,Scaling law并非大模型领域的专属规律,它广泛存在于物理世界、生命体进化、城市发展、公司运营乃至计算机系统等众多复杂系统中。
所有的Scaling law,随着时间推移,最终都会走向失效。没有任何事物能够永远保持指数级增长。大模型领域不过是再次验证了这一自然法则。如果Scaling law在短期(例如0到3年内)便宣告失效,那么通往AGI的征途,或许会比我们预想的更为漫长且曲折。
既然正面突破Scaling law的瓶颈困难重重,各大研究机构开始调整策略,转向两条全新赛道:一是从训练侧转向推理侧,二是从大语言模型转向多模态模型。前者意味着从连接主义(依赖数据与经验)向符号主义(依靠逻辑与推理)的转变,本质上,这两条路径正趋向统一;后者则直指应用落地、视觉理解与分布式大模型,尽管这条道路依然崎岖,需要大量的优化与迭代工作。
2024年,大模型赛道的激烈内卷有目共睹。一个值得关注的现象是,开源模型的能力已达到GPT-3.5的80%,但训练与使用成本却仅为后者的1/20。何宝宏点出一个关键趋势:如果向前卷不动技术突破,那就转向卷工程化落地。目前的大模型仍像一件“工艺品”,需要经历更深入的工程化打磨,才能真正蜕变为成熟的产品。未来的大模型,必须在可解释性、透明度、长期推理能力以及安全可靠性上取得突破,而模型的压缩、轻量化与组件化,正是从工艺品走向工程化产品的必经之路。
竞争的底层逻辑也在发生转变:从过去单纯比拼性能,逐渐转向比拼性价比。那个疯狂堆叠算力、追求极致参数规模的时代已经过去,如今的核心命题是如何以更低的成本实现更大的商业价值。至于模型的“幻觉”问题,何宝宏的看法颇为独到:幻觉并非完全是负面因素,它恰恰是创意与创新的重要源泉。在文学、艺术与科技领域,这种“幻觉”或许能催生意想不到的灵感火花。
大模型撞上数据墙
2024年底,“大模型撞上数据墙”成为业界讨论的焦点话题。OpenAI前首席科学家Ilya也预言“预训练时代将走向终结”。何宝宏表示,这一判断与他本人的观察高度一致。
关于“大模型撞墙”的争论,有人认为预训练并未结束,数据也未被真正耗光。未来可以利用视频数据、人工智能生成的合成数据,甚至私域数据来继续训练。但何宝宏并不认同这一乐观看法。他直言,视频数据如何有效用于训练,目前尚未形成成熟的方法论;而私域数据即便体量再大,相较于互联网的海量数据来说仍属“小数据”,顶多用于模型微调,难以在全局层面上取得实质性突破。
至于合成数据,问题则更为严峻。何宝宏指出,过去30多年积累的互联网优质数据,将在未来三到五年内被消耗殆尽。如果使用AI生成的数据进行训练,反而可能导致模型性能崩溃。研究数据显示,一旦训练数据中混入1%的AI生成内容,经过五次迭代后模型便会崩溃。他甚至提出了一个颇具冲击力的观点——“互联网正在面临生死存亡的威胁”。因为AI生成的数据正以惊人的速度膨胀,而人类生产的优质数据却在快速萎缩。
下半场:Agent与智算基础设施的重构
展望未来,何宝宏认为,2025年Agent将成为最为核心的焦点。大模型正在经历它的“七年之痒”,下一步,行业重心应从大模型转向Agent。与专注于知识压缩的大模型不同,Agent是目标导向的,这既是它的突出优势,也是全新的挑战所在。
由于Agent以目标为导向,其思维方式与运作逻辑与人类传统的智能模式存在显著差异。如何确保智能体的终极目标与人类的深层意图高度一致?如何进行有效的监测与纠偏?这些问题都需要深入研究和系统解决。
在算力方面,下半场的竞争逻辑也在变化。不能只盯着高端算力,边缘算力与混合算力将变得越来越重要。整个AIDC生态正在经历重构,从Agent到大模型,再到智算基础设施,已经演变为技术密集型、资金密集型、能耗密集型与人才密集型的新模式。
最后,何宝宏给出了一个清醒的总结:从缺算力转向缺电力,从液冷技术到智力基础设施,我们需要面向未来进行长期规划。如果按照当前趋势发展,到2030年,全球20%的电力可能都会被人工智能数据中心所消耗。下一步的竞争核心,将是“智力在线”。而今天的算力基础设施,距离真正建成规模化的智算基础设施,还有相当漫长的路要走。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:何宝宏认为大语言模型上半场已进入垃圾时间要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点基于人工智能的室内设计与虚拟布置平台,通过上传房间照片、手绘草图或SketchUp文件,自动识别空间结构并更换风格。核心功能包括草图转逼真渲染、3D漫游视频及虚拟布置,支持多种设计风格,提升可视化沟通效率。
OctoparseCEM是AI驱动的客户体验管理平台,聚合电商、社交媒体、客服工单等多渠道反馈,通过情感分析、客户旅程映射等功能,将非结构化数据转化为可操作洞察,助力产品优化、服务提升与业务增长。
在客户关系管理领域,如何让工具更智能地辅助市场决策?Odoo CRM 近期推出的一款扩展程序,或许给出了一个令人关注的答案——它直接将 OpenAI GPT-3 5 Turbo 与情感分析能力嵌入 CRM 工作流,使营销不再仅凭经验盲目判断。 什么是 Odoo CRM OpenAI GPT-3 5
联想与Meta合作,基于Llama大模型推出面向PC的个人AI智能体AINow。该产品由杨元庆和扎克伯格共同宣布,旨在将AI与混合现实技术普及。扎克伯格强调开源Llama可让联想微调模型以优化特定场景,并称开源是最高效、可定制且值得信赖的选择。
- 日榜
- 周榜
- 月榜
热点快看
