OpenAI 12月发布新模型Orion 需知的五个背景信息
OpenAI计划于12月推出新一代模型Orion,初期仅向核心合作伙伴开放,微软将负责Azure托管。Orion被视为GPT-4的自然继任者,但未必命名为GPT-5;其训练使用了o1模型的合成数据,计算规模显著提升,性能有望大幅增强,表现值得期待。
今天The Verge爆了个大料:OpenAI正计划于12月推出下一代前沿模型,代号Orion。这消息一出来,整个行业又开始躁动了——OpenAI这次还能保持"遥遥领先"吗?
不过,跟GPT-4o和o1不太一样的是,Orion最初不会直接对所有用户开放。消息人士透露,OpenAI会先授权给一批核心合作伙伴,让他们基于这个模型构建自己的产品和功能。微软那边的工程师也没闲着,据说最早11月就要在Azure上安排好Orion的托管环境。
有意思的是,虽然OpenAI内部把Orion视为GPT-4的自然继任者,但不一定会在外部直接命名为"GPT-5"。当然,发布计划随时可能变动,推迟也不是没发生过。OpenAI和微软对此都选择了沉默。
关于Orion(或者说GPT-5),按时间线梳理下来,其实有很多值得关注的信息碎片。
1. GPT-Next的伏笔
2024年5月,法国VivaTech大会上,OpenAI开发者体验主管Romain Huet在展示GPT-4o语音模式时,PPT上赫然写着"GPT-Next"的发布计划。当时不少人以为这就是GPT-5的代号,但后续的发展远比想象中复杂。

2. Strawberry与Orion的关联
8月,The Information报道了一个关键信息:OpenAI正在用代号Strawberry(也就是后来发布的o1)提供的合成数据来训练Orion。这其实揭示了一个重要策略——用更强的推理模型反哺下一代基座模型。
9月3日,OpenAI日本负责人Tadao Nagasaki在"KDDI SUMMIT 2024"上进一步公布了"GPT Next"计划,并且放出一个惊人承诺:性能将实现数量级飞跃。Nagasaki给出的细节很有料——GPT Next的目标是用接近GPT-4的训练算力(约1万张GPU),实现100倍的计算效能提升。而Orion则更加激进,在1万张H100 GPU上训练,计算规模又增加10倍。

3. o1模型的真相
9月13日,OpenAI发布o1模型。现在回过头看,o1 ≠ GPT Next。本周李开复在极客公园的直播里爆料了一个业内传闻:OpenAI在训练GPT-5时遇到了不小的麻烦——10万张集群的管理和协同实在太难搞了。为了在融资窗口期拿出成果,只能先把o1推出来。事实也的确如此,o1发布后不久,OpenAI就完成了新一轮融资,估值飙到1500亿美元。
那GPT-5到底在多大的集群上训练?今年5月,微软CTO Kevin Scott在Build大会上用了一个生动的比喻:2020年训练GPT-3的硬件叫"鲨鱼",2022年训练GPT-4的硬件叫"虎鲸",而训练下一代模型的系统,在规模上与"鲸鱼"差不多——2022年那个集群已经包含超过28.5万个处理器核心和1万张显卡,是世界上最大的超级计算机之一。如果结合Nagasaki的说法,GPT-Next的集群规模和GPT-4相当,但"鲸鱼"显然指向更大规模——10万卡集群,目标直指2025年的模型。

4. Sam Altman的谜语时间
o1发布的第二天,Sam Altman又开始了他的老传统——发谜语。他在X上发文:"我喜欢呆在中西部的家里。夜空真美丽。很高兴冬季星座很快就要升起了;它们太棒了。"所有人都心领神会:冬季星座指的正是猎户座(Orion)。
结合Altman之前的操作——8月发草莓相关的帖子暗示o1——这几乎是在明示Orion即将到来。更值得玩味的是,Orion的发布时间很可能恰好落在ChatGPT发布两周年之际(11月30日左右)。
5. 反转来了
就在今天,Sam Altman在The Verge记者的X账号下留言,只说了四个字:假新闻。不过,经历过多次"否认即承认"的人应该都懂,这未必能阻止事情的发生。无论真假,静待OpenAI的下一步动作吧。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:OpenAI 12月发布新模型Orion 需知的五个背景信息要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点“训练数据的质量,直接影响大模型的最终表现,这一观点绝非夸张”决定大模型最终质量的关键因素,除了模型架构设计,更重要的其实是训练数据。从某种意义上讲,数据的质量几乎直接决定了模型能力的上限。那么,面对海量且杂乱无章的原始信息,如何才能梳理出真正适用于大模型训练的高质量数据集?这无疑是值得深入探讨的问
基于WordEmbedding与LSTM构建编码器-解码器架构,实现新闻正文到短标题的序列生成。预处理包括分词、词表截断及长度统一,双向LSTM编码正文,单向LSTM解码并加入注意力机制,采用TeacherForcing训练及AdamW优化,最终导出ONNX部署。
(文章来源:润建股份) 2025年5月28日,润建股份有限公司与环江毛南族自治县人民政府正式签署战略合作协议。此次政企合作聚焦于城市AI生态建设,致力于借助人工智能技术为县域数字化高质量发展注入全新动能。 签约仪式现场,环江毛南族自治县党委副书记吴履伟、党委常委副县长聂云鹏,县发改局、大数据局、文旅
多模态大模型在处理单张图像时已经表现得相当出色,但一旦涉及长序列图片的理解,挑战便接踵而至——计算成本急剧上升,信息丢失也几乎难以避免。那么,如何突破这一瓶颈?近期,阿里开源的mPLUG-Owl3提出了一种颇具巧思的解决方案。它不仅擅长单图任务,更重要的是,在面对长图文序列、混合图文内容乃至长视频场
- 日榜
- 周榜
- 月榜
热点快看
