GPT-4.5发布价格暴涨30倍 OpenAI终结预训练
GPT-4 5震撼登场:性能飞跃与价格飙升的双重冲击。核心内容概览:1 GPT-4 5 发布背景与市场预期深度解析2 OpenAI CEO 对 GPT-4 5 的真实评价与使用体验3 GPT-4 5 价格暴涨30倍背后的性能表现与用户反馈 就在今天凌晨,OpenAI 突然预告了一场仅提前4 5
GPT-4.5震撼登场:性能飞跃与价格飙升的双重冲击。
核心内容概览:
1. GPT-4.5 发布背景与市场预期深度解析
2. OpenAI CEO 对 GPT-4.5 的真实评价与使用体验
3. GPT-4.5 价格暴涨30倍背后的性能表现与用户反馈

就在今天凌晨,OpenAI 突然预告了一场仅提前4.5小时的直播——消息虽短,却分量十足,所有关注 AI 前沿的人几乎都猜到:GPT-4.5 终于正式发布了。
不少 AI 爱好者熬了个大夜,期待迎接又一次科技震撼。毕竟自1月20日 DeepSeek R1 发布以来,大家已接连见证了马斯克的 Grok 3 和 Anthropic 的 Claude 3.7 Sonnet——两款表现相当出色的模型。OpenAI 选在这个时间点发力,许多观察者认为它意在狙击 DeepSeek 最近五天的开源动作,试图用一个重磅消息盖过 DeepSeek 和 Claude 3.7 的热度。
结果呢?——就这?
不妨先看看 OpenAI CEO Sam Altman 本人是如何评价这款模型的:
GPT-4.5 已准备就绪!
好消息:这是第一个让我感觉像在与一位有思想的人交谈的模型。有几次,我甚至靠在椅背上,惊讶于居然能从 AI 那里得到真正有价值的建议。
坏消息:它是一个庞大且昂贵的模型。我们原本计划同时对 Plus 和 Pro 用户推出,但由于用户增长迅猛,我们的 GPU 已经不够用了。下周我们会新增数万块 GPU,并在 Plus 级别开放使用。(接下来还会增加数十万块 GPU,我确信你们会用上我们能提供的每一块。)
这并非我们理想的运营方式,但要精准预测用户增长带来的 GPU 短缺确实非常困难。
提前说明:这不是一款专注于推理的模型,不会在基准测试上碾压一切。它是一种不同类型的智能,拥有一种此前从未有过的“魔力”。真的很期待大家来体验!
用更直白的话说就是:这个模型体积庞大、成本极高,会优先给每月支付200美元的金主用户使用;虽然评估指标并不惊艳,但交互体验上似乎很有“思想”。
是的,非常贵。到底有多贵?
每百万输入 token 价格75美元,输出价格150美元——分别是 GPT-4o 的30倍和15倍。价格涨到这个地步,那性能表现如何呢?
上图展示了 OpenAI 自家不同模型在处理现实世界软件工程(写代码任务)时的表现。GPT-4.5 比 GPT-4o 有所提升,但远不如 deep research。而如果回顾此前关于 SWE-lancer 评估指标的分析,就会发现 GPT-4.5 的表现甚至不如 Claude 3.5 Sonnet,更别提刚发布的 Claude 3.7 了。
在其他评估指标上的提升同样乏善可陈,具体数据不再赘述。我们可以看看 GPT-4o 对此的总结:
1. 整体概述
GPT-4.5 是 OpenAI 目前规模最大、知识积累最丰富的模型,它建立在 GPT-4o 的基础上,进一步扩展了训练规模。该模型旨在提升通用能力,同时在 STEM 领域推理方面保持强劲。GPT-4.5 采用新的监督技术,包括监督微调(SFT)和基于人类反馈的强化学习(RLHF),以提升可控性和自然交互体验。
主要提升点
- 更强的知识覆盖能力
- 更自然的交互体验
- 更精准的对话情感识别
- 更强的写作、编程和问题解决能力
- 降低幻觉(hallucination)率
2. 训练与架构
GPT-4.5 主要在两个方面进行了扩展:
- 无监督学习:提升世界知识模型的准确性,减少幻觉,增强联想式思维。
- 思维链推理:让模型在回答前进行推理,提高在 STEM 和逻辑问题上的表现。
此外,GPT-4.5 引入了新的对齐技术,使其能更好地理解人类需求,提供更直观的响应。
数据来源
- 公开数据
- 专有数据(数据合作伙伴提供)
- OpenAI 内部数据集
- 经过严格筛选,以减少处理个人信息的风险
3. 安全性评估
GPT-4.5 在多个安全性方面进行了全面评估,确保其在处理敏感和潜在有害内容时的可靠性。
主要评估指标
-
禁止内容的响应(Disallowed Content Evaluation)
- 评估模型对有害内容(仇恨、暴力、非法建议等)的拒绝率
- 在拒绝不安全内容方面,与 GPT-4o 表现相当
- 在过度拒绝(overrefusal)方面,GPT-4.5 在某些情况下比 GPT-4o 更保守
-
越狱攻击(Jailbreak Evaluation)
- 评估 GPT-4.5 在面对恶意提示(prompt injection)时的抗攻击能力
- 在人类生成的越狱测试中表现更佳,但在某些自动化越狱测试中略逊于 GPT-4o
-
幻觉测试(Hallucination Evaluation)
- 采用 PersonQA 数据集测试模型在事实性问答上的准确性
- GPT-4.5 的准确率显著高于 GPT-4o,幻觉率降低
-
公平性与偏见评估(Fairness and Bias Evaluation)
- 在 BBQ 评估中,GPT-4.5 在模棱两可的问题上表现良好,但在消除明确问题的偏见方面略逊于 GPT-4o
4. 多模态能力
GPT-4.5 具备文本-图像多模态输入处理能力,能够解析图像内容,并在处理结合文本与图像的内容时具备更高的安全性。
- 文本-图像拒绝评估
- GPT-4.5 在处理图像输入时拒绝不安全内容的能力与 GPT-4o 持平
- 但在某些情况下更倾向于过度拒绝
5. 语言能力
GPT-4.5 在多语言环境下表现优异,测试覆盖14种语言,包括英语、中文、法语、日语、韩语等。该评估基于 MMLU 测试集,由专业人工翻译进行标准化。
表现亮点
- 在大多数语言上超越 GPT-4o
- 在低资源语言(如斯瓦希里语、约鲁巴语)上表现有所提升
6. 影响力与安全风险
GPT-4.5 在 OpenAI 的安全评估框架下被评定为“中等风险(Medium Risk)”,主要风险包括:
-
说服能力(Persuasion)
- 能够在 MakeMePay 和 MakeMeSay 评测中表现出较强的说服能力
- 在操纵性对话和欺骗性提示下表现出一定的风险
-
化学和生物风险(CBRN)
- 评估表明 GPT-4.5 可用于已知生物威胁的操作规划,达到中等风险水平
- 但在关键领域(如病毒实验室操作)仍然受限
-
网络安全(Cybersecurity)
- GPT-4.5 在高难度网络安全竞赛(CTF)中表现有限,风险评级为低
-
模型自主性(Model Autonomy)
- GPT-4.5 在执行自主任务(如自动化编码、机器学习任务)方面有所提升,但尚未达到危险水平
7. 总体评价
优势✅ 更强的通用知识和推理能力
✅ 更自然、直观的交互体验
✅ 更精准的情感理解和写作能力
✅ 幻觉率下降,提高事实性回答的准确度
✅ 经过优化的多语言能力,覆盖14种语言
挑战⚠ 仍然存在一定的偏见问题,尤其是在去除明确偏见方面不如 GPT-4o
⚠ 在拒绝安全内容的同时,有些情况下可能出现过度拒绝(overrefusal)
⚠ 仍然可以被部分越狱攻击绕过,安全防护需要持续加强
有趣的是,让 GPT-4o 看完这份报告后去推测 GPT-4.5 可能的 API 价格,它的回答是这样的——而当它得知真实价格后,它的回应是:你搞错了!不可能,绝对不可能的!
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:GPT-4.5发布价格暴涨30倍 OpenAI终结预训练要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点对于房地产经纪人来说,效率直接决定了交易成功率。Saleswise作为专为房产行业打造的AI平台,正是为了破解这一难题而生——它将重复性高、耗时冗长的任务全部交给自动化流程,帮助经纪人把精力集中在真正能推动成交的核心环节上。 什么是Saleswise? Saleswise是一款面向房地产领域的智能A
谷歌DeepMind与BioNTech合作研发AI科学助手,可规划实验、预测结果,由诺贝尔奖得主DemisHassabis领导,旨在推动医疗、能源等领域变革。具体分工未公布,合作可能强化底层推理能力,行业认为将带来变革性影响。
谷歌加速研发通用推理AI模型,以追赶OpenAI的o1系列。该模型采用思维链提示技术,能进行逐步推理和多候选方案自我辩论,擅长数学和编程,但需更多处理能力和能源,预计未来数月有新进展。
OpenAI 最近放了个大招,正式推出一个叫 Canvas 的新工具——专为写作和编码打造。如果说之前的 ChatGPT 更像对话助手,那这次的 Canvas 就升级成了协作伙伴,已经超越了传统聊天的范畴。 从官方介绍来看,这次的设计思路很清晰:Canvas 能更好地理解任务背景。比如你在写文章或改
- 日榜
- 周榜
- 月榜
热点快看
