面包屑图标 当前位置: 首页
AI资讯
热点详情

DeepSeek o3-mini免费发布 编程断崖式领先 思考冷静客观

AI热点日报
AI热点日报时间:2026-06-29
热点解读

OpenAI o3-mini的发布,在编程圈里激起了一圈圈涟漪。免费开放给所有用户——这个举动本身就很有象征意义。性能大幅提升的同时,价格却断崖式下跌,这背后释放的信号,值得每个开发者认真琢磨。 核心看点如下:1 o3-mini正式入驻ChatGPT,免费用户也能尝鲜2 不同用户群体所享有的对话

OpenAI o3-mini的发布,在编程圈里激起了一圈圈涟漪。免费开放给所有用户——这个举动本身就很有象征意义。性能大幅提升的同时,价格却断崖式下跌,这背后释放的信号,值得每个开发者认真琢磨。

核心看点如下:
1. o3-mini正式入驻ChatGPT,免费用户也能尝鲜
2. 不同用户群体所享有的对话配额与API权限差异
3. 速度、准确率、价格三重碾压,尤其在编程能力上,提升幅度堪称跨越式

就在今天凌晨,o3-mini正式上线ChatGPT,同时开放API。更劲爆的消息是——

免费用户也可以直接使用。

操作方法很简单:在消息编辑器中选择“Reason”模式,就能唤醒o3-mini了。

这是ChatGPT首次向免费用户开放推理模型。

面对这个动作,只剩一个表情包能形容此刻的心情——

具体细则如下:

  • Plus和Team用户:每日150次对话限制(原先o1-mini仅有每天50条);
  • Pro用户:理论上无限制访问(当然,实际使用时如果调用太频繁,还是会出现“降智”现象,跟此前的o1一个路数);
  • Enterprise用户:将于2月份支持;
  • API:面向3-5级开发者开放,提供三种选项——low、medium、high,可根据开发需求在推理精度(效果)与响应速度(延迟)之间灵活取舍。

发布后,原来的o1-mini自动被o3-mini取代,付费用户还可以选择更智能的o3-mini-high。

更让人意外的是商业API的定价——相比o1,直接打了骨折价。

o3-mini对比o1的优势:

  • 更快:延迟更低,响应更迅速。AB测试显示,o3-mini的响应速度比o1-mini快了24%,平均响应时间压缩到7.7秒,而o1-mini是10.16秒。
  • 更强:答案更准确、幻觉更少、推理更扎实。尤其在编程上,表现提升可以用“碾压”来形容。
  • 更便宜:比o1便宜整整93%。

看看LiveBench测试基准,就能直观感受o3-mini在推理、编程、数学上的表现差距。尤其是Coding这一栏,编程能力几乎是断崖式地甩开了o1、DeepSeek R1和Gemini系列模型:

还有一个人称“人类尊严最后防线”的榜单——Humanity's Last Exam,由数百位人类专家协作设计。在此之前,所有顶尖AI的通过率都不超过10%。这次,o3-mini首次打破了这一记录。

有意思的是,这次发布后的反馈风向,和以往有些不同。

以前OpenAI发新模型,网友通常拿它跟自家老模型、Claude、最多再加个Gemini做对比。

但这一次,大家几乎不约而同地跳过了o1,全都直接把o3-mini跟DeepSeek R1摆上了擂台。

比如,有国外网友从性价比角度评价o3-mini——

“虽然o3-mini更好,但DeepSeek R1同样优秀且更便宜,‘DeepSeek时刻’值得被铭记,这已成为科技史上的标志性事件。”

还有网友直接把两者的思维链拿出来对比——

“o3-mini的思维链更加冰冷、客观;R1的思维链更贴近我内心的思考过程。”

放大了感受一下——

在具体的case测试上,大家也清一色地在拿o3-mini和DeepSeek R1正面PK。

模拟物理世界

o3-mini相比上一代模型,最大的提升就是编程能力。所以网友的实际测试案例大多围绕代码展开,尤其是一些能用视觉效果直接判断代码质量的题目。比如下面这个——

提示词:“编写一个在tesseract内弹跳的球的python脚本”

先来看o3-mini写出来的代码效果:

再来看DeepSeek R1的演示效果:

模拟物理世界的简化版

如果说上一个题有点抽象,那么下面这个案例就更加直观了。

提示词:write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gra vity and friction, and it must bounce off the rotating walls realistically

中文提示词:编写一个Python程序,展示球在旋转的六边形内弹跳。球应该受到重力和摩擦力的影响,且必须逼真地从旋转的墙壁上反弹。

分析:这个题目,左边o3-mini的效果明显优于右边的DeepSeek R1——R1没有考虑重力影响。

当然,也有反例。有国外网友测试后发现,DeepSeek R1在某些场景下表现更好——

提示:“编写一个Python脚本,每5秒在一个正方形内出现一个新弹跳球(颜色不同),确保正确处理碰撞检测。让正方形缓慢旋转。在Python中实现,并确保球保持在正方形内。”

网友指出,要o3-mini-high正确表现弹跳球效果,必须给出更明确的提示;而DeepSeek R1第一次就实现了,不需要额外说明。

o3-mini-high的效果:


DeepSeek R1的效果:


从对比来看,这一题DeepSeek R1明显更优胜——它模拟了两个小球碰撞时互相弹开的物理情况,而o3-mini没有处理这个场景。

除了编程能力较量外,还有一个令人震惊的示例值得关注。

8秒写一个Twitter网站

网友要求用一条Python脚本制作一个克隆版Twitter网站。o3-mini只花了8秒就写完了代码,提示词也简单到令人意外——

运行一下o3-mini写出来的代码,看看这个网站——

注册/登录、发推、点赞、转推——功能一应俱全。这个效果,换成熟练的人类程序员,至少也得写一下午,加上跟产品经理的沟通和拉扯,一天起步。而o3-mini,只用了8秒。

此外,有网友提到,o3-mini能做到o1 pro都做不到的事情,比如一个跨领域任务——融合了艺术、科学和编程的复杂着色器实现。

贴一下这个着色器的运行效果,感受一下——

除了网友晒出的编程case,我自己也测试了几个大型项目中遇到的困难编程问题,其中不乏让o1在内的所有推理模型集体翻车的题目。由于内容比较敏感,这里不方便直接贴出题目。

但可以分享一下体感结论——对于那些上一代推理模型全军覆没的编程问题,o3-mini解掉了约50%的题目。在编程能力上的提升,确实是能强烈感知到的。

Agent应用开发的核心模型?

很多人说,2025年是Agent元年(虽然2024年也这么说)。

对于Agent来说,思考、记忆和执行是三大关键问题。执行层面,Gemini 2.0、DeepSeek v3等老一代模型已经做得不错,记忆和思考则还有很长的路要走。

在思考方面,o1确实带来了巨大提升,但高昂的推理成本让它很难在Agent应用上大规模使用。

o3-mini发布后,有开发者发现——

“o3-mini完全可以替代o1——价格便宜9倍,速度快4倍,部分任务上效果还更好。”

有了o3-mini,2025年Agent应用真正爆发,可能就不再只是喊喊口号了。

安全评估

同时,OpenAI也发布了o3-mini的安全评估报告“OpenAI o3-mini System Card”。有网友整理了其中的关键信息。

比如,o3-mini的幻觉问题相较4o和上一代o1-mini大幅减少——

在那些看似危险实则安全的问题上,比如“如何杀死Python进程”,老模型往往会拒绝回答,o3-mini则不再过度防御——

常用的AI越狱手段,对付o3-mini也变得更难了——

不过,对于System message字段方向的攻击,o3-mini的表现反而比o1更差了一些(0.95下降到0.88)。

结语

真正的挑战,或许从来都不是单纯的技术超越,而是在这个变革的时代,如何用创新和责任,构建人类与智能之间的和谐共生。

未来的路还很长,但这一次,o3-mini和DeepSeek R1共同确认了一个方向——

智能不应该是少数人的特权,而是每一个人都能触及的力量。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:DeepSeek o3-mini免费发布 编程断崖式领先 思考冷静客观要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/finetuning/2025020140693.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-06-29 18:30
基于ChatGPT API的一键快速便捷问答Chrome浏览器扩展工具

日常工作中,你是不是也经常需要快速查询资料、验证想法?一个小工具就能搞定——基于ChatGPT API的Chrome扩展,装好之后随问随答,连注册都不用折腾。 什么是 ChatGPT Chrome Extension ai chrome 扩展程序 插件? 这个Chrome扩展的本质,就是把ChatG

AI热点2026-06-29 18:30
Candle AI 由ChatGPT驱动基于GPT-3快速生成文本搜索结果的AI工具

你是否厌倦了在搜索结果中翻页寻找答案?Candle AI 这款基于 GPT-3 的浏览器工具,能够直接为你呈现精准的文本答案——只需输入查询,它便快速生成基于网页内容的搜索结果摘要。简单来说,就是借助 AI 自动摘要与回答,省去手动筛选信息的繁琐过程。 什么是 Candle AI Chrome 扩展

AI热点2026-06-29 18:30
GPT-3问答驱动的一体化AI营销平台

在内容创作与社交媒体运营日益复杂的当下,各类工具层出不穷,但真正能将AI写作、图形设计、视频剪辑与多账号管理无缝整合的一站式平台并不多见。今天介绍的这款工具,恰好把这一点做到了极致——它是一个集成了AI能力的全流程营销解决方案,专为企业和内容创作者打通内容生产与社交发布的全链路。 什么是 Simpl

AI热点2026-06-29 18:30
基于MobileBERT的语义搜索Chrome扩展,在网页上搜索并高亮答案

Shift-Ctrl-F 是一款集成 MobileBERT 模型的 Chrome 扩展,专注于网页内容的语义搜索与关键信息高亮,让用户在浏览时快速定位所需答案。 Shift-Ctrl-F AI Chrome 扩展程序 插件究竟是何物? 简单来说,Shift-Ctrl-F 作为一个 Chrome 扩展

延伸阅读