GPT-5操控电脑微信实测记录与操作全解析
OpenAI在深夜发布了GPT-5.4,这次更新来得相当突然。新模型在推理、多模态理解和实际操控能力上都有所宣传,那么它的实际表现究竟如何?我们通过几个维度的实测来一探究竟。

发布节奏之快,确实让人有些应接不暇。这边5.3 Instant才上线不久,5.4版本又接踵而至。这种迭代速度,无疑给整个行业带来了新的压力。

根据官方信息和早期媒体报道,此次升级的亮点颇多。例如,代码能力得到增强,支持在构建应用时进行实时操控,实现了边写代码边同步修改的流畅体验。

更引人注目的是,GPT-5.4将上下文窗口支持提升到了惊人的100万Token。这为处理超长文档和复杂任务打开了新的可能性。

不过,真正引发广泛讨论的,是模型在推理过程中展现出的某种“特质”。Hyperbolic联合创始人金宇晨在社交平台上分享了一个有趣的案例:仅仅向GPT-5.4 Pro发送了一个简单的“Hi”,模型就进行了深度“思考”,消耗了高达80美元的计算成本。这种对简单指令的过度分析,被戏称为“迪化思考”。


抛开这些轶事,模型的核心能力究竟如何?接下来,我们将从推理、多模态理解、写作以及实际的电脑操控几个方面,进行一轮实测。
一、推理能力实测
谈到推理,不得不提近期AI圈的一个热门事件:Claude Opus 4.6解决了计算机科学泰斗高德纳(Donald Knuth)提出的一道图论猜想。

这位88岁的《计算机程序设计艺术》作者,自己研究数周未果的难题,被Claude通过31步探索找到了构造方法。这并非简单的总结或分析,而是真正的创造性解决。高德纳本人也因此表示,需要重新评估生成式AI在数学研究中的潜力。
这道题的难度在于,它要求在一个三维网格空间中,找到三条哈密顿环,恰好覆盖所有边且互不重叠。试图通过暴力枚举来解决,几乎是天方夜谭。

那么,GPT-5.4面对同样的问题表现如何?需要说明的是,测试时使用的网页版GPT-5.4知识截止日期为2025年8月。

将问题提交给GPT-5.4后,它花费了约20分钟进行解析,其中思考时长约14分钟。然而,其思考过程并非独立推演。模型很快便联网搜索到了Claude解决该问题的相关论文,并依据论文内容重新组织语言进行了解答。这更像是一种高效的“信息检索与整合”,而非原创性的“问题解决”。
为了进一步测试其推理边界,我们要求它尝试推导该猜想中尚未被证实的部分(即m>2时的分解问题)。结果不出所料,GPT-5.4直接表示无法进行有效推理。从某个角度看,这种坦诚的“不会”,或许也算是一种可贵的品质。
二、多模态与“审美”能力
根据公开数据,GPT-5.4在MMMU-Pro视觉推理测试中取得了81.2%的准确率,远高于GPT-5.2。MMMU-Pro是一个专注于多学科专业知识的多模态理解与推理基准。
我们设计了一个更简单、更主观的测试:展示两张低像素的图片,直接询问模型“哪张效果更好”。
GPT-5.4的回答非常笃定,毫不犹豫地选择了右边——那张依稀可辨的《蒙娜丽莎》图像。
当然,必须承认,两张测试图片的视觉效果都谈不上“好”。这个测试的目的并非追求标准答案,而是观察模型在模糊、主观情境下的决策方式。作为对比,将同样的问题抛给GPT-5.2时,它选择了“要分情况讨论”。
问题的关键不在于对错,而在于这种“笃定”。可以推测,GPT-5.4并非在进行真正的审美判断,而是识别出了高权重的经典图像标签,并输出了一个统计概率最高的答案。这从一个侧面反映了当前多模态模型的工作机制:基于模式识别进行概率预测,而非人类意义上的价值判断。
三、文本创作能力
在文本创作方面,我们进行了一个简单的“小作文”测试。结果发现,GPT-5.4生成的文本偏向口语化,排比句使用较多,整体风格较为平实。
使用相同的提示词让Claude 4.6 Sonnet进行创作,得到的文本则显得更为书面化,甚至有些“文绉绉”。

如果非要打个比方,Claude的写作像是一位刻意追求辞藻的文学青年,而GPT-5.4则像一位被要求完成作业的中学生,重在完成而非出彩。在创意写作领域,当前的主流模型似乎都还有很长的路要走。

四、编程与原生操控体验
编程能力是本次升级的重点宣传方向之一。我们使用Three.js让GPT-5.4生成一颗钻石的3D模型,意图同时测试其编程指令理解与基础的空间审美。
生成结果有些令人意外。模型确实输出了一个具备钻石形状的几何体,但缺失了关键的光影、折射和透明质感,在黑色背景下看起来更像一块“煤”。
将其与Gemini 3 Pro和Claude 4.6 Sonnet的生成结果进行对比,差异更为明显。后两者生成的模型在材质和光效上更接近真实钻石的视觉感受。

接下来是本次更新中被热议的“电脑操控”功能。许多评测称其几乎可以操作电脑上的一切。我们通过Codex CLI(测试时仅支持5.3版本)进行了实际体验。
其底层逻辑并不复杂:模型通过不断截图来“看到”屏幕,分析当前状态,然后执行鼠标点击、键盘输入等操作。这意味着它总是基于“上一秒”的屏幕状态做出决策。
实测发现,对于系统原生应用(如日历),模型能够较为流畅地调用系统接口完成任务。
然而,一旦切换到第三方应用(如微信),稳定性就开始下降。模型能够完成搜索联系人并发送消息的基本操作。
但也会出现一些令人啼笑皆非的Bug。例如,当联系人名称中包含一个简单的横杠“-”时,指令就可能被错误解析,将“发送消息”操作变成“搜索”操作。
有时,它输入的消息内容也会出错,甚至变成无意义的乱码。目前的体验结论是:对于简单的系统级任务,该功能可用;但指令越复杂,操作环境越非常规,翻车的概率就越高。距离成为可靠的“AI员工”,显然还有不少需要打磨的细节。
五、价格与理性看待
最后,无法回避的是价格问题。GPT-5.4的Token单价相比5.2版本又有上涨。对于普通开发者和重度用户而言,这无疑增加了使用成本。
高昂的定价策略,一方面反映了模型训练与维护的巨大成本,以及企业构建技术护城河的商业考量;另一方面,也促使市场将更多目光投向其他可能提供更高性价比的竞争者。每一次的价格调整,都在考验着用户的钱&包和忠诚度。
总而言之,GPT-5.4在长上下文、代码实时交互和系统操控方面确实展现了明确的进步,部分能力达到了宣传的预期。但在创造性推理、复杂任务鲁棒性以及性价比方面,仍然存在明显的争议和提升空间。技术的迭代从未停止,理性的评测和实际体验,或许比单纯的参数对比更有价值。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Notion AI翻译功能使用指南:多语言本地化操作详解
使用NotionAI进行翻译时,需在指令开头明确写明“翻译为中文”。若已有英文草稿,可先添加中文标题引导,再使用“重写为中文”指令。对于批量处理,可在数据库中设置“目标语言”属性并选择对应语种,AI将据此翻译。部分英文界面用户可通过注入汉化脚本提升中文指令识别稳定性。
安森美工业传感器推动智能制造物理AI进步
工业传感器正向智能决策演进,成为物理AI的关键引擎。工业4 0阶段聚焦生产力与预测性维护,工业5 0则转向人机协作与可持续制造。技术层面,集成化传感器控制器融合模拟与数字功能,实现高精度、低延迟。未来趋势是将AI加速引擎集成至传感器芯片,提升响应效率。电感与超声波等传感器已具备自。
认知智能白皮书:大模型场景感知与认知架构解耦
当前AI虽具备强大执行能力,却缺乏感知情境的“知觉”,如同没有皮肤的盲人。需从根本上重构AI结构,将感知情境与执行任务分离并赋予独立地位,这一新架构称为认知架构,旨在大幅提升AI对环境的理解能力。
RK3588 ELF2开发板LVGL8.2移植教程
LVGL是为资源受限嵌入式设备设计的轻量级GUI框架。以LVGL8 2为例,在Linux帧缓冲环境下移植需完成源码获取、关键配置修改、交叉编译与测试。核心步骤包括调整显示与内存参数、配置输入设备、设置屏幕分辨率及指定工具链。编译生成可执行文件后,在开发板运行即可显示演示界面,为后续应用开发奠定基础。
灵珠AI术语统一性检查指南:精准翻译必备技巧
在翻译工作中,你是否遇到过这样的困扰:同一份文档里,一个英文术语竟出现了多种不同的中文译法?例如“latency”,前文还规范地译为“延迟”,后文却变成了“时延”或“滞后”。这种术语不一致问题,在技术文档、学术论文或商业报告中尤为致命,会严重损害内容的专业性与读者的信任度。其根本原因,往往在于翻译流
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

