面包屑图标 当前位置: 首页
AI资讯
热点详情

Fable 5刷新AI自由职业基准纪录 但难取代人类

AI热点日报
AI热点日报时间:2026-07-04
热点解读

近日,据报道,Fable5在RLI基准测试中实现16 1%自动化率,创下新纪录,大幅超越了此前最佳成绩。但安全顾虑及复杂计算机操作技能瓶颈仍然限制AI全面替代人类自由职业者,全面替代仍需克服这些障碍,短期内无法完全达成。

先说几个核心判断:Fable 5回来了,而且一回归就刷新了历史纪录。

经过短暂暂停之后,Anthropic旗下的Fable 5模型重新上线,同时将AI自动化工作的性能天花板再次向上抬高。美国政府于6月30日正式批准恢复使用。Anthropic表示,Fable 5在能力上与仅对特定机构开放的Mythos 5大致相当。而在这次重新上线之前,AI安全中心(CAIS)已在远程劳动指数(RLI)基准上对其进行了测试——结果令人瞩目。

Fable 5创下AI自由职业基准新纪录,但尚无法完全取代人类

这个RLI基准衡量的是“AI智能体完成真实、具有经济价值的自由职业项目的频率,且完成质量须达到付费客户的实际验收标准”。测试涵盖计算机辅助设计、平面设计、数据分析、视频制作等多个领域。每个模型的输出都由人工评估员对照专业标准进行评分,最终的自动化率反映的是“AI输出被评估为达到或超过人类专业水准”的项目占比。

CAIS让Fable 5、GPT-5.5和Opus 4.8分别完成了一系列任务——包括设计订婚戒指的3D效果图、制作视频广告、绘制平面图等。研究人员为每个模型提供了人工生成的输入文件作为起点,这与人类自由职业者拿到需求文档后开始工作,本质上没有区别。

结果呢?Fable 5交出了一份惊艳的答卷:自动化率达到16.1%,创下该基准的历史新高。相比之下,Opus 4.8为8.3%,GPT-5.5为6.3%。但CAIS特别指出,三款模型的表现都超过了此前所有测试过的模型。作为参考,此前公开的最高纪录是4.17%(Opus 4.6配合Claude Cowork框架),而RLI发布时全行业最高也仅为2.5%。换句话说,在不到八个月的时间里,前沿水平已经提升了四倍以上。这说明什么?说明AI经济型智能体的能力正在快速跃进,速度远超多数人的预期。

这里还有个小插曲。由于政府在6月中旬暂停了Fable 5的使用,测试一度中断。但即便把这些不完整的结果算进去,Fable 5依然轻松胜出。CAIS的研究人员直言:“即使在最差的假设下——即Fable 5未完成的所有项目全部视为失败——其自动化率也将达到14.6%,依然高于任何其他模型。”

进步确实惊人,但冷静下来思考:16%离100%还差得很远。这意味着自由职业岗位短期内不会全面被取代。而且,AI的进步虽然显著,但对大多数机构来说,安全顾虑及其他采用障碍,往往导致整合AI成为一个缓慢、多步骤的过程——至少在初期如此。要完全取代人类自由职业者,机构可能需要构建一个由多个智能体组成的协作网络,用于检查工作质量、预算和进度等要素。这中间的权衡,远不是简单的一对一替换能解决的。

更有意思的是,CAIS还尝试过用“大语言模型裁判”替代人工评估员——就是想看看在整个流程中能不能彻底甩开人类。结果呢?失败了。CAIS解释道:“评估一项RLI交付物本身就是一项复杂的智能体任务。要做到恰当评估,需要在正确的专业应用程序中打开项目文件,熟练操作这些应用程序,并以客户的视角做出判断——而这些计算机操作技能,恰恰是当前智能体最薄弱的地方。”

不过话说回来,随着AI能力的持续提升,部分已经成功整合AI的企业,确实有可能逐步压缩特定自由职业岗位的机会。而且,如果计算机操作技能是当前的主要瓶颈——而行业又在持续加大对智能体模型的投入——那么这个障碍终将被消除。从其他衡量智能体能力的基准上模型的进步速度来看,这一天或许会比我们预想的更早到来。

在时间维度上,CAIS还发现了一个有意思的现象:一项任务对人类耗时越长,并不意味着AI完成起来就越困难。这个时间维度分析在编程领域成立,但在RLI所涵盖的更广泛远程任务类型中并不适用。目前,从中得出明确的未来结论仍然困难。CAIS写道:“某些对熟练专业人员而言只需片刻的工作,AI仍难以胜任,例如乐谱转录或实时游戏的可玩性测试;而另一些需要人类耗费数小时的工作,如数字艺术创作或编程,当前模型却能在数分钟内完成。”

能力分布的不均衡,恰恰是当前AI最真实的写照。

Q&A

Q1:远程劳动指数(RLI)是什么?它如何衡量AI的工作能力?

A:远程劳动指数(RLI)由AI安全中心(CAIS)于2025年10月发布,用于衡量AI智能体完成真实自由职业项目的频率,且要求完成质量达到付费客户的验收标准。测试项目涵盖平面设计、数据分析、视频制作等多类任务,每项交付物均由人工评估员对照专业标准打分,最终的自动化率反映AI输出达到或超过人类专业水准的项目占比。

Q2:Fable 5在RLI基准测试中取得了怎样的成绩?

A:Fable 5在RLI基准测试中取得了16.1%的自动化率,创下该基准的历史新高,是Anthropic Opus 4.8(8.3%)的近两倍,也远高于OpenAI GPT-5.5的6.3%。CAIS指出,此前公开的最高纪录仅为4.17%,而RLI发布时全行业最高也只有2.5%,这意味着在不到八个月的时间里,前沿水平已提升至原来的四倍以上。

Q3:AI目前为什么还无法完全取代人类自由职业者?

A:目前AI的自动化率仍仅为16.1%,距离全面替代还有很大差距。此外,安全顾虑和整合难度使企业采用AI的过程较为缓慢。要完全替代人类自由职业者,还需要构建由多个智能体协同工作的网络来处理质量、预算和进度等问题。同时,AI在计算机操作技能方面仍较薄弱,某些对人类来说轻而易举的任务,AI目前依然难以完成。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Fable 5刷新AI自由职业基准纪录 但难取代人类要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://ai.zhiding.cn/2026/0703/3192335.shtml
ai

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-04 19:00
Daetama数据科学完整准备工作系统指南与精选学习资源汇总

Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。

AI热点2026-07-04 19:00
AI驱动配音平台 Speakmulti

SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。

AI热点2026-07-04 18:59
Umi-OCR图片转文字识别软件

需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,

AI热点2026-07-04 18:59
用AI生成你最爱的画家或艺术运动风格绘画

艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来

延伸阅读