面包屑图标 当前位置: 首页
AI资讯
热点详情

ICLR紧急勘误:苹果论文30%基准数据出错的背后与应对

AI热点日报
AI热点日报时间:2025-12-01
热点解读

ICLR2025一轮审稿刚结束,苹果一篇号称“小模型超越GPT-5”的视觉推理论文即遭公开“处刑”。阶跃星辰研究员Lei Yang在复现过程中发现:最新代码漏掉图片输入,修复后准确率反而暴跌;随即抽

正当ICLR 2025首轮审稿落幕的节点,苹果一篇号称“小模型超越GPT-5”的视觉推理论文突遭公开“审判”。跃星实验室研究员Lei Yang在复现过程中惊讶地发现:最新代码竟遗漏了图像输入模块,待团队修复漏洞后,模型准确率不升反降;随机抽取的20道测试题目中,更有6道参考答案存在标签错误——综合推算整组测试集的Ground Truth错误率已逼近30%。

Lei Yang随后在GitHub提交issue说明问题,仅收获两句官方回复便被火速关闭讨论,促使他连夜撰写长文向审稿人发出警示。事件持续发酵后,研究团队次日迅速发布声明,承认存在“数据生成流程设计缺陷”,并紧急上架修正版基准代码,承诺重新开展实验并更新结果。这场风波再次引发学界对数据质量的深度反思:在大模型自动生成数据集渐成主流的当下,若缺乏人工核验环节,纵使顶尖团队的成果也可能面临“翻车”风险。Lei Yang更以亲身经历提醒同行:“复现前务必对小样本数据进行‘体检’,别让错误标签白白消耗珍贵的算力与时间”。

参考资料:https://x.com/diyerxx/status/1994042370376032701

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:ICLR紧急勘误:苹果论文30%基准数据出错的背后与应对要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.itbear.com.cn/html/2025-12/1035029.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-05 19:47
OmniParser基于AI的解析工具

OmniParser是微软AI驱动的SaaS工具,基于YOLOv8和BLIP-2,将UI截图与漫画页面解析为结构化数据,支持UI元素检测、漫画面板分析、对话框及人脸识别,适用于自动化测试、漫画翻译等场景。

AI热点2026-07-05 19:47
通义灵码智能编码助手助你高效编程

通义灵码是贯穿开发全流程的智能编码助手,具备代码智能生成、研发智能问答、多编程语言及编辑器支持、代码安全隐私保障四大核心能力,适用于学生、新手及企业开发者等多类人群,提升编码效率。

AI热点2026-07-05 19:47
基于AI的自动化道路巡逻与资产数据收集方案

基于人工智能的自动化道路巡逻和资产数据收集方案,通过车载相机自动采集路面及周边资产数据,识别裂缝、坑槽等病害并建立数字化台账,同时自动删除隐私图像,实现从被动响应向主动预防的转变,降低巡检成本。

AI热点2026-07-05 19:47
通义智文AI助你高效阅读全网文章

阿里旗下通义智文是一款智能阅读工具,支持网页、论文、图书和自由阅读四种场景,帮助用户快速提取核心观点,节省阅读时间,适合学生、研究人员及职场人士高效处理大量文本。

延伸阅读