上海交大团队解析AI数学解题视觉识别错误原因
看到一道几何题或物理图表,我们通常能迅速抓住关键信息。但你是否想过,那些号称“智能”的AI模型,在面对同样的STEM(科学、技术、工程、数学)图像时,为何总会犯一些令人费解的低级错误?
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

答案可能比想象中更简单,也更碘伏直觉。一项由上海交通大学、阿里巴巴达摩院Qwen团队等多家机构联合开展的研究,于2025年3月发表在arXiv预印本平台(论文编号:arXiv:2603.10757v1),首次系统性地揭示了问题的核心:AI在STEM领域的失误,主要症结并非“不会推理”,而是“看不清楚”。
这个结论挑战了长期以来的主流认知。过去,研究者们普遍将AI在数理问题上的短板归咎于逻辑推理能力不足,并投入大量资源试图增强其“思考”能力。然而,上海交大的团队通过精巧的实验设计,将视觉感知与逻辑推理过程剥离开来,意外地发现,视觉理解才是真正的瓶颈所在。
基于这一洞察,研究团队提出了一个创新概念——“代码驱动感知”。其思路直指要害:既然用自然语言描述复杂的STEM图像存在天然的模糊性和信息损耗,何不让AI使用更精确的编程语言来“看懂”图像?这相当于为AI配备了一副数学语言的“眼镜”,使其能超越文字描述的局限。
围绕这一理念,团队开发了名为CodePercept的创新框架,并构建了包含100万个图像-文字-代码三元组的大规模数据集ICC-1M。更重要的是,他们建立了一个全新的评测基准STEM2Code-Eval,其核心要求是:AI不仅要“看懂”图像,还必须生成可执行的Python代码来完美复现它。这为评估AI的视觉理解能力提供了一个严格且可验证的新标准。
一、被低估的“视力”问题
理解这项研究的意义,不妨做个类比。诊断一个病人,病因可能在于视力模糊,也可能在于知识匮乏。要找出真相,需要设计隔离变量的实验。
研究团队正是如此操作的。他们设计了两阶段测试:第一阶段让AI描述图像内容(测“视力”),第二阶段基于描述进行解题(测“推理”)。通过分别增强这两个阶段的能力,结果令人惊讶。
当AI模型的参数规模从40亿扩展到320亿时,无论何种配置,增强视觉感知能力带来的性能提升,都远超过单纯增强推理能力。这好比给近视的医生配一副精准的眼镜,其效果远胜于塞给他更多的医学专著。
这一发现在MathVision、MathVista、MathVerse等多个数学视觉推理数据集上得到了反复验证。感知能力提升带来的边际效益始终更高,这强有力地表明,AI在STEM领域的困境,根源确实在于“看不清”,而非“想不通”。
问题的本质在于,自然语言在描述精确的量化、空间和结构关系时,存在先天不足。试图用文字去定义复杂的几何图形、分子构型或物理装置,大量关键信息会在翻译过程中丢失或变得模糊。这就像用散文来描绘工程蓝图,意境或许有了,但精度必然牺牲。
这种“描述性失真”在STEM图像中尤为致命。例如,面对一个由多个几何体构成的复杂立体图,即使用人类语言也难以毫无歧义地阐明每个实体的相对位置、尺寸比例和交互关系。对人类尚且困难,对AI而言更是艰巨挑战。
二、编程语言:为AI定制的“高精度眼镜”
既然自然语言不够用,何不换一种语言?研究团队提出了一个直击要害的思路:让AI用编程语言来理解和表征图像。
这个概念其实非常直观。当程序员需要绘制一个复杂图形时,他会用代码精确指定每个坐标、线条和颜色值。这段代码不仅能完美重现图像,还天然包含了所有必要的、无歧义的数值与关系信息。
基于此,CodePercept框架应运而生。其核心是训练AI不仅能生成图像的自然语言描述,还能生成可复现该图像的Python代码。这相当于教AI用两种“语言”思考同一视觉概念:一种是人类沟通的模糊语言,另一种是计算机执行的精确语言。
可以将其类比为培养一位顶尖的临摹画家。他需要先细致观察原作(感知),再用自己的话描述它(自然语言描述),最后严格遵循技法规范将其重绘出来(代码生成)。只有当这三种能力都具备时,才称得上真正“看懂”。
为实现这一目标,团队构建了规模达100万的ICC-1M数据集。每个数据样本都包含图像、文字描述和对应代码,确保三种表示形式严格对齐。这就像为AI编纂了一部巨型“词典”,每个“词条”都同时给出了视觉、语义和符号化三种定义。
构建ICC-1M本身就是一个系统工程。团队设计了三条并行的数据生成流水线:第一条从现有STEM图像生成对应代码;第二条通过概念抽象与再实例化创造多样化变体;第三条则专门攻克立体几何图像的代码生成难题。在质量控制上,采用了类似食品安全检测的三阶段验证机制,确保每个入库样本在代码质量、图像质量及一致性上都达到高标准。
三、双重训练:从“欣赏”到“复现”的升华
有了高质量数据,如何训练AI?研究团队设计了两种创新的训练任务,它们如同艺术教育的两种路径:一是既教鉴赏也教创作,二是直接训练成为复制大师画作的技工。
第一种方法称为“代码驱动的字幕生成”。传统方法依赖其他AI模型来生成描述标签,这好比让一个可能色盲的老师去教学生辨色。若教师模型本身存在感知偏差或“幻觉”,错误便会传递给学生。
CodePercept的解决之道是,让AI先学会生成能复现图像的代码,再基于这段“绝对正确”的代码来生成文字描述。这个过程确保了描述的准确性有一个客观的“真理锚点”,从根本上避免了传统方法的幻觉传递问题。具体分为三步:生成一个初始(可能不精确)的描述;从对应代码中提取精确的视觉信息;融合两者,产出既自然又准确的最终描述。
第二种方法是“STEM图像到代码翻译”。这项任务要求AI直接将视觉图像转换为可复现它的Python代码,其挑战远超传统的图像描述。代码必须语法正确、逻辑清晰且可执行,这为AI提供了一个明确、可验证的学习目标——成功与否,运行一下便知分晓。
为进一步提升代码生成质量,团队引入了强化学习。他们设计了一个综合奖励系统,同时考量代码的可执行性、生成图像与原始图像的视觉相似度,以及代码本身的质量和可读性。这如同一位严格的导师,从多个维度给出精准反馈,引导AI持续改进。
四、革命性评测:以“重现”能力验明正身
传统AI评测往往只关注最终答案的对错,却无法判断AI是否真的“看懂”了题目。这好比仅凭考试分数判断学生是否理解知识,而忽略了其可能是死记硬背。
为此,团队创建了STEM2Code-Eval基准测试。其核心理念直观而深刻:若AI真正理解了一个STEM图像,它理应能用代码将其完美重现。这就像要求学生不仅要说出《蒙娜丽莎》的特点,还要能画出一幅逼真的仿作。
该基准包含1000个精心筛选的图像-代码对,覆盖数学、物理、化学、电子工程等多个领域。每个样本都经过严格质控,确保其Python代码能精准复现原图。
构建过程犹如制作一套高标准的考卷。团队从六个知名STEM数据集中收集图像,用先进模型生成初始描述与代码,然后进入迭代优化循环:执行代码生成图像,对比与原图的相似度,不足则修正代码。随后,根据重建质量和任务难度排序,筛选出高质量且具挑战性的候选样本。最后,由十位专家从风格、内容、功能三个维度进行五分制评分,仅平均分最高的1000个样本入选,确保了测试的权威性与区分度。
STEM2Code-Eval采用三项指标综合评估:图像评分(视觉相似度)、代码评分(代码质量与结构)、执行成功率(代码可运行性)。这三重检验确保了评估的全面与公正。
五、效果验证:代码训练显著提升AI“智商”
实验数据从多个维度证实了CodePercept的有效性。在传统STEM推理任务上,经CodePercept训练的模型表现出了稳定提升。以40亿参数模型为例,在六个主流数据集上的平均性能提升2.8个百分点。当参数增至80亿时,提升扩大到3.0个百分点。在AI领域,即便是1个百分点的提升也往往意味着巨大的努力。
更引人注目的是,经过训练的80亿参数模型,其表现甚至超越了某些参数量达720亿的模型。这好比一位训练有素的轻量级选手,击败了天赋更高但训练不足的重量级对手。
在专门的视觉感知测试STEM2Code-Eval上,优势更为明显。40亿和80亿参数模型分别实现了15.3和17.2个百分点的巨大提升。这清晰表明,代码驱动训练能实质性增强AI的视觉理解能力。
强化学习阶段的贡献尤为关键。在监督学习的基础上,强化学习为40亿和80亿模型分别带来了额外的6.5和4.0个百分点提升,证明了精心设计的奖励机制能进一步突破性能边界。
对比实验揭示了各组件的作用:三种数据生成策略(图像重现、多样化、立体几何合成)均有益,其中多样化策略贡献最显著;代码驱动字幕生成法比传统方法提升2.0个百分点,验证了“代码作为真理锚点”的核心价值。
六、立体几何:攻坚视觉理解的“硬骨头”
在所有STEM视觉任务中,立体几何图像处理一直是块难啃的骨头。它要求AI理解复杂的三维空间关系、透视变换与几何体交互,难度堪比让一个二维世界的生物理解三维概念。
为此,团队专门设计了立体几何合成流水线。他们创建了一系列参数化代码模板,覆盖了立体几何教学的典型场景:展开与折叠、三视图投影与重建、截面分析、堆叠组合、多面体构造、空间曲线与曲面积分可视化等。
这些模板如同建筑师的制图标准。每个模板定义了一类几何图形的生成逻辑,通过调整参数,可衍生出无数变体。这种基于严格数学原理的方法,从根本上保证了生成图像的几何正确性,解决了AI在生成立体几何代码时常见的错误问题。实验证明,该模块为整体性能带来了额外增益,并为处理更复杂的三维推理任务奠定了基础。
七、训练策略:分阶段锻造“全能型”AI
CodePercept的训练采用两阶段策略,类似于培养通才的教育规划:先夯实基础,再通过实践精进技艺。
第一阶段是监督学习,以Qwen3-VL系列为基础架构,联合优化图像描述生成和图像到代码翻译两个任务。这种设计让AI同时掌握用自然语言和编程语言理解视觉内容,两种表征方式互为补充。训练使用了ICC-1M中的完整三元组数据,自然语言描述帮助理解语义,代码则提供精确的结构与量化信息。
第二阶段引入强化学习,专门针对代码生成任务进行优化。团队采用了群体相对策略优化(GRPO)算法。此阶段的奖励函数设计精妙,包含三个部分:格式奖励(确保代码符合Python语法)、内容奖励(评估代码语义正确性)、执行奖励(验证代码能否成功运行并生成目标图像)。这种多维度奖励机制,如同一个导师团队,从不同角度提供学习信号,确保模型在语法、语义和实用性上均衡发展。
训练过程还融合了混合精度训练、梯度累积、Flash Attention等先进技术以提升效率,并采用余弦学习率调度与适当的权重衰减来保证训练稳定。
八、对比实验揭示的深层规律
一系列精心设计的对照实验,清晰揭示了每个组件的贡献。在数据策略对比中,图像多样化策略效果最显著,强调了数据多样性对AI训练的关键作用。
代码驱动字幕生成与传统方法的对比结果,有力支撑了“代码作为真理锚点”的理念。在STEM图像到代码翻译任务中,直接的视觉-代码映射带来了额外收益,说明代码本身也是一种有价值的视觉表征形式。
强化学习阶段的贡献分析显示,执行奖励(代码可运行)是最强的学习信号。而“先描述再生成代码”的两步法优于直接生成的一步法,这印证了“分解复杂任务”这一普适性设计原则的有效性。
九、实战表现:小模型亦可有大作为
在实际应用场景中,CodePercept的表现令人鼓舞。在MathVision数据集上,40亿参数模型相比基线提升3.4个百分点;320亿参数模型提升3.7个百分点。在更侧重视觉理解的MathVista数据集上,模型也表现出稳定的提升。
在侧重逻辑推理的LogicVista数据集上,提升尤为显著,不同规模的模型分别获得了6.3、4.7和3.1个百分点的进步。这表明,即便在逻辑推理任务中,更好的视觉理解也能带来实质性帮助。
值得注意的是模型的效率优势。经过CodePercept训练的80亿参数模型,在多个数据集上的表现超越了参数量为其九倍的某些大型模型。这对于实际部署意义重大,意味着可以用更少的计算资源获得更优的性能。
在专门的STEM2Code-Eval评测中,CodePercept在图像重建质量、代码质量和执行成功率上均展现出全方位优势,证明了其方法的全面有效性。
十、方法论启示与未来展望
CodePercept的价值远超其在特定任务上的性能提升。它提供了一种全新的方法论框架:利用更精确的符号化表征来增强自然语言的表达能力。这一理念具有广泛的拓展潜力。
从认知科学看,它验证了多模态表征学习的价值。人类理解复杂视觉信息时,会同时运用整体直觉与细节分析。CodePercept通过结合自然语言的语义能力与程序代码的精确性,为AI赋予了类似的多重表征能力。
该方法为缓解AI“幻觉”问题提供了新思路。传统视觉语言模型的描述难以验证,而CodePercept引入可执行代码作为客观标准,建立了一个可验证的“真理锚点”,从根源上减少了幻觉的产生。
对于构建高可靠AI系统,它指明了方向。在安全关键领域,AI输出需具备可验证性。CodePercept展示了如何通过设计可验证的中间表征来增强系统可信度。
在教育科技领域,它开辟了新的可能性。传统AI助教往往只给答案,而CodePercept生成的代码实质上提供了一种既精确又可执行的“解题步骤”表征,为构建更智能的教学系统奠定了基础。
展望未来,这种代码驱动的方法有望拓展至更多需要精确性的领域,如科学研究、工程设计和数据分析。特别是在科学可视化与工程制图领域,若AI能理解并生成精确技术图形,将极大提升专业工作效率。
此外,CodePercept为AI能力评估提供了新标准。STEM2Code-Eval所代表的“重现即理解”的评估哲学,可能影响未来AI评测的设计思路。ICC-1M数据集的构建方法论,也为创建高质量、高精度训练数据提供了范本。
当然,研究团队也坦诚指出了当前局限:代码生成增加了计算复杂度;对于高度艺术化或抽象化的图像,代码可能难以捕捉其神韵。这些正是未来改进的方向。
归根结底,这项研究最大的启示在于它改变了我们看待问题的方式。它告诉我们,有时解决方案不在于更复杂的算法或更大的模型,而在于重新审视问题本质。当意识到AI在STEM视觉任务上的主要障碍是感知而非推理时,答案就变得清晰:给AI更好的“眼镜”,而非更多的“书本”。
这一洞察不仅对AI研究有指导意义,也对教育和认知科学有所启发。它提醒我们,在任何学习过程中,准确的感知都是有效推理的前提。无论是人类还是机器,“看得清”永远是“想得明”的基础。CodePercept的成功,也证明了跨学科思维的价值——答案有时就藏在相邻领域的成熟方法中,关键在于拥有发现并应用它的开放心态。
Q&A
Q1:CodePercept是什么,它解决了什么问题?
A:CodePercept是上海交通大学团队开发的一种新型AI训练框架,旨在提升AI理解数学、物理等STEM图像的能力。它解决的核心痛点是,AI在处理科学图像时经常因“看不清楚”而犯错。传统方法依赖不够精确的自然语言描述,而CodePercept让AI学会用编程代码来理解图像,相当于为其配备了更精确的“视觉工具”。
Q2:为什么用代码比用文字描述图像更有效?
A:关键在于代码无与伦比的精确性与可验证性。用文字描述复杂几何图形时,很难准确传达坐标、角度、比例等量化信息。而Python代码可以精确定义每一个细节,并且这段代码是可执行的,能完美复现原图。这好比用工程图纸与诗歌描述同一座建筑——图纸虽不优美,但绝对准确无误。
Q3:普通人能用到CodePercept技术吗?
A:目前该技术主要处于研究阶段,但其应用前景广阔。未来可能集成到在线教育平台,帮助学生更直观地理解数理概念;也可能用于智能作业批改系统,准确识别学生绘制的图形与解题步骤;甚至可应用于智能设计软件,辅助工程师高效处理技术图纸。随着技术成熟,这种“看图生成代码”的能力有望成为未来AI助手的标配功能之一。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Epalea人工智能律师系统:多重证据智能分析与处理方法
2026年3月,一项由Epalea研究团队主导的突破性研究在arXiv预印本平台发布(论文编号:arXiv:2603 15674v1)。该研究提出了一个名为“潜在后验因子”(Latent Posterior Factors, LPF)的创新框架,旨在使人工智能系统能够像资深专家一样,高效、可靠地整合
马萨诸塞大学攻克AI搜索瓶颈 智能助手响应提速10%
当你向ChatGPT这类AI助手提出一个需要多步推理的复杂问题时,是不是常常会看着它反复“转圈圈”搜索,最后还可能给出一个不尽如人意的答案?这背后的症结,或许不在于AI不够“聪明”,而在于它缺乏一套高效的信息管理与整合机制。 一项由马萨诸塞大学阿默斯特分校与Adobe研究院合作完成的研究,正好切中了
中国联通AI研究院攻克扩散模型生成难题实现智能图像生成
在AI图像生成领域,一个长期被忽视的效率问题正逐渐浮出水面。当你向AI模型发出一个指令时,它往往像一个埋头苦干、却缺乏规划的工人,从头到尾都在消耗算力,但其中不少步骤可能是在“空转”。最近,一项由中国联通数据科学与人工智能研究院携手新加坡国立大学、西南石油大学等机构完成的研究,为这个问题带来了突破性
北京大学首创智能视频助手可记忆人物与动作细节
追剧时突然想不起某个角色的过往经历,或者想快速找到剧中人物穿红色衣服的片段——这是许多观众都遇到过的困扰。传统视频播放器无法满足这类需求,观众只能依靠记忆或手动拖拽进度条来寻找。而现有的人工智能技术,虽然能回答关于静态图片的问题,但在处理连续动态的视频时,往往只能分析“当前画面”,缺乏像人类一样形成
中国新能源车企如何凭借自研技术与海外市场实现逆势增长
中国新能源汽车市场的价格竞争已进入深度博弈期。近70款主流车型相继调整市场策略,行业平均利润率被压缩至3 2%,这一数据甚至低于部分传统制造业水平。在这场被业界广泛关注的行业调整中,新兴汽车品牌领跑展现出差异化的发展态势——其不仅在4月实现单月交付量超7 1万辆的突破,更在意大利纯电动汽车市场占据约
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

