AI看图编程测试表现平平形状代码测试台结果分析

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

AI看图编程测试表现平平形状代码测试台结果分析

热心网友时间：2026-05-21

转载

一项研究测试了AI根据几何图形图片生成绘图代码的能力，使用ShapeCodeBench自动生成题目并评分。结果显示，简单场景下传统计算机视觉方法在精确匹配上占优；而在形状重叠的复杂场景中，AI模型凭借整体理解能力实现了更好的结构还原。

一项聚焦于AI“视觉编程”能力的前沿研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.11680。相关的完整数据集与评估代码已开源，存档于Zenodo平台，DOI为10.5281/zenodo.20132286。

设想这样一个任务：你面前有一张图片，上面画着两个黑色圆形和一个黑色正方形轮廓。你的目标不是描述它，而是编写一段计算机程序，让机器能够精确地复现这张图。你需要准确指定每个形状的位置坐标、尺寸大小、填充样式，精度需达到像素级别。这对人类而言颇具挑战，对人工智能系统来说，同样是一项艰巨的考验。

这正是ShapeCodeBench基准测试研究的核心目标——评估AI模型“视觉到代码”的转换能力，即给定一张图像，让模型输出能重建该图像的绘图代码。研究者将这一任务定义为“从视觉感知到程序生成的重建”，通俗而言就是“AI看图写代码”。他们构建了一套系统化的评测框架，用以全面衡量当前顶尖多模态AI在此任务上的真实性能。结论如何？结果表明：距离完美表现仍有显著差距，提升空间巨大。

一、为何需要构建专用AI绘图代码评测基准

在人工智能领域，要客观评估模型能力，离不开精心设计的“考题”，即基准测试。一套优秀的基准测试需满足几个核心标准：评分机制必须客观、公正，避免因答案表述差异而产生误判；题目需能真实反映问题复杂度的层次；同时，还需具备可持续性和防作弊能力，防止模型通过记忆训练数据获得虚高分数。

现有同类评测大多仅满足部分条件。例如，部分测试依赖人工评分，效率低下且主观性强；另一些测试的题目集一旦公开，易被模型“过拟合”，导致评估失真。这好比考试题目泄露后，学生背诵答案即可得高分，但实际能力并未得到验证。

ShapeCodeBench的设计者提出了一个创新解决方案：基于随机数种子动态生成题目。每道题均源自一个数字“种子”，只需更换种子，即可源源不断地生成全新、未见过的测试用例。从题目生成到自动评分，全过程无需人工干预，实现了全自动化评测。这相当于构建了一台能够自动出题、自动阅卷的“考试机器”，生成150道新题仅需不到一秒。

二、基准测试具体考察哪些AI编程能力

整个测试基于一套极简的“绘图指令集”。该语言仅包含四条命令：绘制实心圆、空心圆、实心正方形、空心正方形。每条指令需指定图形中心点坐标、尺寸参数，空心图形还需指定边框线宽。画布固定为512×512像素的白色背景，所有坐标与尺寸均为整数值。

一道典型题目如下：向AI模型展示一张包含实心圆与空心正方形的图片；AI需要输出两行代码，分别描述圆形的位置与半径，以及正方形的位置、边长与线宽。系统将执行AI生成的代码，渲染出新图像，并与原始图像进行逐像素比对，计算差异度。

评分体系涵盖五个维度。最严格的是“完全匹配率”，要求生成图与原图像素级完全一致，不容许任何偏差。较宽松的是“像素准确率”，计算一致像素的比例。关键指标“前景IoU”则专门评估黑色图形区域的重叠度，排除白色背景干扰，更能反映形状位置与大小的还原准确性。此外，系统还会记录AI代码能否被成功解析与执行，用以判断是否存在语法或逻辑错误。

题目按复杂度分为三个等级。简单级别包含1-3个形状，形状较大、线宽较粗，形状间无重叠，且基本不超出画布边界。中等级别包含3-6个形状，尺寸减小，允许少量边界溢出，形状可相邻但边界框重叠不超过35%。困难级别包含6-10个形状，尺寸进一步缩小，全部部分超出边界，且强制形状间存在重叠，无重叠上限约束。

这种分级设计意图明确：简单级别测试“AI能否准确识别并定位少数几个清晰独立的形状”，而困难级别则挑战“AI能否在形状相互遮挡、部分超界的复杂视觉场景下，完整还原出生成程序”。

三、参与评测的AI模型与对比方案

研究共评测了六套方案，其中两套为无AI推理能力的基础对照组，另外四套为前沿多模态AI模型配置。

第一套对照组是“空程序”，策略为无论输入何种图像，均输出空字符串。这设定了性能底线，任何有效系统都应超越它。

第二套对照组是“传统计算机视觉启发式方法”。该方法不依赖任何AI，仅使用经典图像处理技术：先将图像二值化，识别所有连通黑色区域，计算每个区域边界框的填充比例以判断实心或空心，通过形态学腐蚀进一步确认，并依据面积与周长之比估算线宽。最后，将几何估算结果转换为绘图指令输出。该方法完全基于规则计算，不涉及机器学习。

真正的AI参赛者包括四个配置，来自两家公司的顶尖模型。其一是Anthropic的Claude Opus 4.7，分别以“高推理强度”和“最高推理强度”模式参与。其二是OpenAI的GPT-5.5，分别以“中等推理强度”和“超高推理强度”模式参与。

所有AI配置均采用相同的“零样本”提示策略，即不提供任何示例，仅给出系统指令（“仅返回合法绘图代码，勿添加代码块标记、注释或说明文字”）及四个函数的格式说明。AI接收图像和文本提示后，直接生成代码，无任何预热或参考。

四、评测结果：揭示各方案优势与短板

测试结果清晰勾勒出各系统的“能力剖面”，优势与缺陷一目了然。

在最严格的“完全匹配率”指标上，传统计算机视觉方法以8.7%的匹配率位居第一，GPT-5.5中等推理强度以2.7%位列第二，GPT-5.5超高推理强度以2.0%排第三，Claude Opus 4.7两种配置的完全匹配率均为0%。空程序自然为0%。

这些数值虽低，但不同难度级别的对比更具启发性。在简单级别，传统方法以26%的完全匹配率大幅领先，而所有AI配置的最高匹配率仅约8%。进入中等和困难级别，传统方法的匹配率骤降至接近零，而AI配置虽也不高，但表现相对更稳定。

这一“交叉”现象背后的逻辑清晰：传统方法依赖于“识别独立连通区域”的操作。当形状互不重叠时，此操作极为精准，每个形状对应一个独立黑色区域，易于计算。一旦形状发生重叠，多个形状的像素区域便粘连成片，传统方法无法区分“这一片黑色实为多个重叠形状”，导致估算错误。AI模型则不依赖底层连通性，能从视觉整体上理解“此处有两个部分重叠的圆形”，因此在复杂场景下保持了更好的结构感知能力。

再看更宽松的“前景IoU”指标。GPT-5.5超高推理强度以0.865的平均值排名第一，GPT-5.5中等推理强度以0.850紧随其后，两个Claude配置约在0.44至0.46之间，传统方法为0.583。在简单级别，GPT-5.5两种配置的前景IoU接近0.87，传统方法约为0.74，Claude配置则在0.41到0.44之间。

此处出现第二个关键对比：GPT-5.5在前景IoU上全面领先，但在完全匹配率上却低于传统方法（于简单级别）。这表明GPT-5.5能大致还原形状的位置与大小，但参数估算存在数个像素的误差，导致无法实现像素级精确匹配。换言之，GPT-5.5生成的程序“大致正确”，但未能达到“绝对精确”。

Claude的表现则不同。其前景IoU在各难度级别上均低于传统方法，说明其在还原形状整体空间结构方面，甚至不及基于规则的几何计算。这是一个更为根本性的差距，不止是参数精度问题。

在代码格式合法性方面，所有AI配置的解析成功率均较高，Claude两种配置分别为98%和100%，GPT-5.5两种配置分别为97.3%和99.3%。少数解析错误主要集中于两类问题：坐标或尺寸超出合法范围，以及线宽超过了形状允许的最大值。这表明AI模型大多能生成语法正确的代码，仅偶尔对参数范围限制理解不够准确。

五、错误模式分析：AI与传统方法的失败类型

研究者对错误案例进行了系统性归类，形成了详细的“失败画像”。

对AI模型而言，失败主要分为三类。第一类是“形状识别正确，参数存在像素级偏差”，这在简单级别最常见。AI能识别出图中有一个实心圆和一个空心正方形，也大致知晓其位置，但圆心坐标输出为(245, 187)而实际是(248, 190)，或半径输出为78而实际是81。此类误差不影响视觉观感，但会导致完全匹配失败。第二类是“遮挡场景下遗漏形状”，在困难级别中，多个形状堆叠时，AI可能仅识别出外层可见形状，忽略了被完全或部分遮挡的形状。第三类是“空心与实心混淆”，当线条非常细时，AI可能将空心圆误判为实心圆。

对传统方法而言，失败的根本原因如前所述：形状连通后无法分割。此外，其线宽估算采用面积除以周长的近似公式，在形状规整时较为准确，但遇到边缘不平整或形状极小时，误差会显著增大。

从这些失败模式可见，简单级别隐藏着一个有趣挑战：对AI而言，“识别形状位置”相对容易，难在“以像素级精度输出坐标数字”。传统方法因直接测量像素坐标，在简单场景下反而占优。但这种优势在形状开始重叠时便迅速消失。

六、评测框架设计细节与可复现性保障

本研究在可复现性方面设计周密。评测集eval_v1包含150道题目，各难度级别50道，使用0至49的连续整数作为种子生成。每张图片的SHA-256哈希值均已公开，任何人运行相同生成代码即可获得完全一致的图片，便于验证数据集正确性。

代码解析器的安全性经过专门设计。它基于Python的抽象语法树模块，但严格限制了允许的语法：仅允许四种函数调用、仅允许关键字参数、仅允许整数字面量，禁止变量、循环、导入、属性访问等任何其他Python语法。这意味着AI无法通过代码注入或执行恶意操作，保障了评测系统的安全。

渲染器使用Python图像库Pillow，具有完全确定性——相同代码每次都会生成完全相同的图片。评测流程——解析代码、渲染图像、与原图对比——三步全自动完成，无需人工介入。

在测试不同AI配置时，研究者为Claude使用了Claude Code命令行工具，为GPT-5.5使用了OpenAI Codex命令行工具。每道题设置超时限制，失败时最多重试两次。每次运行都会将完整的请求内容、原始输出、归一化后的预测、延迟时间及详细评分结果保存至文件，便于后续核查与复现。

七、研究局限性与未来探索方向

研究者在论文中明确列出了当前版本的若干局限，体现了科学的严谨性。

首先，当前版本仅支持黑白两色，这导致一个隐含特性：后绘制的形状无法覆盖或擦除先绘制的形状，只能叠加。这意味着绘图顺序不影响最终结果，评测无法考察“绘制顺序推理”能力。若未来引入多色或“清除”指令，绘图顺序将变得关键，测试难度也会大幅提升。

其次，当前绘图语言仅包含四种基本图形，缺乏矩形、直线、多边形、曲线等。这是刻意的简化，旨在使错误原因更易定位，但也意味着测试无法反映对复杂图形的理解能力。

再次，所有测试均为零样本，未给AI提供任何示例。提供少量示例，或让AI进行链式思考，可能会显著改变结果，但这些实验未包含在当前版本中。

此外，研究未评估人类在此任务上的表现水平。缺乏人类基准，便难以直观判断“该任务的实际难度”——是普通人可轻松完成，还是需要专业知识与大量时间？研究者计划在后续版本中补充此项对比。

最后，模型推理本身存在随机性，因此即使使用完全相同的图片和提示，两次运行也可能得到不同代码。研究者公开了每次运行的配置参数与全部原始输出，便于他人尝试复现，但无法保证数字完全一致。

归根结底，ShapeCodeBench最引人深思之处，在于它揭示了一个反直觉现象：在最简单场景下，完全不用AI的传统计算机视觉方法，竟比当今最顶尖的多模态大模型更精准；而在复杂场景下，情况则发生逆转。这表明当前的AI在“视觉编程”任务上，既非完全无能，也远未达到实用级可靠——它处于一种微妙的中间状态。

传统方法好比一位仅会用直尺测量的工匠，在无遮挡时测量精准，但一旦形状叠放便束手无策。AI模型则更像一位具备整体视觉理解的人类，能大致看出图像内容，但在精确报出每个像素坐标上尚不够稳定。若能结合两者优势——用AI理解整体结构，再用精确计算细化参数——或许能在两个维度上同时取得突破。这也是研究者隐含在设计中的未来方向暗示。

此评测基准的终极价值，在于它提供了一个可持续使用的“标准化考场”。只需更换随机种子，即可生成全新试题，无需担心AI通过记忆题库作弊，也无需人工标注评判。对于希望追踪多模态AI在结构化视觉理解领域进展的研究者而言，这是一个可随时调用的高效工具。目前最佳完全匹配率仅8.7%，最佳AI前景IoU为0.865，距离“基本解决该问题”仍有相当长的路要走，评测基准远未达到性能饱和。