微软亚洲研究院:让大模型看懂图表只需3个关键步骤
微软亚洲研究院与清华大学、香港科技大学联合提出PixelCraft,该系统以高保真图像处理和非线性多智能体推理为核心支柱,系统性地提升结构化图像理解的准确性、鲁棒性与可解释性。在多个图表与几何基准测试中,PixelCraft均展现出显著的性能提升。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
尽管多模态大模型在自然图像理解上取得长足进步,但面对图表、几何草图、科研绘图等结构化图像任务时,细微的感知误差往往会被迅速放大,最终导致推理偏差。
传统依赖线性链式思维的流程,难以支撑复杂任务中必需的回溯与分支探索能力。
为此,微软亚洲研究院联合清华大学、香港科技大学提出PixelCraft解决方案。该系统通过高保真图像处理模块与非线性多智能体推理框架的协同工作,全面优化结构化图像理解的准确性、鲁棒性与可解释性,在多个图表与几何基准测试中均带来持续的性能增益。
结构化图像的痛点与PixelCraft的切入
自然图像通常可以借助纹理特征与局部模式完成理解,而结构化图像将信息编码为坐标、数据点、连线与数值标注,要求模型在像素级细节上建立可验证的"符号化抽象"。
在这样的场景下,传统仅依赖文字链式推理的方式往往牺牲了空间与结构细节。
"视觉链式推理"虽然尝试插入中间图像线索,但受制于低保真的图像处理和简单的线性处理链条,这类方法在应对复杂真实问题时效果有限。这一局限性在更贴近真实场景的CharXiv、ChartQAPro等基准测试中得到了明确体现。
PixelCraft将这一问题拆解为两个关键环节:先把"看准"做扎实,再让"思考"更灵活。

从"明亮的眼睛"到"稳健的双手",再到"讨论式思考"
系统组成:PixelCraft的系统由调度器、规划器、推理器、视觉评审与规划评审以及一组视觉工具代理构成。调度器负责工具和角色的选择与编排;规划器维护图像记忆并管理讨论流程;推理器承担多模态推理;视觉与规划评审分别负责在环质量控制与事后复盘;视觉工具代理执行具体图像操作。
高保真视觉处理:研究团队在高质量标注数据上对Qwen2.5-VL-3B-Instruct进行微调,得到像素级grounding模型,能够将目标区域的文本指代精确映射到像素级坐标区域。
以此为基础,系统通过工具代理调用一组标准化的传统CV操作(如裁切、放大、按图例遮挡、辅助线标注等),使中间编辑步骤可验证、可复现,为后续推理提供稳定证据。
系统的工具并非静态预设,而是通过自动生成—标准化—调用的闭环形成:系统基于任务样本由大模型生成候选工具,经聚类与重写后作为工具库备用。
子图裁切/局部放大

带图例的数据绘制/添加辅助线

随后结合grounding坐标与调度/规划策略,实现精准、可重复、可回溯的工具调用。
在讨论式推理中,工具按需被动态选择与复用,从而把"看准"(定位与编辑的准确性)与"能做"(可执行操作)有效衔接。
在合成与标注评测集上,微调后的grounding在子图区域、图例区域、文本标签与刻度点的IoU/PCK指标均较基础模型有显著提升。

保持智能体系统的底座模型不变,切换不同grounding模型会传导至下游基准(如CharXiv、ChartQAPro等)的最终精度,说明定位质量对整体性能具有关键影响。

由此,"高保真定位+工具闭环"有效减少了由"截断/标错"引起的误差传播。
非线性、多角色的"讨论式推理"
PixelCraft的讨论式流程由规划器统筹:先选择合适的工具与角色,随后规划器根据当前上下文按需选择下一角色及其输入(图像或文本),并角色间传递中间结果。
推理过程中由视觉评审判定图像处理是否满足目标,再由规划评审事后复盘整条链路径,必要时触发再规划再推理。
与"只在上一张图上继续"的线性链不同,图像记忆让规划器能在讨论中主动回看早期证据、尝试备选分支、修订假设。
这一"以讨论为核心的工作流"在结构化图像场景中尤显必要:细节一旦出错,应尽快止损并回溯而不是被动前行。
实验:多底座、多数据集的一致增益
在三个具有挑战性的图表理解基准CharXiv、ChartQAPro、EvoChart上,PixelCraft在GPT-4o等大模型基础上取得大幅提升,且跨模型表现一致。

消融实验显示,可靠的图像编辑+在环校验+事后复盘共同支撑了系统的稳定性与可解释性。

研究还构造了与常规VisualCoT的对照:把历史中间图像全部并入上下文、让模型在线性链里"带图思考"。
结果显示,在CharXiv与ChartQAPro上,简单的VisualCoT结果明显低于PixelCraft的范式。
这从正反两面印证:不是"把图都塞进去"就能解决问题,选择性记忆+讨论式回溯才是更有效的组织方式。
工具层面,图表类的子图裁切、局部放大、辅助线标注、按图例遮挡覆盖了大多数据分析操作。
几何类的点连线、作垂线/平行线为推理提供"草图级"证据。
论文给出了工具使用频率与单项贡献的统计,也展示了多种具体处理案例。
PixelCraft提出了一条面向结构化图像的半自动化新范式:包含工具制造、工具选择、工具调用、过程修改。
先以像素级grounding把证据找准,再把证据交给"工具化的双手"去做可验证的编辑,最后在规划器主导的讨论式流程中组织推理,并用图像记忆贯穿回溯与分支探索。
通过这一整套设计,系统在多个benchmark上取得跨模型一致的提升,且中间过程清晰可检。
对需要处理图表、几何等结构化图像而言,PixelCraft显著提升了模型推理的准确性和鲁棒性。
论文链接:https://arxiv.org/pdf/2509.25185
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
逼AI当山顶洞人!Claude防话痨插件爆火,网友:受够了AI废话
新智元报道编辑:元宇【新智元导读】一个让AI像原始人一样说话的插件,在HN上一夜爆火,冲破2w星。它的核心只是一条简单粗暴的prompt:删掉冠词、客套和一切废话,号称能省下75%的输出token。
季度利润翻 8 倍,最赚钱的「卖铲人」财报背后,内存涨价狂潮如何收场?
AI 时代最赚钱的公司,可能从来不是做 AI 的那个。作者|张勇毅编辑|靖宇淘金热里最稳赚的人,从来不是淘金的,是卖铲子的。这句老话在 2026 年的科技行业又应验了一次。只不过这次卖铲子的不是英伟
Claude Code Harness+龙虾科研团来了!金字塔分层架构+多智能体
Claw AI Lab团队量子位 | 公众号 QbitAI你还在一个人做科研吗?科研最难的,从来不是问题本身,而是一个想法从文献到实验再到写作,只能靠自己一点点往前推。一个人方向偏了没人提醒,遇到歧
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大
美国犹他州启动新试点项目:AI为患者开具精神类药物处方
IT之家 4 月 5 日消息,据外媒 PC Mag 当地时间 4 月 4 日报道,美国医疗机构 Legion Health 在犹他州获得监管批准,启动一项试点项目,允许 AI 系统为患者开具精神类药
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

