谷歌北大联手提升论文图表，Banana工具实现100%精准生成

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

谷歌北大联手提升论文图表，Banana工具实现100%精准生成

热心网友时间：2026-02-09

转载

效果好到刷屏的Nano Banana，学术特供版热乎出炉！

名字就是如此直观——PaperBanana，给你每天都在头痛的Paper用上Banana。（试图押韵skr)

而且这一次是由谷歌北大强强联手打造。

知道你想马上看效果，别急，三个最新案例这就给大家搬上桌。

在相同输入下，人类绘制、原版Nano Banana与PaperBanana生成的论文插图对比如下：

综合评估显示，PaperBanana在美观性、简洁性与逻辑清晰度上均全面优于原版。

而且它还能直接优化人工绘制的插图，瞅瞅右边，是不是高级感一下就上去了。

此外，由于PaperBanana还提供代码出图功能（即利用Gemini-3-Pro自动生成并执行Python可视化代码出图），所以它还能用来生成需要数值100%精准的各种图表。

好好好，既能拿捏高级感，又不忘精准度，应该没有学术人不爱吧~

论文作者表示，PaperBanana为全自动生成可用于出版的插图铺平了道路。

我们希望这个框架能成为连接复杂科学概念与高效视觉叙事的桥梁，赋能每一位研究者，用专业级的视觉语言清晰呈现其发现。

而在看到其效果之后，一众网友也纷纷感叹“学术插图”这个老大难总算是要被攻克了。

想想以前的日子，真真是要落泪了~

研究人员花费4个小时在Figma中绘制一张图，简直令人难以置信。

那么，学术版PaperBanana是如何炼造的呢？

一个不够，那就5个！

用一个模型生图怎么够，现在都是多智能体齐上阵了。

没错，PaperBanana背后就是5个分工明确的智能体在起作用。

Retriever Agent（检索智能体）：从顶会论文库中，找到与你要画的图领域、结构最相似的参考案例。Planner Agent（规划智能体）：把论文文字描述，转化为包含所有模块、逻辑的详细绘图说明书。Stylist Agent（风格智能体）：总结学术审美规范，给说明书加上配色、排版等“美颜”标准。Visualizer Agent（可视化智能体）：根据说明书，直接画图或写代码出图，产出初稿。Critic Agent（批判智能体）：检查图的对错与美观度，提出修改意见，循环迭代3轮优化。

下面这张图清晰展示了它们的工作流程：

划重点，连这张图也是PaperBanana自己生成的。

论文作者表示，这一过程参考了人类制作论文插图的流程。

以制作一个模型架构图为例，通常研究人员会先去看看顶会里类似工作的图是怎么画的，找找灵感和规范。

这一步就对应了检索智能体的工作。

然后就需要根据参考来规划自己的图该怎么画，“我的方法有几个关键模块？”、“数据流和逻辑顺序是怎样的？”，在想清所有关键问题后，脑子里大概就有一幅架构蓝图了。

而到这一步还不是真正动笔的时候，因为还需要结合自己的图以及之前看过的“顶会审美”标准，来给蓝图加点设计感。

有了这两样东西（蓝图+审美），现在就可以真正出图了。

并且出完之后，研究人员往往还需要检查一番，以确保出图正确无误。

怎么样？是不是一环扣一环、且全都一一对应上了。

而在了解完PaperBanana的工作方式后，接下来的问题在于：

怎么评估PaperBanana的生图效果？

实验方法及结果

对此，团队还专门构建了一个PaperBananaBench。该基准内容源自NeurIPS 2025——

他们从5275篇论文中随机采样2000篇，经过滤、人工校验后，得到584个有效样本，然后将其均分为292个测试样本和292个参考样本。

这292个参考样本，每一个都提取了完整的（S, C, I）三元组：

S（源上下文）：描述方法的文本，如论文方法论章节；C（传达意图）：图的标题/说明，如“我们的框架概述”；I（参考图像）：论文中实际使用的、高质量的对应图表。

参考样本集构成了一个高质量的“学术插图数据库”，主要供检索智能体进行查询和匹配。

而与之对应的292个测试样本，在评估时则仅提供S、C作为输入。其对应的I作为隐藏的标准答案，不参与生成过程，仅用于最终的质量比对与评分。

准备到这里，接下来就是具体生成和评估了。

裁判方面，他们采用了“VLM-as-a-Judge”（大模型当裁判）的评估范式——

让强大的视觉语言模型（如Gemini-3-Pro）作为评委，将PaperBanana生成的图与测试集中隐藏的标准答案I进行逐项对比。

对比的维度主要有四个：忠实性、简洁性、可读性、美观性。

若PaperBanana表现优于标准图得100分，劣于得0分，持平得50分，最终计算总分。

而实验结果表明，PaperBanana在所有维度上全面超越了传统的单模型直接生成（Vanilla）等基线方法。

整体性能碾压：总分相对基线提升了17.0%。其中，简洁性提升最为显著，高达37.2%，说明它生成的图逻辑更干净、重点更突出；可读性（+12.9%）和美观性（+6.6%）也有大幅领先。获得人类盲测认可：在匿名的人类盲测中，研究员有72.7%的情况认为PaperBanana生成的图比基线模型更好。统计图表表现优异：在需要高精度的统计图表任务中，PaperBanana的“代码生成模式”在数值忠实性上与人类水平相当，而简洁性和美观性甚至略胜一筹。