谷歌“纳米香蕉”:顶会论文专用版超越Figure机器人演示

编辑|SIA
你负责写方法,AI负责画 Figure。 科研打工人,终于等来「画图解放日」。
还在为论文里的方法框图熬夜画 PPT、拉箭头、对齐字体吗?
一张 Figure 2,动辄几个小时,严重的甚至能耗上几天,科研人的「隐藏副本」不是实验,而是画图。
既要忠于论文原意,又得暗暗符合顶会那套心照不宣的「学术审美」:颜色不能土,布局不能乱,箭头更不能连错。
看起来只是一张图,实际上是美学、逻辑和耐心的三重折磨。
那么,问题来了:现在的大模型已经能写论文、跑实验、改代码,为什么偏偏搞不定这些学术插图?有人可能会问:DALL·E、基础 VLM 不行吗?
答案是:真不行。
它们画出来的图往往是:模块和文字对不上、字体直接乱码、箭头逻辑错误。图是「好看」,但不中用啊。
于是,一个狠角色出现了:PaperBanana
来自北大 + Google Cloud AI Research 的团队,目标很简单也很狂:你写方法,AI 画 Figure,水准呢?直接投顶会的那种。
科研打工人,终于等到了「画图解放日」。




来看效果成色。
PaperBanana 展示了解决两类学术插图的能力:
第一类,是论文方法流程图与模型结构示意图,用来说明算法如何运作(左);第二类,是统计图表,用来表达实验结果与数据对比(右边)。

左边是方法框图(Methodology Diagrams),右边是统计图(Statistical Plots)
与以往「只会画图像」的生成模型不同,PaperBanana 强调两点:不是只要「画得好看」,而是必须「画得正确」。
它要保证:模块之间的逻辑关系不出错、数据表达符合科研规范、图可以直接服务论文叙事,而不是装饰。
研究指出,PaperBanana 可以覆盖多种常见学术插图类型,包括方法流程图、模型结构示意图、概念性框架图,以及通过代码驱动生成的高精度统计图。
PaperBanana 不仅能从零生成,还能润色你现有的丑图。
给它一张草图或初版框图,它负责自动美化、重排布局、统一风格,让它更像顶会论文里的标准图形
更直观的对比——
左侧是手工绘制的插图,右侧是 PaperBanana 风格增强(Style Enhanced)后的版本。

这些示例覆盖了多个典型科研场景,包括 Transformer 与不同 LayerNorm 变体的对比示意、工程流程与三维建模管线的系统框架,以及强化学习和表示学习中抽象几何关系的表达。它们的共同特点在于逻辑复杂、元素密集,对人工排版提出了极高要求,也正是科研人员最容易在“画图”上消耗大量时间与精力的部分。
语义结构上一致,但视觉呈现,完全不同。
原始图信息完整,却给人一种「能看懂,但不好看」的感觉:布局略显松散,配色偏向单一,不同模块之间的层级关系也不够清晰。
PaperBanana 润色增后,图中的逻辑被重新梳理进一套更规范的视觉体系之中。
不同功能模块通过颜色进行区分,虚线和分区框用来强化层次结构,箭头的走向也更加明确,整体观感明显更接近顶会论文中常见的标准范式。
再看下面的图例,同一张图对比,高低立判。
人类画的图,对,但不一定好看。
未经调教的原始模型生成(Nano-Banana-Pro),画出来但难读。
PaperBanana 真正做到了「画清楚、讲明白」,也更符合顶会审美的论文级插图:配色更现代统一,信息更精炼,模块分区更清晰。

那么,它是如何做到这一点的?
PaperBanana「画论文图」变成了一条由多智能体协作完成的流水线。
系统先检索参考范例,再规划结构化描述,并在审美规范约束下生成初稿;
随后由视觉代理将文本描述转化为图像或代码绘图,评论代理不断对照原始论文内容进行纠错与打磨。
经过多轮迭代后,输出的不再是普通示意图,而是一张同时满足语义正确性与顶会审美标准的论文级插图。
这不是简单的作图自动化,而是一种「科研表达方式」的自动规范化。

研究人员还顺带对比了两种路线:直接让模型「画图」VS 让模型「写代码画图」。
结论很扎心:AI 直接画出来的图虽然精美,但经常在数字上胡说八道。
目前最靠谱的方式还是:AI 写绘图代码(基于 Gemini-3-Pro),再生成统计图。

这只是开始。类似工具已经开始出现,比如:Claude Scientific Writer,集成论文写作 + 插图 + 图表生成。
未来科研可能变成这样:你不用再在 PPT 里对齐箭头、调颜色、拖文本框到凌晨三点,而是把更多时间留给真正重要的事情。
https://dwzhu-pku.github.io/PaperBanana/
https://github.com/K-Dense-AI/claude-scientific-writer
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
微信鸿蒙版8.0.17.38灰度测试:元宝聊天与视频号新功能上线
微信鸿蒙版App发布8 0 17 38尝鲜更新,测试期至6月16日。本次更新在官方“修复已知问题”的说明下,实则带来了多项功能升级,重点围绕视频号体验优化、AI音乐创作探索及社交工具完善。视频号新增资料修改、双击点赞、直播自定义选项;听一听功能灰度上线AI写歌与AI翻唱;同时灰度测试了“与元宝聊天
惠康制冰机快速出冰夏日特惠 多重补贴到手价171元
惠康HZB-16M制冰机在盛夏时节推出特惠活动。该机器主打快速制冰,仅需6-8分钟即可完成一批冰块,并配备一键自清洁功能,方便日常维护。原价259元起的产品,通过叠加政府及平台补贴、专属优惠券和晒单返现等多项优惠后,到手价低至171元。此外,购买还享有“买贵双倍赔”和以旧换新选项,产品提供2年质保,
中国技术标准助力中亚首条全自动无人驾驶轻轨通车
哈萨克斯坦阿斯塔纳轻轨一期项目于5月16日正式通车,这是中亚地区首条全自动无人驾驶轻轨线路。该项目全长约22 4公里,设18站,连接机场与火车站等关键节点,采用中国技术、装备和标准建造。哈萨克斯坦总统托卡耶夫在通车仪式上试乘并用中文向中方致谢。线路配备19列车,最高时速80公里,发车间隔5-6分钟,
90岁石油工程师玩《深海迷航2》 真实经历与深海生存游戏惊人相似
一位90岁高龄、曾为石油工程师的玩家体验了水下生存游戏《深海迷航2:异星水域》。他结合自身勘探经历,认为游戏对资源探索逻辑与未知危险的呈现相当真实考究。这一事件展现了游戏设计对专业领域的借鉴深度,也反映了游戏受众的多元化趋势,以及虚拟体验与真实世界知识体系之间可能产生的有趣共鸣。
AMD锐龙处理器包装芯片不符事件调查:9950X3D2惊现上代产品
一位海外消费者在亚马逊购买全新AMD锐龙99950X3D2处理器,开箱后发现内部芯片实为上一代9950X3D,但外包装防伪贴纸完好无损,引发广泛关注。硬件社区对此提出两种主要推测:一是AMD生产线包装出错;二是遭遇高技术退货诈骗。然而,由于两款芯片差价不大,诈骗动机存疑。目前买家已申请退货,事件原
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

