数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI

视觉优化长文本：内存直降50%，token需求减半！

视觉优化长文本：内存直降50%，token需求减半！

热心网友时间：2025-11-03

转载

在即将举行的NeurIPS 2025学术会议上，来自南京理工大学、中南大学与南京林业大学的联合研究团队重磅推出了突破性框架VIST（视觉导向的大语言模型Token压缩技术），为大规模语言模型实现长文本高效推理开创了全新的“视觉解决方案”。值得注意的是，这一创新思路与近期备受瞩目的DeepSeek-OCR技术理念高度契合。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

处理短文本时，大语言模型展现出令人印象深刻的理解与生成能力。然而现实场景中的许多任务——包括长文档理解、复杂问答以及检索增强生成（RAG）系统等，都需要模型处理成千上万甚至数十万字符的上下文信息。

与此同时，模型参数规模也从数十亿一路飙升至万亿级别。

面对“上下文长度激增”与“模型参数量膨胀”的双重挑战，Token压缩已不再仅仅是优化选项，而是成为了必备功能。

若无法有效缩减输入规模，即便是最强大的语言模型，也难以高效处理我们需要它分析的海量信息。

南京理工大学、中南大学与南京林业大学的研究人员提出的VIST框架，正是为了解决这一痛点而生。

论文链接：https://arxiv.org/abs/2502.00791

研究团队早在一年多前的NeurIPS 2024就开始探索——如何让模型能够像人类那样，通过视觉方式更高效地理解长文本内容。

论文链接：https://arxiv.org/pdf/2406.02547

人类阅读文章时，并不会逐字读完每一个词汇。

像“的”“了”“和”这类功能性高频词，几乎会被大脑自动忽略。真正让我们停下目光的，是那些承载意义的低频词——名词、动词、数字等关键信息。

VIST的核心思想，正是让大模型也具备这种“选择性阅读”的智能。

它设计了一种模拟人类“快-慢阅读通路”的可视化压缩机制，让大模型在理解长文本时，既能快速扫读把握整体，又能深入思考重点内容：

快速通道：将远处的、相对次要的上下文内容渲染为图像，由冻结的轻量级视觉编码器快速提取显著性语义；

慢速通道：将关键性的邻近文本直接输入LLM，用于深度推理与语言生成。

这种“视觉+语言”的双通道协作模式，就如同人类的眼睛与大脑的配合——一边扫视全局获取脉络，一边聚焦要点进行深度思考。

VIST让模型真正具备了“像人一样速读”的智能。

凭借这一创新设计，在处理相同文本内容时，VIST所需的视觉Token数量仅为传统文本分词所需Token数量的56%，内存占用减少了50%。

用“视觉压缩”解锁长文本理解

早期的LLM主要通过分词器将文本拆分成离散的token输入模型进行处理，这种范式带来了许多优势，特别是实现了高度语义化。

但已有研究发现，经过大规模图文配对数据预训练，CLIP等视觉编码器能够自发掌握OCR识别能力，这使得它们可以直接理解文本图像内容，为长文本的可视化处理提供了强大工具。

VIST则借鉴了人类高效阅读的认知技巧，提出了全新的快-慢视觉压缩框架，用视觉方式处理长文本，让模型既能快速扫读把握大意，又能深度理解核心内容。

快速通道

将次要的长距离上下文渲染成图像，由轻量级视觉编码器处理；

通过重采样器将视觉特征进一步压缩至原尺寸的1/4；

压缩后的视觉特征再通过交叉注意力机制与LLM的主输入进行整合。

慢速通道

对邻近位置或核心文本直接交给LLM处理，进行深度推理和语言生成。

这种“扫视远处，专注近处”的处理方式，模拟了人类阅读的自然策略，让模型在长文本场景下既高效又精准。

概率感知视觉增强

教模型学会“略读”

虽然视觉编码器（如CLIP）能力强大，但它们主要在自然图像上训练，对于渲染文本的理解能力有限。而且，长文本中往往充斥大量冗余信息，如果不加选择地处理，不仅浪费算力，还会被噪声干扰而抓不住重点。

为此，VIST引入了一个精巧机制——概率感知视觉增强（PVE），教会模型“略读”关键信息，忽略冗余词汇。

在训练过程中，PVE采用基于词频的掩码策略，把高频但信息量低的词（如英文中的"the"、"with"）进行遮蔽，同时重点保留低频、高信息量的词汇，如名词、动词、数字等核心内容。

这些经过语义优化的文本嵌入有效指导重采样器从文本图像中提取更重要的语义信息，让视觉压缩模块变得更高效率且更精确。

视觉压缩的巨大潜力

在开放域问答任务以及11个上下文学习基准任务上，VIST框架的表现显著优于基于文本编码器的压缩方法CEPE。

即使在极端条件下——所有章节仅通过视觉编码器处理——VIST仍能在开放域问答任务中达到与TinyLlama相当的性能，充分展示了视觉压缩在长文本处理中的可靠性。

此外，在处理相同文本内容时，VIST所需的视觉Token数量比传统文本Token减少56%（压缩比约为2.3，从1024个文本Token压缩至448个视觉Token），同时显存使用量降低50%，极大提升了计算效率。

让大模型“用眼睛读文字”

VIST利用轻量级视觉编码器，将冗长的上下文信息进行压缩处理，为大语言模型提供了一条高效、低成本的新路径。

更巧妙的是，视觉编码器还能充当视觉文本分词器，带来四大显著优势：

1. 简化分词流程传统文本分词器依赖复杂规则和固定词表，通常涉及近十步人工预处理（如小写化、标点符号处理、停用词过滤等）。视觉编码器直接将渲染的文本视作图像输入，无需繁琐预处理，处理流程更直接高效。

2. 突破词表瓶颈传统分词器在多语言环境下容易受词表限制影响性能，而视觉编码器无需词表，统一处理多种语言文本，大幅降低嵌入矩阵和输出层的计算与显存开销。

3. 对字符级噪声更鲁棒视觉编码器关注整体视觉模式，而非单个Token匹配，因此对拼写错误或低级别文本攻击具备天然抵抗力。

4. 多语言高效处理尽管本文主要针对英文，视觉文本分词器在其他语言中同样高效：与传统分词相比，可减少62%的日文Token、78%的韩文Token、27%的中文Token，在处理长文本时优势尤为显著。

结语与未来展望

VIST 展示了“视觉 + 语言”协作在大模型长文本理解中的巨大潜力：它让大模型能够“像人一样读”，既能快速扫视冗余信息，又能专注思考关键内容。

未来，视觉驱动的Token压缩技术很可能成为长上下文LLM的标准组件。随着模型规模不断增长，这种“先看再读”的策略，将帮助大模型在保证理解能力的同时，大幅降低计算成本，为多模态智能理解铺平道路。

来源:https://www.51cto.com/article/828642.html

上一篇： AI浏览器安全风险：南洋理工解析OpenAI等Web代理底层机制

下一篇：首届中国国际机器人辩论赛四强出炉，北京亦庄决战终极桂冠

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

如何制作极具商务高级感的路演PPT 利用Gamma一键定制极简黑金视觉模版

如何制作极具商务高级感的路演PPT 利用Gamma一键定制极简黑金视觉模版

说实话，每次看到别人在商务路演时拿出那种设计精良、气质高端的PPT，你是不是也暗自羡慕过？但咱们既不是专业设计师，又抽不出大把时间琢磨排版配色——这种困境我太懂了。好在现在有了Gamma这样的智能平台，它内置的模板系统能让你快速产出专业级PPT。今天我就以最经典的极简黑金风格为例，带你走一遍具体操作

时间：2026-04-21 22:59

airtag不更新实时位置怎么设置_AirTag位置刷新与实时更新设置方法

airtag不更新实时位置怎么设置_AirTag位置刷新与实时更新设置方法

不知道你有没有遇到过这种情况：在“查找”App里盯着自己的AirTag，结果发现它的位置好像“卡住”了，几个小时甚至更久都没动过。这事儿确实挺让人着急的。别担心，这通常不是AirTag坏了，而是它的位置更新机制暂时“打了盹儿”。AirTag本身不能联网，它得靠路过的其他Apple设备“帮个忙”，才能

时间：2026-04-21 22:56

OpenClaw能否成为下一代智能入口

OpenClaw能否成为下一代智能入口

随着2026年初OpenClaw在GitHub上19天内斩获16 5万星标的现象级爆发，“xxClaw”系列产品迅速成为全球AI领域关注的焦点。国内像腾讯、字节、阿里、小米、华&为等科技巨头纷纷入局，推出各自的Claw产品，围绕“智能入口”的争夺战正式打响。 2026年3月的深圳，腾讯大厦楼下排起长

时间：2026-04-21 22:56

ai保存的时候怎么把源文件设置成不可编辑_Ai导出PDF设置权限密码禁止编辑方法

ai保存的时候怎么把源文件设置成不可编辑_Ai导出PDF设置权限密码禁止编辑方法

不知道你有没有遇到过这种情况：辛辛苦苦用AI设计工具做好方案，导出成PDF发给客户或同事后，没过多久，就发现自己的排版被改得面目全非，或者内容被轻易复制走了。老实说，这种感觉真的很糟糕。如果你也想保护自己的劳动成果，让导出的PDF文件“只可远观，不可亵玩”——也就是无法被随意编辑、复制或修改，那今天

时间：2026-04-21 22:55

如何快速用上OpenClaw？这应该是全网使用 OpenClaw 最方便快捷的方式

如何快速用上OpenClaw？这应该是全网使用 OpenClaw 最方便快捷的方式

一键安装，直接开始“养虾” 如果你最近关注过OpenClaw（龙虾），想必已经见过五花八门的安装教程。但真正动手尝试时，很多人会遇到这样的困扰：需要配置环境、准备API Key、熟悉命令行操作，甚至还要折腾Docker和各类依赖——光是这些准备工作，就足以让不少用户望而却步。不过现在有个好消息：

时间：2026-04-21 22:54

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

理解JavaScript事件对象中的event.srcelement属性

如何正确使用event.srcelement处理事件委托

oracle游标是什么机构？业务方向与市场定位说明

oracle游标主要业务、品牌布局与行业角色解析

event.srcelement在IE浏览器中的兼容性处理指南

linux3d桌面常见访问问题与阅读入口整理

linux3d桌面有哪些值得关注的栏目与内容方向

长城魏建军痛批魏牌团队不会营销，魏牌CEO赵永坡致歉

linux3d桌面是什么网站？内容定位与受众解析

Ubuntu Exploit：如何修复安全漏洞

NASA 分享宇航员太空拍地球照片，“意外”宣传苹果 iPhone 17 Pro Max

《全球人工智能治理科技社团倡议》发布

LG、三星玩“换家”：消息称 LG 电子有意三星显示 QD-OLED 显示器面板

生存33天每日必做任务有哪些-生存33天每日必做任务攻略

谷歌推进芯片供应商多元化，与Marvell展开TPU定制与推理芯片开发谈判

王者荣耀世界家园基建玩法详解王者荣耀家园建设与资源管理全攻略

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

相关攻略

相关攻略

《炎龙骑士团2》详细全攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

《东吴霸王传2013》详细全关攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

《臭作》之100%全完整攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

《兰斯8》剧情攻略详细篇

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

《英雄坛说》详细全攻略

2015-03-10 12:39

《英雄坛说》详细全攻略

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

偷窃少女的教育方法全攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

无法抵挡小恶魔的诱惑攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

《三角洲行动》长弓溪谷藏宝堆全点位

《三角洲行动》长弓溪谷藏宝堆全点位发布于 2026-04-21

《汉字找茬梗》找老梗2怎么过-找齐所有老梗通关图文攻略

《汉字找茬梗》找老梗2怎么过-找齐所有老梗通关图文攻略发布于 2026-04-21

天涯明月刀手游可以截镖吗天涯明月刀手游截镖玩法介绍

天涯明月刀手游可以截镖吗天涯明月刀手游截镖玩法介绍发布于 2026-04-21

洛克王国艾尔技能搭配

洛克王国艾尔技能搭配发布于 2026-04-21

红色沙漠铋元素长枪在哪

红色沙漠铋元素长枪在哪发布于 2026-04-21

《归环》换人机制介绍

《归环》换人机制介绍发布于 2026-04-21

王者荣耀世界可靠的前辈王者荣耀前辈玩法详解与实战技巧

王者荣耀世界可靠的前辈王者荣耀前辈玩法详解与实战技巧发布于 2026-04-21

金铲铲之战S17四重薇古丝95阵容搭配推荐

金铲铲之战S17四重薇古丝95阵容搭配推荐发布于 2026-04-21

《刺客信条》多人游戏新作透露定位！聚焦多人PVP！

《刺客信条》多人游戏新作透露定位！聚焦多人PVP！发布于 2026-04-21

玩家15年PSN账号因搬家被锁死 SIE区域政策引公愤

玩家15年PSN账号因搬家被锁死 SIE区域政策引公愤发布于 2026-04-21

《原子之心》最终DLC动画海报发布 4月16日上线

《原子之心》最终DLC动画海报发布 4月16日上线发布于 2026-04-21

《第一后裔》社区弥漫悲观情绪 AI预测游戏一年内关服

《第一后裔》社区弥漫悲观情绪 AI预测游戏一年内关服发布于 2026-04-21

Steam喜加一！《恐怖的深度：蘑菇日》免费领

Steam喜加一！《恐怖的深度：蘑菇日》免费领发布于 2026-04-21

PS Plus四月会免阵容再添一员！《刀剑神域碎梦边境》确认加入

PS Plus四月会免阵容再添一员！《刀剑神域碎梦边境》确认加入发布于 2026-04-21

20年后公测！《NIKKE》IP新作《胜利女神：世界》登场

20年后公测！《NIKKE》IP新作《胜利女神：世界》登场发布于 2026-04-21

ARPG《致命躯壳2》新实机演示画面精美战斗激烈

ARPG《致命躯壳2》新实机演示画面精美战斗激烈发布于 2026-04-21

win11怎么修改默认文本编辑器 win11怎么更改txt打开程序【避坑】

win11怎么修改默认文本编辑器 win11怎么更改txt打开程序【避坑】发布于 2026-04-21

Win11怎么开启文件资源管理器的分栏显示_Windows11查看选项个性

Win11怎么开启文件资源管理器的分栏显示_Windows11查看选项个性发布于 2026-04-21

win11怎么绕过TPM检测安装 win11旧电脑强制升级最新教程【干货】

win11怎么绕过TPM检测安装 win11旧电脑强制升级最新教程【干货】发布于 2026-04-21

win11怎么开启HDR模式 win11怎么调节显示器色彩平衡【核心】

win11怎么开启HDR模式 win11怎么调节显示器色彩平衡【核心】发布于 2026-04-21

MAC怎么安装第三方软件 MAC提示身份不明开发者【安装】

MAC怎么安装第三方软件 MAC提示身份不明开发者【安装】发布于 2026-04-21

win11怎么关闭病毒防护中心 win11彻底禁用自带防火墙【笔记】

win11怎么关闭病毒防护中心 win11彻底禁用自带防火墙【笔记】发布于 2026-04-21

win11怎么查看内存型号 win11怎么看内存条频率参数【科普】

win11怎么查看内存型号 win11怎么看内存条频率参数【科普】发布于 2026-04-21

Win10怎么删除右键菜单的多余选项_Windows10注册表清理工具

Win10怎么删除右键菜单的多余选项_Windows10注册表清理工具发布于 2026-04-21

三星怎么截屏？

三星怎么截屏？发布于 2026-04-21

志高空调怎么开热风显示E1

志高空调怎么开热风显示E1 发布于 2026-04-21

三星宣布停产LPDDR4！国产内存好机会来了：拿下8.25亿美元大单

三星宣布停产LPDDR4！国产内存好机会来了：拿下8.25亿美元大单发布于 2026-04-21

佳能入门微单哪款对焦最准？

佳能入门微单哪款对焦最准？发布于 2026-04-21

柏翠面包机做蛋糕要放多少蛋

柏翠面包机做蛋糕要放多少蛋发布于 2026-04-21

Visual Studio 2013怎么打开工具箱查看控件-打开工具箱查看控件的详细步骤

Visual Studio 2013怎么打开工具箱查看控件-打开工具箱查看控件的详细步骤发布于 2026-04-21

米家扫地机器人连接手机要重置吗

米家扫地机器人连接手机要重置吗发布于 2026-04-21

小米耳机重置键按了没反应正常吗

小米耳机重置键按了没反应正常吗发布于 2026-04-21

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集