当前位置: 首页
AI
苹果放大招!FastVLM 让视觉语言模型在 iPhone 上飞速 “狂飙”

苹果放大招!FastVLM 让视觉语言模型在 iPhone 上飞速 “狂飙”

热心网友 时间:2025-07-16
转载

苹果最近又搞了个大新闻,偷偷摸摸地发布了一个叫 FastVLM 的模型。听名字可能有点懵,但简单来说,这玩意儿就是让你的 iPhone 瞬间拥有了“火眼金睛”,不仅能看懂图片里的各种复杂信息,还能像个段子手一样跟你“贫嘴”!而且最厉害的是,它速度快到飞起,苹果最新宣称,首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊!

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

视觉语言模型的 “成长烦恼”

现在的视觉语言模型,就像个不断进化的小天才,能同时理解图像和文本信息。它的应用可广了,从帮咱们理解图片里的内容,到辅助创作图文并茂的作品,都不在话下。一般来说,VLMs 是把预训练的视觉骨干网络提取的视觉 token,通过投影层传给预训练的大语言模型(LLM)。之前好多研究都在探索怎么训练和微调这几个组件,让模型变得更强。

研究发现,提高图像分辨率能显著提升 VLMs 在一些任务上的表现,尤其是处理那些文字和图表丰富的图像时。你想啊,图片越清晰,模型能 “看” 到的细节就越多,理解起来不就更准确嘛!但这也带来了不少麻烦。一方面,很多预训练的视觉编码器不太支持高分辨率图像,强行用的话,预训练效率会变得超级低。为了解决这个问题,有人尝试持续预训练视觉骨干网络,让它适应高分辨率;还有人把图像切成小块,像拼图一样分别处理,不过这也挺麻烦的。

另一方面,高分辨率推理的计算成本太高了!不管是直接进行高分辨率推理,还是把图像切块后进行低分辨率推理,都会产生很大的延迟。而且高分辨率图像生成的 token 更多,这又增加了 LLM 处理这些 token 的时间,导致整个模型输出首个 token 的时间(TTFT)变长。这就好比你让一个人一下子处理太多任务,他肯定会手忙脚乱,速度变慢。

FastVLM 来 “救场”

面对这些难题,苹果的研究团队搞出了 FastVLM,它就像是给 VLMs 注入了一剂 “加速药水”,能在保证性能的同时,大幅提升运行效率。

架构设计:另辟蹊径的 “智慧结晶”

FastVLM 的核心是 FastViTHD 这个新型混合视觉编码器。在探索 VLM 架构时,团队发现混合视觉编码器(卷积层加上 Transformer 块)是个不错的选择。卷积层可以轻松处理不同分辨率的图像,Transformer 块则能进一步优化视觉 token,让 LLM 更好地理解。他们用的 FastViT 就是基于这种架构,经过 MobileCLIP 预训练,效果还不错。比如,在相同的 VLM 基准测试中,FastViT 生成视觉 token 的速度比 ViT 模型快4倍多,准确率也更高。

不过,团队并没有满足于此。为了让模型在高分辨率下表现更出色,他们又设计了 FastViTHD。这个新架构在 FastViT 的基础上做了不少改进。它增加了一个额外的阶段和下采样层,让 self - attention 层处理的张量更小,这样就能减少图像编码延迟,还能为计算密集型的 LLM 解码器生成更少的 token,从而降低 TTFT。打个比方,这就像是给模型的 “信息高速公路” 拓宽了车道,还优化了交通规则,让信息传递得又快又稳。

训练与优化:精心打磨的 “成长之路”

训练 FastVLM 就像培养一个优秀的运动员,需要精心规划。研究人员采用了两阶段训练法,和 LLaVA -1.5的设置类似。第一阶段,只训练投影仪,用的是 LLaVA -558K 对齐数据集,训练时图像分辨率和骨干网络预训练分辨率一致。第二阶段,用 LLaVA -665K 监督微调数据集,把模型的所有模块都拿来训练,这时图像分辨率就设置成目标分辨率。

为了让模型更好地适应不同的任务和数据集,研究人员还做了很多优化。比如,他们尝试了多尺度特征提取,把网络不同阶段的信息整合起来,让模型能更好地理解图像。就像我们看一幅画,不仅要看整体,还要关注细节,多尺度特征提取就起到了这个作用。此外,他们还对比了不同的池化策略和连接器设计,发现用深度卷积进行池化能让模型性能更优。

实验结果:实力碾压的 “高光时刻”

在实验环节,FastVLM 简直就是 “学霸”,成绩相当亮眼!研究人员在主流基准测试中对 FastVLM 进行了全面评估,包括 GQA、ScienceQA、TextVQA 等多个任务。结果显示,在和其他模型的对比中,FastVLM 优势明显。

和基于卷积的 ConvLLaVA 相比,同样的 LLM 和相似的训练数据规模下,FastVLM 在 TextVQA 任务上性能提升了8.4%,在 DocVQA 任务上提升了12.5%,而且速度还快了22%。在高分辨率下,这种优势更加明显,FastVLM 的速度比 ConvLLaVA 快了2倍,在多个基准测试中都取得了更好的成绩。

和其他用多个视觉编码器的模型比,FastVLM 也毫不逊色。像 Cambrian -1用了多个视觉编码器,视觉编码在总 TTFT 中占比很大,而 FastVLM 用单个编码器,不仅速度比它快7.9倍,在相似的视觉指令调优数据集训练下,性能还超过了 Cambrian -1。就算是在对视觉 token 数量很敏感的文本丰富型评估任务中,FastVLM 也能凭借更少的视觉 token 取得更好的成绩。

FastVLM 的优势与意义

FastVLM 的出现,给视觉语言模型领域带来了新的希望。它最大的优势就是在保证模型性能的同时,大幅提升了运行效率。以前的模型在处理高分辨率图像时,要么速度慢,要么准确率低,FastVLM 很好地解决了这些问题。

对于我们普通用户来说,这意味着以后在手机上使用相关应用时,体验会大大提升。比如用图像搜索功能,以前可能要等半天才能出结果,现在用搭载 FastVLM 的应用,瞬间就能得到答案。对于开发者来说,FastVLM 提供了一个高效的模型框架,能让他们开发出更强大、更智能的应用。

从更宏观的角度看,FastVLM 的成功也为未来的研究指明了方向。它证明了通过优化架构和训练方法,可以在资源有限的设备上实现高性能的视觉语言模型。相信在不久的将来,会有更多基于 FastVLM 的创新应用出现,让我们的生活变得更加智能和便捷。

论文地址:https://www.arxiv.org/pdf/2412.13303

项目地址:https://github.com/apple/ml-fastvlm


来源:http://www.5asj.com/ai/20250512/458.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
WorkBuddy工具

WorkBuddy工具

好的,我已准备好作为您专属的 SEO 内容优化专家开始工作。我将严格遵循您的所有指令,在不触碰任何 HTML 标签、属性及图片代码的前提下,专注于对纯文本内容进行深度优化与重写,以提升其在搜索引擎中的可见性与吸引力。 我的核心工作流程是:首先,我会精准解析您提供的原始文章,确保核心事实与信息结构毫发

时间:2026-04-06 08:34
OpenClaw 3.31 审批问题总结

OpenClaw 3.31 审批问题总结

OpenClaw 3 31 强制审批问题解析 最近将 OpenClaw 升级到 3 31 版本后,许多用户反馈,执行每一条命令都需要手动点击“批准”,操作体验变得阻滞不畅。这并非系统故障或未知漏洞,而是官方在后台更新并默认启用了一套更为严格的“零信任”安全框架。简单来说,其核心逻辑是默认不信任任何操

时间:2026-04-06 07:02
一篇讲透:豆包、元宝、DeepSeek、Kimi、WorkBuddy,职场里到底怎么分工

一篇讲透:豆包、元宝、DeepSeek、Kimi、WorkBuddy,职场里到底怎么分工

别再把所有 AI 当成一个东西:WorkBuddy 和豆包、元宝、DeepSeek、Kimi,到底该怎么选? 这一年,AI 的进化速度着实叫人眼花缭乱。 大家的关注点,早就从“这工具能写文章吗”跳到了“它能不能帮我做方案、改稿子、整理会议纪要,甚至把任务往前推一步”。 于是,一个新问题浮出水面。 很

时间:2026-04-05 18:33
我用WorkBuddy“克隆“了一个我,从此每句话像我自己说的

我用WorkBuddy“克隆“了一个我,从此每句话像我自己说的

如何使用WorkBuddy深度学习我的说话方式,让每一份文案都自带个人风格 作为一名企业培训师,每年主讲上百场课程是行业常态。无论是线下公开课、线上直播,还是视频号、公众号的内容创作,每天的工作状态不是在授课,就是在准备各种讲稿的路上。早期借助通用AI工具辅助创作,写作效率确实有所提升,但生成的内容

时间:2026-04-05 14:34
英国视障跑者挑战马拉松,将借助智能眼镜“看”到赛道、辨别方向

英国视障跑者挑战马拉松,将借助智能眼镜“看”到赛道、辨别方向

英国视障跑者挑战马拉松,将借助智能眼镜“看”到赛道、辨别方向 最近有一则科技助残的新闻,让人眼前一亮。当地时间4月2日,英国BBC报道称,视障跑者克拉克·雷诺兹正计划借助一项创新技术,参加一场全程马拉松。这项技术的巧妙之处在于,它能让世界另一端有视力的志愿者,实时“看到”雷诺兹眼前的景象,并为他提供

时间:2026-04-05 11:03
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程