Hyena:挑战Transformer的亚线性注意力机制
Hyena是一种新型深度学习架构,通过门控卷积和隐式注意力机制,以线性或亚线性复杂度处理超长序列,在多个任务上媲美或超越Transformer,被视为后Transformer时代的有力竞争者。
一句话解释
Hyena是一种用门控卷积替代自注意力机制的深度学习架构,能以线性计算复杂度处理比Transformer更长(比如10万+token)的序列,同时保持甚至提升模型表现。
为什么会被关注
Transformer的自注意力机制有二次方复杂度,处理长文本或长序列时计算和内存开销极高。Hyena通过数学上等价于隐式注意力的门控卷积,将复杂度降到线性或亚线性,使得训练128K乃至更长序列成为可能。
在语言建模、图像分类、DNA序列分析等任务上,Hyena在相同参数量下取得了与Transformer相当或更优的结果,尤其在长上下文基准中优势明显。这为构建更高效的AI模型提供了新路径。
核心逻辑
Hyena的核心是用一组可学习的门控卷积滤波器来模拟注意力混合过程。它先通过短卷积生成查询、键、值,再用长卷积(由FFT加速)完成全局混合,整个过程没有显式注意力矩阵。
具体实现分为两步:先做数据依赖的门控(类似注意力中的softmax),再通过全局卷积进行上下文混合。该操作在数学上等价于一种隐式注意力,但复杂度从O(n²)降为O(n log n)甚至O(n)。
常见场景
长文档语言模型:处理书籍、论文等超长文本,无需截断;DNA序列分析:HyenaDNA变体可处理长达百万碱基的序列,用于基因功能预测;高分辨率图像:将图像展平为长序列后直接建模全局依赖;代码生成与补全:需要关联跨多文件、数百行的上下文信息。
容易混淆的点
Hyena并非动物鬣狗,而是架构代号,取“高效猎食”之意;它也不是单纯的卷积网络——其门控卷积是数据依赖的,并隐式实现了注意力功能。
不要将Hyena与Mamba混为一谈:两者都属状态空间模型家族,但Hyena使用卷积视角,Mamba使用选择性状态空间;Hyena对显存占用更友好,Mamba在推理速度上有优势。
本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。
相关热词Mamba是一种创新的状态空间模型架构,通过选择性状态空间和硬件感知设计,在语言、音频、基因组等长序列建模任务中表现出色,被认为是Transformer的有力竞争者。

