Hyena：挑战Transformer的亚线性注意力机制

本次查询HyenaAI 热词解释结果

中文解释Hyena架构

热词类型AI架构

常见场景长序列建模 / 代码生成 / DNA序列分析 / 高分辨率图像处理

一句话解释

Hyena是一种用门控卷积替代自注意力机制的深度学习架构，能以线性计算复杂度处理比Transformer更长（比如10万+token）的序列，同时保持甚至提升模型表现。

Transformer的自注意力机制有二次方复杂度，处理长文本或长序列时计算和内存开销极高。Hyena通过数学上等价于隐式注意力的门控卷积，将复杂度降到线性或亚线性，使得训练128K乃至更长序列成为可能。

在语言建模、图像分类、DNA序列分析等任务上，Hyena在相同参数量下取得了与Transformer相当或更优的结果，尤其在长上下文基准中优势明显。这为构建更高效的AI模型提供了新路径。

Hyena的核心是用一组可学习的门控卷积滤波器来模拟注意力混合过程。它先通过短卷积生成查询、键、值，再用长卷积（由FFT加速）完成全局混合，整个过程没有显式注意力矩阵。

具体实现分为两步：先做数据依赖的门控（类似注意力中的softmax），再通过全局卷积进行上下文混合。该操作在数学上等价于一种隐式注意力，但复杂度从O(n²)降为O(n log n)甚至O(n)。

长文档语言模型：处理书籍、论文等超长文本，无需截断；DNA序列分析：HyenaDNA变体可处理长达百万碱基的序列，用于基因功能预测；高分辨率图像：将图像展平为长序列后直接建模全局依赖；代码生成与补全：需要关联跨多文件、数百行的上下文信息。

Hyena并非动物鬣狗，而是架构代号，取“高效猎食”之意；它也不是单纯的卷积网络——其门控卷积是数据依赖的，并隐式实现了注意力功能。

不要将Hyena与Mamba混为一谈：两者都属状态空间模型家族，但Hyena使用卷积视角，Mamba使用选择性状态空间；Hyena对显存占用更友好，Mamba在推理速度上有优势。

来源：AI 热词解释频道整理

Hyena HyenaDNA 门控卷积线性注意力状态空间模型

上一篇：RetNet

本文内容用于 AI 热词解释和概念整理，仅供学习和理解参考。若涉及表述偏差或内容修正，欢迎联系站点进行更新。

相关热词

Mamba更新：2026-05-19

Mamba是一种创新的状态空间模型架构，通过选择性状态空间和硬件感知设计，在语言、音频、基因组等长序列建模任务中表现出色，被认为是Transformer的有力竞争者。

常查热词