面包屑图标 当前位置: 首页
AI热词解释
热词解释详情

Hyena:挑战Transformer的亚线性注意力机制

本次查询HyenaAI 热词解释结果
中文解释Hyena架构
热词类型AI架构
常见场景长序列建模 / 代码生成 / DNA序列分析 / 高分辨率图像处理
AI 热词频道
AI 热词频道更新时间:2026-06-01

Hyena是一种新型深度学习架构,通过门控卷积和隐式注意力机制,以线性或亚线性复杂度处理超长序列,在多个任务上媲美或超越Transformer,被视为后Transformer时代的有力竞争者。

一句话解释

Hyena是一种用门控卷积替代自注意力机制的深度学习架构,能以线性计算复杂度处理比Transformer更长(比如10万+token)的序列,同时保持甚至提升模型表现。

为什么会被关注

Transformer的自注意力机制有二次方复杂度,处理长文本或长序列时计算和内存开销极高。Hyena通过数学上等价于隐式注意力的门控卷积,将复杂度降到线性或亚线性,使得训练128K乃至更长序列成为可能。

在语言建模、图像分类、DNA序列分析等任务上,Hyena在相同参数量下取得了与Transformer相当或更优的结果,尤其在长上下文基准中优势明显。这为构建更高效的AI模型提供了新路径。

核心逻辑

Hyena的核心是用一组可学习的门控卷积滤波器来模拟注意力混合过程。它先通过短卷积生成查询、键、值,再用长卷积(由FFT加速)完成全局混合,整个过程没有显式注意力矩阵。

具体实现分为两步:先做数据依赖的门控(类似注意力中的softmax),再通过全局卷积进行上下文混合。该操作在数学上等价于一种隐式注意力,但复杂度从O(n²)降为O(n log n)甚至O(n)。

常见场景

长文档语言模型:处理书籍、论文等超长文本,无需截断;DNA序列分析:HyenaDNA变体可处理长达百万碱基的序列,用于基因功能预测;高分辨率图像:将图像展平为长序列后直接建模全局依赖;代码生成与补全:需要关联跨多文件、数百行的上下文信息。

容易混淆的点

Hyena并非动物鬣狗,而是架构代号,取“高效猎食”之意;它也不是单纯的卷积网络——其门控卷积是数据依赖的,并隐式实现了注意力功能。

不要将Hyena与Mamba混为一谈:两者都属状态空间模型家族,但Hyena使用卷积视角,Mamba使用选择性状态空间;Hyena对显存占用更友好,Mamba在推理速度上有优势。

来源:AI 热词解释频道整理
Hyena HyenaDNA 门控卷积 线性注意力 状态空间模型
上一篇:RetNet
内容声明

本文内容用于 AI 热词解释和概念整理,仅供学习和理解参考。若涉及表述偏差或内容修正,欢迎联系站点进行更新。

相关热词
Mamba更新:2026-05-19
Mamba:挑战Transformer的下一代序列建模架构

Mamba是一种创新的状态空间模型架构,通过选择性状态空间和硬件感知设计,在语言、音频、基因组等长序列建模任务中表现出色,被认为是Transformer的有力竞争者。