Python程序PyTorch显存泄漏怎么办_利用torch.cuda.empty_cache清理

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

编程语言

Python程序PyTorch显存泄漏怎么办_利用torch.cuda.empty_cache清理

热心网友时间：2026-05-06

转载

torch.cuda.empty_cache() 仅释放未被张量引用的缓存显存，不回收仍被变量或模型持有的显存；需配合 del、zero_grad() 和 no_grad() 才能有效释放。

Python程序PyTorch显存泄漏怎么办_利用torch.cuda.empty_cache清理

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

为什么 torch.cuda.empty_cache() 经常不起作用？

简单来说，这个函数的作用范围非常有限。它仅负责清理CUDA缓存分配器中那些未被引用的“空闲”显存块，本质上并非一个垃圾回收器。换句话说，只要你的torch.Tensor还被某个Python变量引用着，或者模型参数仍被nn.Module结构包裹，empty_cache()就对它们无能为力。

一个典型场景是：运行nvidia-smi命令时发现显存占用持续攀升，反复调用torch.cuda.empty_cache()却收效甚微，占用数值几乎不变。问题究竟出在哪里？

检查中间变量：例如在训练循环中，如果每次前向传播都产生一个新的output张量，但没有显式地使用del删除它或用新值覆盖，这些张量就会一直驻留在内存中。
验证梯度状态：在模型推理时，如果没有使用with torch.no_grad():上下文管理器包裹代码，PyTorch就会自动构建计算图，这些中间结果同样会占用显存。
分清模型模式与内存管理：请注意，model.eval()仅关闭了Dropout和BatchNorm层的训练模式，它并不会帮你释放已经分配好的模型参数和缓存。

真正有效释放显存的三步操作

指望仅靠empty_cache()解决问题，无异于扬汤止沸。真正有效的方法，需要配合Python的引用计数机制和PyTorch的运行时内存管理，遵循以下三步：

手动切断引用：对于不再需要的张量，例如推理后的输出output、计算完毕的loss，直接使用del output, loss命令。尤其在多轮推理或长时间训练的场景下，不要完全依赖Python解释器的自动垃圾回收。
清空计算图：在调用loss.backward()进行反向传播之后，应立即执行optimizer.zero_grad()。否则，梯度（grad）会持续引用整个计算图，导致相关显存无法被释放。
最后调用缓存清理：将torch.cuda.empty_cache()放在所有del和zero_grad()操作之后执行。需要注意的是，建议仅在调试或批处理任务的间歇期使用此函数，避免将其放入每一步的前向传播中，以免影响性能。

以下是一个更清晰的示例代码片段：

立即学习“Python免费学习笔记（深入）”；

for x, y in dataloader:
    with torch.no_grad():
        pred = model(x)
        # ... 计算指标
    del pred  # 关键：主动删除输出张量
    torch.cuda.empty_cache()  # 放在这里才可能生效

哪些情况下 `empty_cache()` 反而有害？

这个函数并非无害的“万能药”。它会强制清空CUDA缓存分配器中的空闲内存块，导致后续需要分配新张量时，系统不得不重新向GPU驱动申请内存页。如果调用频率过高，不仅释放不了多少显存，反而会显著拖慢程序运行速度。

避免高频调用：切勿在每个forward()函数调用后面都加一句empty_cache()。
注意多卡环境：该函数只对当前设备（current_device）生效。如果你使用torch.cuda.set_device()切换过GPU，务必确保清理的是正确的目标显卡。
使用更精准的工具监控：与其依赖nvidia-smi提供的粗略数据，不如搭配使用torch.cuda.memory_summary()。运行该命令后，重点关注allocated（已分配）和reserved（预保留）之间的差值，这更能真实反映PyTorch框架内部的显存使用情况。

排查显存泄漏的最小可行路径

遇到显存问题，先不要急于大规模修改代码。按照一个系统化的路径来排查，往往事半功倍。

加装监控点：在训练循环的关键位置（如每个epoch开始或结束时）插入内存查询语句：print(torch.cuda.memory_allocated()/1024**3)，观察显存占用的增长趋势。
调整分配策略测试：可以尝试设置环境变量os.environ['PYTORCH_CUDA_ALLOC_CONF'] = 'max_split_size_mb:128'。这能限制缓存分配器持有过大的内存块，有助于识别是否因内存碎片导致“隐形”占用。
隔离模型问题：如果怀疑是模型本身存在泄漏，可以尝试将模型移回CPU：model.cpu()，然后执行del model删除模型，再调用empty_cache()，观察显存是否如预期回落。

最后，有一个极易被忽略的“坑”：当DataLoader设置pin_memory=True并结合GPU张量预加载时，会在数据加载的子进程（worker）中提前占用显存。这部分显存不受主进程的empty_cache()管理，需要特别注意其影响。

来源:https://www.php.cn/faq/2315059.html

上一篇：如何在 WooCommerce 中隐藏无缩略图的产品

下一篇： Python编写Flask接口如何限制请求频率_使用Flask-Limiter防止接口滥用