AI热词解释列表,浏览热门 AI 名词解释、使用场景和相关概念延伸内容

面包屑图标 当前位置: 首页
AI热词解释

AI 热词解释

输入一个 AI 名词,快速查看通俗解释和相关概念。

Streaming

Streaming

Streaming(流式处理)是一种实时处理连续数据流的技术范式,在AI领域尤其指大模型以“打字机”方式逐词生成文本的过程。它改变了传统“输入-完整计算-输出”的批处理模式,实现了低延迟的交互体验。

Top-k 是大型语言模型在生成文本时使用的一种核心采样策略。它通过限制模型每一步只考虑概率最高的前 k 个候选词,在保证输出多样性的同时,有效过滤掉大量不靠谱的选项,是平衡生成质量与可控性的关键技术。

Top-p(核采样)是一种用于控制AI文本生成随机性和质量的解码策略,通过动态选择概率累积达到阈值p的词汇集合,在保证多样性的同时避免低质量输出。

Temperature是控制语言模型输出随机性的核心参数,它通过调整预测概率分布的平滑程度,直接影响生成文本的确定性与创造性。

Grounding(锚定/接地)指将AI模型的生成内容与现实世界数据或可信来源进行关联验证的过程,旨在提高输出的准确性和可靠性,是缓解AI幻觉问题的核心技术路径。

AI幻觉指大语言模型生成看似合理但实际错误或虚构内容的现象,是当前大模型面临的核心可靠性挑战。

Pruning(剪枝)是一种模型压缩技术,通过识别并移除神经网络中冗余或不重要的连接、神经元或权重,在保持模型性能基本不变的前提下,显著减小模型大小并提升推理速度。

知识蒸馏是一种将大型、复杂模型(教师模型)的知识迁移到小型、高效模型(学生模型)中的技术,通过模仿教师模型的输出或中间特征,使学生模型在保持较小体积的同时获得接近教师模型的性能。

量化是一种模型压缩技术,通过降低神经网络中权重和激活值的数值精度(如从32位浮点数降至8位整数),大幅减少模型存储空间和计算开销,同时尽量保持模型性能。

Q-LoRA是一种高效的大语言模型微调技术,它通过将预训练模型量化为4位精度,并冻结量化参数,同时结合LoRA技术对少量低秩适配参数进行微调,从而在保持模型性能的同时,极大降低了计算内存需求和硬件门槛。

最新解释

正在生成解释

正在处理 AI 热词,请稍候...