AI热词解释列表,浏览热门 AI 名词解释、使用场景和相关概念延伸内容

面包屑图标 当前位置: 首页
AI热词解释

AI 热词解释

输入一个 AI 名词,快速查看通俗解释和相关概念。

GRPO(Group Relative Policy Optimization)是一种用于训练大语言模型的强化学习算法,通过对比同一问题下多个回答的相对优劣来更新策略,无需依赖独立的评论模型,显著降低算力消耗。它被用于 DeepSeek-R1 等推理模型,是当前开源社区关注的热点。

最新解释

正在生成解释

正在处理 AI 热词,请稍候...