面包屑图标 当前位置: 首页
AI资讯
热点详情

阿里全新推理模型仅1/20参数媲美DeepSeek R1

AI热点日报
AI热点日报时间:2026-07-02
热点解读

阿里Qwen团队最新研究成果正式亮相——QwQ-32B大语言模型现已发布。这个名称颇具萌感(QwQ),但实际性能毫不含糊。该模型参数量仅为320亿,而对比对象DeepSeek R1则高达6710亿,两者规模相差近20倍。然而在多项基准测试中,QwQ-32B不仅能够与之比肩,甚至在部分指标上略有领先。

阿里Qwen团队最新研究成果正式亮相——QwQ-32B大语言模型现已发布。这个名称颇具萌感(QwQ),但实际性能毫不含糊。该模型参数量仅为320亿,而对比对象DeepSeek R1则高达6710亿,两者规模相差近20倍。然而在多项基准测试中,QwQ-32B不仅能够与之比肩,甚至在部分指标上略有领先。这背后究竟隐藏着怎样的技术突破?答案十分明确:强化学习(RL)

重磅!阿里深夜推出全新推理模型,仅1/20参数媲美DeepSeek R1

关注大模型领域的朋友都清楚,参数量往往是衡量性能的关键指标。但QwQ-32B的发布,犹如用一把小刀划开了这一惯例。Qwen团队在博文中明确指出,他们深入探索了强化学习在提升大语言模型智能方面的巨大潜力。此次成功,有力地证明了强化学习是驱动模型性能跃升的强大引擎

多项基准评测硬刚DeepSeek R1

QwQ-32B的真实实力究竟如何?官方公布的基准评测结果覆盖了数学推理、代码生成以及通用问题解决等多个维度。从数据来看,在AIME24IFEval等关键测试中,QwQ-32B的表现甚至略微超过了参数量庞大的DeepSeek R1;在其他测试中,也基本与之持平,并大幅领先其他对比模型。这意味着,仅用1/20的参数量,通过强化学习就实现了性能上的惊人跨越。

技术揭秘:冷启动 + 结果导向的强化学习策略

Qwen团队在博文中简要介绍了QwQ-32B背后的强化学习方法:采用冷启动(cold-start checkpoint)方式,并实施结果导向(outcome-based rewards)的RL策略。

  • 冷启动:从预训练模型的检查点开始训练。
  • 结果导向:初始阶段主要针对数学和代码任务进行强化学习训练。
    • 数学问题:使用准确率验证器(accuracy verifier)确保答案正确。
    • 代码生成:使用代码执行服务器(code execution server)评估代码能否成功运行。
  • 通用奖励模型和规则验证器:后续阶段逐步引入更通用的奖励模型和规则验证器,提升其他通用能力。

这种策略的核心在于不依赖传统奖励模型,而是直接根据任务结果(答案是否正确、代码是否运行成功)来指导模型学习,效率更高、路径更直接。

开源开放

QwQ-32B模型采用开源开放(open-weight)方式发布。你可以在Hugging FaceModelScope上获取它,并基于Apache 2.0协议自由使用与研究。此外,也可以通过Qwen Chat平台直接体验QwQ-32B的对话能力。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:阿里全新推理模型仅1/20参数媲美DeepSeek R1要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/LargeLanguageModel/2025030670138.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-02 14:27
Huddlenow Insights 谷歌Meet商业企业视频会议服务全方位深度解析

GoogleMeet是面向商业与企业的视频会议服务,支持屏幕共享、实时字幕及与GoogleWorkspace集成,适用于项目讨论、网络研讨和线上教学等多种会议场景,具备扎实的安全与隐私保护。

AI热点2026-07-02 14:27
一款实用的YouTube视频高亮标注Chrome浏览器扩展插件

Lanter是Chrome扩展,利用AI将YouTube视频语音转为带时间戳的文字笔记,支持一键抓取高光、自动标点排版、书签管理、全局搜索及每日邮件汇总,方便高效回顾视频关键内容。

AI热点2026-07-02 14:27
WhisperNotes智能音频笔记应用

一款AI驱动的Chrome扩展音频笔记应用,支持录音自动转文字、标签分类与全文搜索,将语音转化为可检索的数字资产,显著提升信息定位与管理效率。

AI热点2026-07-02 14:27
Sharpen AI:Chrome扩展秒转Google Meet为笔记邮件任务

专为GoogleMeet设计的AIChrome扩展,实时转录会议内容,自动生成摘要并提取行动项与决策,无缝同步至Google文档、任务及Gmail,省去手动整理时间,显著提升协作效率。

延伸阅读