通义千问发布Qwen2 Math新模型 72B版超越GPT-4
阿里推出Qwen2-MathDemo,含72B、7B、1 5B版本。72B在MATH上超GPT-4达7个百分点;7B以不足十分之一参数量击败NuminaMath。支持图文数学公式,多项测试表现优异。
阿里巴巴的“通义千问”团队又有了新动作——他们刚刚推出了Qwen2-Math Demo。这个数学模型的表现相当抢眼,甚至在某些测试中超过了GPT-4。
它的亮点在于不仅能处理文字描述的数学问题,还能直接读懂图片或截图中的公式。也就是说,你拍下一道算式的照片,它就能给出解答。听起来像是数学作业的“外设”吧?当然,工具归工具,基本功还是得自己练。

这次发布的Qwen2-Math有三个版本:72B、7B和1.5B。其中72B版本在MATH数据集上比GPT-4高出了7个百分点,提升幅度达到9.6%。打个比方,就像高考数学你考了145分,而旁边的学霸只拿了132分。
更让人意外的是,7B版本仅仅用了不到十分之一的参数量,就超越了72B的开源数学模型NuminaMath。要知道,NuminaMath可是在全球首届AIMO大赛中获奖的模型,颁奖人还是数学界的泰斗陶哲轩。
团队成员、高级算法专家林俊旸在发布时提到,他们通过一个特制的“数学专用语料库”对Qwen2基础模型进行了针对性训练。这个语料库包含了大量高质量的数学网络文本、书籍、代码、考试题目,甚至还有Qwen2自己“编”出来的数学题。用通俗的话说,就是给模型灌了一剂“数学补脑液”。
结果如何在GSM8K、MATH等经典数学测试集上,Qwen2-Math-72B把405B参数的Llama-3.1都甩在了身后。这些测试可不是闹着玩的,里面涵盖了代数、几何、概率、数论等各种难题。
此外,Qwen2-Math还挑战了中文数据集CMATH和高考试题。在中文数据集上,连最小的1.5B版本都能碾压70B的Llama-3.1。而且,无论哪个版本,相比同规模的Qwen2基础模型,成绩都有显著提升。
看起来,“通义千问”这次确实问出了一个数学尖子。以后遇到数学难题,或许可以试试让它帮忙,但别忘了——它只是一个工具,自己的数学功底还是得稳扎稳打地练。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:通义千问发布Qwen2 Math新模型 72B版超越GPT-4要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点Daetama是面向数据科学面试和SQL能力提升的练习平台,已收录超100个覆盖基础到进阶的SQL题目,求职板块与课程模块在开发中,团队保持每周更新节奏,提供系统性刷题与模拟面试场景。
SpeakMulti是一款AI驱动的配音平台,可将YouTube视频翻译成多种语言,保留原始说话者的音色和语调,降低本地化成本。用户提交视频并选择目标语言后,AI自动完成配音,并由专家团队审核,确保准确自然。
需求人群 如果你经常需要从图片中提取文字——例如整理截图内容、翻译图片里的外语文本、识别带有水印的图片信息——那么 Umi-OCR 无疑是一款相当实用的工具。它完全在本地运行,无需联网,对隐私保护极为友好。 产品特色 这款工具的核心亮点都集中在实用性上。截屏识别操作非常顺手,按下快捷键即可框选区域,
艺术创作与人工智能的融合,正在开启一个全新的创作时代。moonlightai 正是这样一款AI绘画工具,能够帮助用户通过人工智能快速生成不同风格的绘画作品——无论你想复刻文艺复兴时期的古典优雅,还是为画作注入梵高般炽热的笔触,甚至从艾沃佐夫斯基的海浪星空中汲取灵感,它都能轻松实现。 需求人群 简单来
- 日榜
- 周榜
- 月榜
热点快看
