蚂蚁发布万亿参数Ling-1T模型,多项测试领先,FP8训练及创新方法成亮点

蚂蚁百灵大模型家族迎来重要成员——Ling-1T。这款拥有万亿参数的通用语言模型由蚂蚁集团自主研发,作为Ling 2.0系列的首款旗舰产品,其规模与性能均创下团队历史新高。该模型在复杂推理任务中展现出卓越能力,在有限输出Token条件下,于多项基准测试中刷新最佳成绩,尤其在高效思考与精确推理的平衡方面表现突出。
在竞赛数学领域,Ling-1T的表现尤为亮眼。以美国数学邀请赛25题(AIME 25)为例,该模型仅消耗平均4000余Token即达到70.42%的准确率,超越同期测试的Gemini-2.5-Pro(消耗5000+Token,准确率70.10%)。这种以更少资源实现更高精度的特性,使其在推理效率与准确率的综合评估中占据优势,相关成果已推动该领域帕累托前沿的拓展。
技术架构方面,Ling-1T延续了Ling 2.0的核心设计,依托超过20万亿Token的高质量语料库完成预训练,支持最长128K的上下文窗口。通过"中训练+后训练"的演进式思维链(Evo-CoT)技术,模型在复杂逻辑推导和精准答案生成方面获得显著提升。特别值得关注的是,该模型采用FP8混合精度训练方案,成为当前已知规模最大的FP8基座模型,这项创新使显存占用降低、并行策略更灵活,并实现15%以上的端到端训练加速。
在强化学习阶段,研发团队提出LPO(Linguistics-Unit Policy Optimization)策略优化算法,以"句子"为最小优化单元。这种设计既避免了词元级处理的碎片化问题,又克服了序列级优化的笼统性,使奖励信号与模型输出在语义层面实现精准匹配。同时,团队构建的"语法-功能-美学"混合奖励机制,在确保代码正确性的基础上,显著提升了模型对视觉美学的理解能力。
在前端开发能力评估中,Ling-1T于ArtifactsBench基准测试取得59.31分,虽略低于Gemini-2.5-Pro-lowthink的60.28分,但在开源模型中稳居首位。该模型在代码生成、软件开发、专业数学等领域同样表现优异,多项指标刷新开源社区纪录。目前,开发者可通过Hugging Face平台及蚂蚁百宝箱等渠道体验Ling-1T的完整功能。
据悉,蚂蚁百灵团队还在同步推进深度思考大模型Ring-1T的研发,其preview版本已于9月30日开源。这款聚焦复杂推理的新模型,将与Ling-1T形成能力互补,共同构建更完整的AI技术矩阵。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
忠县超级月亮点亮夜空,与地标交相辉映 || 10月7日夜空奇观
当夜幕缓缓降临忠县,一场与“超级月亮”的浪漫邂逅悄然上演。在柔和月光的映照下,整个夜空宛如被披上了一层梦幻的薄纱,显得格外迷人。据悉,今年中秋月的最圆时刻定格在10月7日(农历八月十六)11时48分
剑星手办收藏热!申才恩AI设计引爆话题
剑星女主角伊芙的原型模特申才恩近日在社交平台分享了一组特别的作品——她利用AI技术将自己形象生成为虚拟手办。从发布的内容来看,即便经过数字化处理,依然能清晰展现出她出众的身材比例与立体美感。这一创意
影驰双11京东狂欢开启,今晚8点限时抢购
今晚八点整,影驰京东自营旗舰店将正式打响双十一首波福利活动!“评价抽好礼”即日启动,活动持续至11月11日23:59,买显卡即有机会赢取百元京东E卡、机械键盘等多重豪礼!在影驰京东自营旗舰店购买RT
耗时五年无源码重现,《红警2》网页版重启20年经典
一款问世二十余年的游戏,至今仍有大量玩家沉浸其中,仿佛对它有着难以割舍的执念——它就是《红色警戒2》。在许多人的记忆里,这款游戏曾是课余时光的“标配”,如今,依然有一群人以各种方式延续着对它的热爱。
如何在喧嚣中寻得内心深处的宁静
城市的喧嚣如潮水般涌来,车水马龙的声响与行人的交谈交织在一起,形成一张无形的网,将每个人的生活笼罩在一片灰蒙蒙的氛围中。在这片“人间”里,人们仿佛被烦恼与业力的浪潮裹挟着,时而沉入水底,时而浮出水面
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















