当前位置: 首页
手机教程
超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen

超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen

热心网友 时间:2025-04-23
转载

中国人工智能初创企业 deepseek 在 2024 年 12 月 26 日推出了一款新的超大规模模型:deepseek-v3。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

根据公司的许可协议,新模型可通过Hugging Face获取,拥有 671B 个参数,但采用混合专家架构,仅激活选定的参数以高效准确地处理任务。DeepSeek 分享的基准测试显示,该产品已位居前列,超越了包括Meta 的 Llama 3.1-405B在内的领先开源模型,并与 Anthropic 和 OpenAI 的闭源模型性能非常接近。

此次发布标志着闭源 AI 与开源 AI 之间的差距再次显著缩小。DeepSeek 起初是中国量化对冲基金High-Flyer Capital Management的一个分支,期望这些进展能为通用人工智能 (AGI) 铺平道路,通用人工智能的模型将具备理解或学习人类能够完成的任何智力任务的能力。

DeepSeek-V3 带来了哪些新功能?与前代 DeepSeek-V2 一样,新的超大规模模型采用相同的基本架构,围绕多头潜在注意力 (MLA)DeepSeekMoE。这种方法确保了高效的训练和推理——每个 token 激活 671B 中的 37B 个参数,由专门和共享的“专家”(大型模型内独立的、较小的神经网络)处理。

在基本架构确保 DeepSeek-V3 强劲性能的同时,公司还推出了两项创新,以进一步提升标准。

第一项是辅助无损负载平衡策略。该策略动态监控和调整专家的负载,以平衡的方式利用它们,而不损害整体模型性能。第二项是多token预测 (MTP),它允许模型同时预测多个未来token。这项创新不仅提高了训练效率,还使模型的执行速度提高了三倍,每秒生成 60 个token。

公司在介绍新模型的技术论文中写道:“在预训练期间,我们用 14.8T 高质量、多样化的 token 训练了 DeepSeek-V3……接下来,我们对 DeepSeek-V3 进行了上下文长度的两阶段扩展。” “在第一阶段,最大上下文长度扩展到 32K,在第二阶段,进一步扩展到 128K。此后,我们在 DeepSeek-V3 的基础模型上进行了后训练,包括监督微调 (SFT) 和强化学习 (RL),以使其与人类偏好保持一致并进一步释放其潜力。在后训练阶段,我们从DeepSeekR1 系列模型中提取推理能力,同时小心地保持模型准确率和生成长度之间的平衡。”

值得注意的是,在训练阶段,DeepSeek 使用了多种硬件和算法优化,包括 FP8 混合精度训练框架和用于流水线并行的 DualPipe 算法,以降低流程成本。

总体而言,公司声称在大约 2788K H800 GPU 小时内完成了 DeepSeek-V3 的全部训练,假设每 GPU 小时的租赁价格为 2 美元,则约为 557 万美元。这比通常用于预训练大型语言模型的数亿美元要低得多。

以 Llama-3.1 为例,预计其培训投资已超过 5 亿美元。

尽管训练成本低廉,DeepSeek-V3 已成为市场上最强大的开源模型。

公司运行了多个基准测试来比较 AI 的性能,并指出它的表现令人信服地优于领先的开放模型,包括 Llama-3.1-405B 和 Qwen 2.5-72B。它甚至在大多数基准测试中都优于闭源GPT-4o,除了以英语为中心的 SimpleQA 和 FRAMES——OpenAI 模型分别以 38.2 和 80.5 的得分领先(而后者为 24.9 和 73.3)。

值得注意的是,DeepSeek-V3 在中文和数学基准测试中表现尤为突出,得分高于所有同类产品。在 Math-500 测试中,它的得分为 90.2,其次是 Qwen 的 80 分。

唯一能够挑战 DeepSeek-V3 的模型是Anthropic 的 Claude 3.5 Sonnet,它在 MMLU-Pro、IF-Eval、GPQA-Diamond、SWE Verified 和 Aider-Edit 中均以更高的分数超越了 DeepSeek-V3。

这项研究表明,开源模型正在接近闭源模型,有望在不同任务上实现几乎相同的性能。此类系统的开发对行业来说非常有利,因为它有可能消除一家大型人工智能公司统治游戏的可能性。它还为企业在编排堆栈时提供了多种选择和使用方式。

目前,DeepSeek-V3 的代码可通过GitHub在 MIT 许可下获得,而模型则根据公司的模型许可提供。企业还可以通过类似 ChatGPT 的平台DeepSeek Chat测试新模型,并访问 API 以供商业使用。DeepSeek 提供的 API 价格与 DeepSeek-V2 相同,直到 2 月 8 日。此后,它将收取每百万输入token 0.27 美元(缓存命中时每百万 token 0.07 美元)和每百万输出 token 1.10 美元的费用。

超大型开源 AI DeepSeek-V3 发布,表现超越 Llama 和 Qwen

来源:https://www.php.cn/faq/1285553.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
苹果手机uc浏览器如何免费解压

苹果手机uc浏览器如何免费解压

iPhone使用UC浏览器免费解压文件的完整教程 在苹果手机上处理压缩包文件,是否需要一个免费便捷的解决方案?UC浏览器结合第三方解压工具,为用户提供了一套完整且不收费的文件解压方法。本指南将详细说明在iPhone上利用UC浏览器完成文件解压的具体步骤,助您轻松应对各类压缩文件。 第一步:获取并安装

时间:2026-04-03 10:32
树懒Acc邀请码输入位置在哪

树懒Acc邀请码输入位置在哪

树懒ACC邀请码如何输入?详细步骤与位置全解析 很多用户在初次使用树懒ACC时,希望通过邀请码获取专属福利,却常常在第一步就感到困惑——邀请码究竟需要在哪里输入?这个问题看似简单,但在实际应用中确实需要找准入口。本文将为您提供一份清晰、完整的操作指引,帮助您快速定位输入位置,顺利兑换所有相关权益。

时间:2026-04-03 10:25
腾讯文档在线文档怎么生成网页

腾讯文档在线文档怎么生成网页

在数字化办公成为主流的今天,腾讯文档作为一款优秀的在线协作文档工具,极大地提升了团队效率。而将腾讯文档在线文档生成独立网页,能够进一步扩大文档的传播范围,实现无需登录即可公开访问,便于在各种场景下分享与展示。 将腾讯文档内容转化为网页的操作流程其实非常简单。首先,您需要在腾讯文档中打开您希望发布成网

时间:2026-04-03 10:05
如何在线生成电子签名

如何在线生成电子签名

在数字化转型加速的今天,电子签名因其便捷高效与法律认可度而广泛应用。许多用户关心:电子签名在线生成具体如何实现?本文将为您逐步详解操作流程与要点。 选择可靠的电子签名服务平台 在线制作电子签名的首要步骤,是选择一个合法、安全的电子签名平台。目前国内较为常用的包括法大大、e签宝等知名服务商,它们均拥有

时间:2026-04-03 10:02
蝙蝠如何推荐好友

蝙蝠如何推荐好友

揭秘蝙蝠社会网络:高效的信息共享与互动推荐机制如何运作 在动物社会网络中,信息传递的精准与效率往往直接关系到群体的生存与发展。蝙蝠,作为高度社会化的哺乳动物,它们建立并维系社交关系的方式,展现出一种复杂且高效的系统性策略,远超我们通常的认知。 独特的感知与信息共享:基于回声定位的“即时推荐” 蝙蝠拥

时间:2026-04-03 09:44
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程