欧洲版OpenAI:CEO详解DeepSeek-V3架构争议与构建初衷
最近一次访谈中,欧洲版OpenAI的联合创始人兼CEO Arthur Mensch声称,DeepSeek-V3是在Mistral提出的架构基础上构建的。这一说法在网络上引发了广泛争议。不少网友对此提出质疑,认为其中存在诸多不合理之处。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
Arthur Mensch提到,Mistral是最早发布开源模型的公司之一,而中国开源AI的强势发展让他们看到了开源策略的优势。他强调,开源并非真正的竞争,大家是在彼此的基础上不断进步。他举例说,Mistral在2024年初发布了首个稀疏混合专家模型(MoE),而DeepSeek-V3及其后续版本都基于此架构构建,且Mistral公开了重建这种架构所需的一切。
然而,网友们指出,DeepSeek的MoE论文发布时间与Mistral论文仅相差三天,且两者架构思路并不相同。此前,Mistral 3 Large甚至被指基本照搬了DeepSeek-V3的架构。从数学公式来看,两者虽都采用GShard风格的Top-K路由器,但DeepSeek改变了传统MoE架构中的门控机制和专家结构。在专家粒度和数量方面,Mixtral沿用标准MoE设计,DeepSeek则提出细粒度专家分割,使专家组合更灵活。在路由机制上,Mixtral中专家地位平等,DeepSeek引入共享专家,实现了知识分布的解耦。
此外,有网友提到,Mixtral的论文并未提及训练细节,仅提到采用Google GShard架构和简单的路由机制。而2025年12月发布的Mistral 3 Large被发现直接沿用了DeepSeek-V3的架构。网友们认为,Mistral试图通过岁月史书来挽回面子,但DeepSeek在稀疏MoE、MLA等技术上已获得更大影响力。有网友调侃,现在的Mistral已非曾经惊艳大模型开源圈的那个Mistral了。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
iOS 26.5 Beta 1:欧盟用户现可接入第三方配件通知
IT之家 3 月 31 日消息,科技媒体 9to5Mac 今天(3 月 31 日)发布博文,报道称苹果更新开发者协议,在欧盟地区为第三方配件接入 iPhone 通知和实时活动(Live Activi
特朗普或结束伊战提振市场,比特币等风险资产上涨前景
智通财经APP获悉,周二亚洲交易时段,加密货币与股票、债券同步走高,市场正在消化一则消息:美国总统唐纳德·特朗普正考虑结束与伊朗的战争。比特币一度上涨2 6%,触及68,335美元,随后回吐部分涨幅
武汉光谷AI人才新政:最高支持1350万元
不看学历看代码,不看资历看作品,不唯学历、论文和职称……3月31日,武汉东湖高新区启动人工智能重大创新创业团队引进专项行动,推出人工智能领域专属引才政策,新政以GitHub星标数、API调用量、用户
内存价格暴跌商家承压:一盒亏损数千元探因
2026 03 31作者 |第一财经 吴彤 李梓晗 朱斌持续数月上涨的内存条价格近日突然下跌。第一财经记者走访深圳华强北了解到,自从两周前开始,内存条价格就开启阴跌模式,甚至出现早晨收货下午就跌价的
中国科协:2026年NeurIPS会议资助调整与学者参会指引
中国科学技术协会2026年3月31日发布告示:中国科协曾于2026年3月27日就2026年NeurIPS会议发表声明,本意是尽力维护我国关涉学者正当利益,其措施原则是清晰、适当的,没有发生变化。现就
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

