DeepSeek模型MODEL1架构解析:新代码架构最快2月发布
就在1月21日,科技媒体TheInformation透露了重磅消息:根据月初的爆料,DeepSeek很可能在今年2月中旬,也就是农历新年期间,正式发布其新一代旗舰AI模型——DeepSeekV4。据称,这一新模型的代码生成能力将迎来显著提升。
就在前一天,1月20日,恰逢DeepSeek-R1发布满一周年之际,有眼尖的开发者在DeepSeek的GitHub代码库中发现了新动态。一系列关于FlashMLA架构的代码文件被悄然更新,其中透露出重要线索:在总计114个文件中,有28处提到了一个此前未知的模型标识符——“MODEL1”。

这个名为“MODEL1”的标识符,在与已知的“V32”模型(即DeepSeek-V3.2)的代码中被并列提及,有时甚至被刻意区分。从代码的上下文关系来看,“MODEL1”极有可能代表着一个不同于现有技术架构的全新模型系列。
经过开发者的深入分析,“MODEL1”与“V32”在几项核心技术路线上存在明显差异,主要体现在键值(KV)缓存的分布策略、对稀疏性的处理方式,以及对FP8数据格式解码的原生支持等方面。这些技术细节上的不同似乎预示着,新架构可能针对内存优化和计算效率进行了专门的、更深入的设计。
值得一提的是,在此之前,DeepSeek研究团队已陆续发表了两篇重要的技术论文。一篇介绍了一种名为“优化残差连接(mHC)”的新训练方法,另一篇则阐述了一个受生物学启发的“AI记忆模块(Engram)”。这一连串的动作不禁让外界猜测,DeepSeek正在开发的新模型,很可能将会整合这些前沿的研究成果,带来更强大的能力。让我们拭目以待。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
智谱 GLM-5.1 高速版 API 发布 每秒处理 400tokens 刷新全球纪录
智谱推出GLM-5 1高速版API,输出速度达400tokens s,刷新全球纪录。该模型将旗舰级能力与极致低延迟结合,用户无需为速度牺牲质量。其性能得益于与TileRT联合开发的静态编排高性能推理引擎,通过编译期优化、细粒度任务拆分与多卡协同,大幅减少数据搬运与调度开销。该服务适用于AI编程、实时交互等高延迟敏感场。
特朗普暂停AI行政令背后监管与竞争的博弈
美国一项针对前沿AI模型的自愿安全测试行政令在签署前数小时被叫停。总统特朗普因担心监管阻碍技术领先地位而拒绝批准,凸显出美国在管控AI风险与维持竞争优势之间的政策矛盾。这一温和的自愿评估框架,仍在安全治理与竞争焦虑的拉扯中被暂时搁置。
OpenAI 2026年第一季度营收达57亿美元 领先Anthropic
OpenAI在2026年第一季度营收达57亿美元,较竞争对手Anthropic同期高出约10亿美元。其收入主要来自ChatGPT消费级产品,付费用户持续增长,但业务重心正转向企业服务。尽管营收亮眼,公司调整后营业利润率仍为负值,面临显著亏损。为应对竞争与盈利压力,OpenAI正加速推进上市进程,最早或于今年9月进行IPO。
马斯克AI助手Grok在美国政府遇冷使用率极低
马斯克旗下xAI的聊天机器人Grok在美国联邦政府市场遇冷。数据显示,在400多个政府AI应用案例中,Grok仅占三例,远落后于OpenAI等竞争对手。其低价策略未能推动普及,使用多限于基础任务。专家指出,这可能因模型难以满足政府安全需求,对SpaceX依赖AI业务的高估值构成挑战。
马斯克SpaceX星舰V3成功发射 NASA局长盛赞史上最强火箭
北京时间5月23日,SpaceX星舰V3火箭成功首飞并溅落印度洋。该火箭为史上最大最强,配备33台全新猛禽3发动机,运力超100吨,并集成在轨燃料加注系统。它已被选为NASA重返月球计划的载人着陆器,其成功标志着人类深空探索能力迈出重要一步。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

