数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

DeepSeek核心功能与典型应用场景详解

AI热点日报时间：2026-07-05

热点解读

掌握DeepSeek，洞悉大模型未来趋势。核心内容： 1 DeepSeek特性及其技术路线分析 2 DeepSeek与竞品性能对比 3 DeepSeek在金融风控等领域的应用前景一、大模型发展回顾 1 1 大模型发展历程要理解DeepSeek的崛起，有必要先回顾一下大模型的发展轨迹。尤

掌握DeepSeek，洞悉大模型未来趋势。

核心内容：

1. DeepSeek特性及其技术路线分析

2. DeepSeek与竞品性能对比

3. DeepSeek在金融风控等领域的应用前景

一、大模型发展回顾

1.1. 大模型发展历程

要理解DeepSeek的崛起，有必要先回顾一下大模型的发展轨迹。尤其是OpenAI的动作，基本可以作为行业风向标来看。

2024年5月，OpenAI发布GPT-4o，模型能够处理和生成文本、图像和音频。GPT-4o在语音、多语言和视觉基准测试中取得了最先进的成果，创造了语音识别和翻译的新纪录。

2024年7月，OpenAI发布GPT-4o mini，取代ChatGPT界面上的GPT-3.5 Turbo，API成本显著降低，适用于企业、初创公司和开发者。

2024年9月，OpenAI发布o1-preview（更适合推理任务）和o1-mini（更适合编程任务）模型，这些模型设计为在生成回答时花费更多时间思考，从而提高准确性。

2024年12月，OpenAI发布o1，比o1-preview更智能、更快，功能更多（比如多模态功能）。

2025年2月，OpenAI发布o3-mini，在大多数情况下，o3-mini比o1-mini产生更准确、更清晰的答案，同时响应更快，其平均响应时间为7.7秒，较o1-mini的10.16秒提升了24%。

2025年2月9日，OpenAI发布全新的智能体——deep research，可以进行网络浏览和数据分析，可以利用推理来搜索、解释和分析互联网上的大量文本、图像和PDF文件，并根据搜集的信息进行灵活调整。

2025年2月9日，OpenAI表示内部已达到了GPT-4.5，表示接下来的重点是高能力的推理模型、多模态以及智能体。

2025年2月28日，OpenAI发布GPT-4.5，最大、知识最丰富、情商最高的大模型。

*GPT-4o的o表示omni，意为“全知全能的”；o1/o3的o表示OpenAI。

从OpenAI的发展过程看大模型的发展趋势，几条线索其实很清晰：

GPT-x系列：更强的通用能力；
GPT-4o等：多模态输入输出能力；
o系列：推理模型，复杂推理能力，CoT；
-mini：更低成本、更快响应速度；
deep research等：大模型agent。

1.2. 大模型基本原理

大模型是如何构建的？

引用论文Large Language Models: A Survey [1]，整个过程可以拆解为几个关键步骤：

Step 1：准备数据和数据清洗。数据集源于网页、书籍、博客、知乎、百科等。
Step 2：分词，转化为模型可用于输入的token。
Step 3：位置编码。
Step 4：进行模型预训练，即输入文本，让模型做next token prediction等任务。
Step 5：通过SFT等手段微调和指令微调，教会大模型如何对话和完成特定任务。
Step 6：通过RLHF等手段进一步对齐人类偏好，引入人类反馈，指导模型优化方向，生成更加符合人类需求，缓解有害性和幻觉的问题。
Step 7：通过贪心搜索等生成策略，逐步生成下一个词。
Step 8：优化与加速训练推理过程。

核心的三个步骤：预训练，有监督微调和人类反馈强化学习。

1.3. 推理模型与通用模型

大模型发展至今，可以分为通用大模型与推理大模型。

通用大模型：适用于大多数任务，侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。
推理大模型：在传统模型基础上，强化推理、逻辑分析和决策能力。

思维链（Chain of Thought, CoT）通过要求/提示模型在输出最终答案之前，显式输出中间逐步的推理步骤这一方法来增强大模型的算术、常识和推理的性能。从该角度，可以将大模型的范式分为两类：概率预测（快速反应模型）和链式反应（慢速思考模型），前者适合快速反馈，处理即时任务，后者通过推理解决复杂问题。

一个例子：问“1+2+3+4+5+6+7+8+9+10=多少，直接告诉我答案”。

快速反应模型回答：55
慢速思考模型回答：先逐步计算，再给出答案。

二、DeepSeek

2.1. DeepSeek是什么

DeepSeek（深度求索）是中国的人工智能公司，成立于2023年7月，由知名量化资管巨头幻方量化创立，专注于探索通用人工智能（AGI）的实现路径，主攻大模型研发与应用。
DeepSeek-V3是其开源的通用自然语言处理模型，对标GPT-4o。
DeepSeek-R1是其开源的推理模型，擅长处理复杂任务，对标OpenAI o1 / o1-mini。

DeepSeek主流模型的竞品对标。

2.2. DeepSeek可以做什么

直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，支持联网搜索与深度思考，同时支持文本上传，能够扫描读取各类文件及图片的文字内容。

2.3. DeepSeek的模型对比

2.3.1. DeepSeek模型发展史

我们常说的DeepSeek的大模型，是指当前主流的DeepSeek-V3和DeepSeek-R1。

2.3.2. V3与R1的对比与选择

总结：不考虑调用成本，复杂推理任务（例如数学、代码等）或者希望获取思维链，优先DeepSeek-R1；内容创作、文本生成等优先DeepSeek-V3。

DeepSeek-V3与DeepSeek-R1的对比。
选择V3和R1的指南。

2.3.3. 竞品-OpenAI的大模型

*o3-mini的一个介绍：[3]，o1-mini的一个介绍：[4]，GPT-4o的一个介绍：[5], GPT-4o-mini的一个介绍：[6]

2.3.4. 竞品-通义千问的大模型

引用：通义千问官网[7]

2.4. DeepSeek为什么大火

2.4.1. 性能优越

DeepSeek-V3推断速度快：吐字速度从V2的20TPS提升到60TPS。
DeepSeek-V3性能优越：在目前大模型主流榜单中，DeepSeek-V3在开源模型中位列榜首，与世界上最先进的闭源模型不分伯仲。
DeepSeek-R1专注于推理能力，尤其是密集推理任务（reasoning-intensive tasks），比如代码、数学、科学、逻辑推理这些带有明确答案的良定义的问题。DeepSeek-R1在数学、代码、自然语言推理等任务上性能可比肩OpenAI o1模型正式版。

在AIME 2024数学基准测试中，DeepSeek-R1得分率79.8%，OpenAI o1得分率79.2%。
在MATH-500基准测试中，DeepSeek-R1得分率97.3%，OpenAI o1得分率96.4%。

顿悟（Aha）时刻：单纯的RL（没有显式地提供CoT数据，而是告诉模型先思考，再回答）就可以激发模型产出带有长思维链（甚至是反思）的回复的能力。在DeepSeek-R1-Zero训练过程中，在某个特定阶段，模型突然学会了重新评估自己的初始方法，并为复杂问题分配更多的思考时间。这个时刻不仅标志着模型能力的质的飞跃，也是研究者们的重大发现，它展示了强化学习在培养AI自主思考和问题解决能力方面的巨大潜力。
蒸馏小模型：在R1的发布中，同时探索了如何将大模型的推理能力高效地蒸馏到小模型中，使用DeepSeek-R1生成80万条训练样本，直接对开源的小模型（如Qwen和Llama系列）进行微调，开源了方便本地部署的一众蒸馏小模型。

*AIME 2024：数学题，涵盖算术、代数、计数、几何、数论、概率等中学数学主题的综合评测，测试数学问题解决能力。

*MATH-500：包含500个测试样本的MATH评测集，全面考察数学解题能力。

*GPQA：研究生水平的专家推理，一个通过研究生级别问题评估高阶科学解题能力的评测集，旨在考察科学问题解决能力。

2.4.2. 训练便宜

结论：DeepSeek-V3较OpenAI竞品，训练成本约为1/20 ~ 1/3。

DeepSeek-V3训练成本557.6万美元，但不包括架构、算法等成本。以H800算力为例，训练消耗278.8万个GPU小时，租用价格为2美元/GPU小时。
根据第三方测算，OpenAI o1训练需要3.2万张H100训练90天，需要6912万H100 SXM GPU小时，预计训练成本数亿美元。据此估算，DeepSeek-V3训练成本是Meta的1/10，OpenAI的1/20。
保守估计，现在在美国预训练几千亿参数的一个模型其实也就不到2000万美元的成本，DeepSeek把成本差不多压缩到三分之一。

*注：H800为针对中国市场定制，性能和价格略低于H100。

2.4.3. API调用便宜

结论：DeepSeek-V3 API调用价格约为OpenAI o3-mini的1/4，为GPT-4o的约1/10。但要高于GPT-4o-mini，性能强于GPT-4o-mini。

以下为当前调用价格，以token为单位，1个英文字符约0.3个token，1个中文字符约0.6个token，即1 token可对应1-2个中文汉字，或对应3-4个英文字符，或0.75个英文单词，截止到2025年2月8日。

*o3 mini思维链：2025年2月7日，OpenAI公开o3 mini思维链，业界猜测非原始思维链，而是总结之后的思维链输出。

*缓存命中：在大模型API的使用场景中，用户的输入有相当比例是重复的。举例说，用户的prompt往往有一些重复引用的部分；再举例说，多轮对话中，每一轮都要将前几轮的内容重复输入。启用上下文硬盘缓存技术，把预计未来会重复使用的内容，缓存在分布式的硬盘阵列中。如果输入存在重复，则重复的部分只需要从缓存读取，无需计算。该技术不仅降低服务的延迟，还大幅削减最终的使用成本。

*MMLU（大规模多任务语言理解）是一种新的基准测试，涵盖STEM、人文、社会科学等57个学科，有效地衡量了综合知识能力。

2.4.4. 其它因素

开源：代码仓库选择了大气的MIT开源协议，模型适用自建开源许可证，完全不限制商用。
作为鲶鱼，让全球大模型竞赛进一步提速。OpenAI发布全新推理模型o3-mini，并首次向免费用户开放推理模型。OpenAI CEO奥尔特曼首次承认，在开源上OpenAI站在了历史的错误一方。过去一周多的时间里，国内外大模型厂商从“紧急上线”新模型，到降价、免费，种种措施表明，在DeepSeek的刺激下，AI大模型行业的竞争正变得越来越激烈。
学术上：DeepSeek-R1-Zero展示了自我验证、反射和生成长CoT等功能，这标志着研究界的重要里程碑。这是第一个验证的开发研究，可以纯粹通过RL来激励LLMs推理能力，而无需SFT，解决了CoT数据获取困难的问题。

2.5. DeepSeek为什么又好又省——技术路线

2.5.1. 主要技术路线

模型结构和训练方法上：省

参考：DeepSeek-V3技术文档 [8]

DeepSeekMoE：混合专家模型，推理时，仅动态激活部分专家（37B参数），而非全模型参数（671B参数），减少计算负担。
引入无辅助损失的自然负载均衡来解决不同专家的负载均衡问题。
采用MLA（Multi-Head Latent Attention）架构，扩展了传统的多头注意力机制，引入潜向量（latent variables），可以动态调整注意力机制，捕捉任务中不同的隐含语义。在训练中减少内存和计算开销，在推理中降低KV缓存占用空间，把显存占用降为MHA架构的5%~13%。
采用多步token预测MTP（Multi-Token Prediction）。一般LLM一次生成1个token，DeepSeek在特定场景下能同时预测多个token，来提高信号密度。一方面能够减少上下文漂移、逻辑更连贯，也能减少一些重复中间步骤，在数学、代码和文本摘要场景能提升效率。
采用了GRPO（Group Relative Policy Optimization）的强化学习算法。核心思想是：对于每个问题，从旧策略中采样多个输出，然后根据这些输出的奖励计算相对评分来优化新策略。跳过传统RL中与策略模型等规模的critic网络，减少开销。

模型结构和训练方法上：好

CoT：Chain of thought。将复杂的问题拆分成小步的中间逻辑，细分逻辑链条。在训练阶段，DeepSeek-R1用标注的Long CoT数据微调模型，让模型生成更清晰的推理步骤，在强化学习中用CoT设计奖励优化，增强长链推理能力，并且在此过程中观察到了模型的反思（回溯推理路径）、多路径推理（能给出多个解）、aha时刻（通过策略突破瓶颈）等自发行为。
拒绝采样：当针对推理的强化学习收敛后，研究者们使用训练得到的模型进行拒绝采样，生成多个答案，然后只选择最优的答案来继续训练，生成新的监督微调（SFT）数据。这个阶段的目的是提高模型在非推理任务（如写作、角色扮演等）上的表现。

工程上：省

FP8混合精度训练：引入了FP8混合精度训练框架，相比传统的FP16精度，数据内存占用更少，但在一些算子模块、权重中仍然保留了FP16、FP32的精度，节省计算资源。
底层通信优化：专门开发了高效的跨节点全对全通信内核，优化对带宽的利用，保证数据传输效率，并能支持大规模部署。
DualPipe跨节点通信：传统训练信息流水线会产生一些等待时间、有“流水线气泡”，DeepSeek设计了一个双重流水线，让一个计算阶段在等待数据传输时可以切换到另一批数据，充分利用空闲时间。
并行：对硬件的极限使用。在系统架构层面，DeepSeek就使用了专家并行训练技术，通过将不同的专家模块分配到不同的计算设备上同时进行训练，提升了训练过程中的计算效率。并对算力做极致压缩。

2.5.2. Mixture of Experts（MoE）混合专家模型

MoE在NLP、CV、多模态和推荐系统中有广泛的应用（时间线上面的开源，下面的闭源）。

参考：A Survey on Mixture of Experts [9]

核心想法：模型的不同参数，作为专家，针对不同的任务或者不同的数据定制化。
优点：给定输入，只有部分相关的专家会被激活，使得计算量减少，但受益于丰富的定制化的知识池。

两种典型的MoE：Dense MoE VS. Sparse MoE

Dense MoE：每次前向传播，所有专家参与，计算负担大。
Sparse MoE：在每次前向传播时只选择专家的一个子集，即Top-k专家。

往往会带来负载均衡问题，即专家工作量的不均衡分布，部分专家频繁更新，其它专家很少更新，大量研究专注于解决负载均衡问题。

DeepSeek的MoE结构：DeepSeekMoE

DeepSeek-R1：1个共享的专家+63个路由的专家，每个专家是标准FFN的1/4大小。

2.5.3. Multi-Head Latent Attention (MLA)

低秩联合压缩键值：MLA通过低秩联合压缩键值（Key-Value），将它们压缩为一个潜向量，从而大幅减少所需的缓存容量，降低计算复杂度。
优化键值缓存：在推理阶段，MHA需要缓存独立的键和值矩阵，会增加内存和计算，而MLA通过低秩矩阵分解技术，显著减小了存储KV的维度，从而降低了内存占用。

2.5.4. R1的训练范式：冷启动与多阶段RL

Step 1 — 冷启动：先收集一部分高质量CoT冷启动数据（约几千条），使用该数据fine-tune DeepSeek-V3-base模型，记为模型A。
Step 2 — 大规模RL：使用A模型用GRPO训练，使其涌现推理能力，收敛的模型记为B。
Step 3：使用B模型产生高质量SFT数据，并混合DeepSeek-V3产生的其它领域的高质量数据，形成一个高质量数据集。
Step 4 — 再次SFT：使用该数据集训练原始DeepSeek-V3-base模型，记为模型C。
Step 5 — 最终RL：使用C重新进行Step 2，但是数据集变为所有领域，收敛后的模型记为D，这个模型就是DeepSeek-R1。
Step 6：训练C模型的数据对小模型进行蒸馏，得到蒸馏的相对较小的模型。

2.6. DeepSeek与竞品对比

2.6.1. 几个竞品的对比

项目/模型	DeepSeek-R1	GPT-4o	豆包
模型定位	专注高端推理和复杂逻辑问题	通用大模型，旨在处理多任务、多模态	中文环境，面向C端用户，轻量化、娱乐化
是否开源	是	否	否，商业化产品
擅长功能	复杂推理，例如数学、代码	通用语言生成、多模态理解	拟人化聊天、创意内容生成、图像生成
定制化程度	高；用户可修改模型行为并针对特定用例进行优化	低；主要通过API调用于提示工程进行微调	低；提供API服务，灵活性低
硬件要求	温和；部署对硬件要求相对适中	不适用；仅通过OpenAI基础设施上的API提供	作为云端产品，无需自建硬件，后端依赖云计算集群
多模态支持	暂无，可用Janus-Pro多模态大模型	强多模态能力，支持文本、图像等输入	一定的多模态支持
用户群体	开发者、企业用户、专业研究者	全球用户、企业客户和开发者，高端市场	普通消费者、内容创作者，字节生态

DeepSeek：适合需要行业定制化、高性价比的企业用户、研究者，尤其是中文垂类场景。
GPT系列：优势在于通用性、多模态能力和全球化知识覆盖。
豆包：定位轻量级C端应用，交互简单、内容偏娱乐化，依赖字节生态，知识偏国内。

2.6.2. DeepSeek的缺点

DeepSeek-V3在一些层面上是有偏科的。它的创意生成相对薄弱，开放性任务表现一般，结构化思维的能力远高于发散思维。甚至在专业领域比通用领域表现得更好。
DeepSeek-R1专注于推理，在函数调用、多轮对话、复杂角色扮演和JSON输出等任务上的能力不及DeepSeek-V3。
民间测试：在经典的编写重力小球弹跳可视化脚本的实验中，从物理学的遵循程度来讲，与OpenAI o3-mini相比还是有差距的。

2.6.3. DeepSeek的影响

推动了大模型开源进程，作为鲶鱼，让全球大模型竞赛进一步提速。

2.7. DeepSeek使用建议

DeepSeek提示词库[11]

2.7.1. DeepSeek使用的不同点

DeepSeek-R1作为推理模型：
- 其已内化推理逻辑，prompt应该更加简洁，只需明确任务目标和需求。
- 无需逐步指导，模型自动生成结构化推理过程，如果强行拆解步骤，可能会限制其能力。
DeepSeek-V3作为通用模型：
- 对于复杂推理任务，需显式引导推理步骤。
- 依赖提示语补偿能力短板，如要求分析思考、提供示例等。

2.7.2. R1的正确打开方式

对于推理大模型，存在欺骗技巧失效和“启发式提示”失效的问题：

参考：知乎田威AI[12]

欺骗技巧失效。
角色扮演和结构化提示词等“启发式提示”失效。过去角色扮演和结构化提示词可以显著提升AI生成内容的质量，但在R1等推理模型上，DeepSeek并没有真的在扮演我们让它扮演的角色，而是通过推理分析用户的需求来生成内容，并且自主完成思维链的构建，因此启发式提示可能会干扰逻辑主线。

2.7.3. DeepSeek使用建议

自然语言优先。DeepSeek在交互方式上追求自然，我们只需要像跟人对话一样描述你的实际需求与真实场景。一个可能的提问模板：[前情]+[任务]+[要求]+[补充]
善用DeepSeek-R1的深度思考能力：
- 1. “批判视角”，帮我们识别潜在风险。
- 2. “逆向推演”，强制验证逻辑漏洞。
- 3. “跨界迁移”，引入其他领域解决方案。
多看思考过程，了解解题思路。
警惕AI幻觉。尤其是处理大量史实类信息、日期类信息时会有大量错误。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：DeepSeek核心功能与典型应用场景详解要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/LargeLanguageModel/2025032695836.html

ai 人工智能

上一篇：草稿链Chain-of-Draft成为提示技术新王者

下一篇：NVIDIA助力打造现代AI数据中心基础架构

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。