深度拆解Step-DeepResearch:阶跃星辰首个单智能体架构详解
转载自:阶跃星辰
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
比肩 gemini、成本直降 90%!
向大家介绍我们最新端到端深度研究智能体模型:step-deepresearch。

它能做什么?
会思考:懂规划、会反思、还能自主验证信息的真伪,不只是数据爬虫。
更专业:结合高质量搜索 api,内置 2000 万+ 高质量文档库和 600+ 权威站点索引,过滤低信源信息干扰。
更聪明:独特的原子能力训练法,让模型把“专家思维”内化在骨子里。
在针对真实复杂场景的 adr-bench 评测中,step-deepresearch 表现出极强竞争力,在多个维度上全面超越海内外一线 deepresearch 产品和模型,包括基于千亿级甚至万亿级参数 moe 架构的 gemini deepresearch、openai deepresearch 等模型。
而 step-deepresearch 仅基于单智能体架构实现。

在我们的技术报告全面公开后,立刻引发海内外社区热烈讨论,并入选 huggingface daily papers。


现在,我们开启 api 内测,欢迎大家踊跃体验!
论文地址:https://arxiv.org/pdf/2512.20491
github:https://github.com/stepfun-ai/stepdeepresearch
api 内测:https://wvixbzgc0u7.feishu.cn/share/base/form/shrcn8cp78pjgkjvvih2c3ef3cc
最新主页:https://www.stepfun.com/deep-research-invitation
step-deepresearch 在多项权威基准测试中都达到全球顶尖水平。
在 research rubrics 上,step-deepresearch 得分 61.42%,仅次于 gemini deepresearch(约 63.69分),且超越了 openai deepresearch。

在“引用质量”和“沟通质量”两个维度上达到了行业最高水平。

在针对真实研究场景的 adr-bench 评测中,step-deepresearch 的人类 elo 评分在多个维度处于第一梯队。
特别是在与 gemini deepresearch等顶尖模型的直接博弈中,其“胜+平”率高达67.1%,证明了其生成的报告质量已达到当前最先进水平。

step-deepresearch 引用最新行业动态(step-gui、豆包手机等),来自上百条条高质量信源,内容覆盖底层技术、应用、挑战与争议,客观全面分析议题,达到标准调深度研报告水平。

▲上下滑动查看详细内容
step-deepresearch 的主要创新可归纳为3方面:
基于原子能力的数据合成策略
渐进式智能体训练范式
自建 adr-bench 评估体系
我们将深度研究能力拆分为四个原子能力,并针对性地合成数据进行强化。
规划与任务拆解:能将模糊、宏大的用户需求拆解为可执行的子任务,并根据环境反馈动态调整路径。
深度信息搜索:具备多跳推理能力,能在信息不完整时进行“主动拓扑行走”,挖掘隐藏实体。
反思与验证:拥有“自纠错”和“事实核查”能力,能识别自身错误并区分网络信息的真伪,通过跨源验证确保逻辑严密。
报告生成:通过中期训练(mid-training)学习专家写作风格,并利用 sft 确保报告严格遵循规划结构和引用规范。
我们的智能体训练范式主要包含三个阶段:
agentic mid-training:在预训练和微调之间加入 mid-training,通过 32k 和 128k 两个阶段的上下文调度,注入原子能力,使模型内化“下一步行动”的决策逻辑,而非简单的“预测下一个 token”。
sft:侧重于长程决策轨迹的合成与领域适配,强化意图理解、规划执行及严格引用格式的遵循,解决模型在长时间研究任务中容易“分心”或“迷路”的问题。
rl:引入 checklist-style judger 奖励设计,将复杂的报告质量评估转化为细粒度的信号,进一步优化长程决策的鲁棒性。
在系统架构上,我们采用单智能体 react 架构,避免复杂多智能体系统协作带来的系统冗余。

此外,为了填补中文深度研究评估的空白,我们还构建了 adr-bench,涵盖商业调研、政策分析、软件工程等 9 大领域,包含通用和专业(法律、金融)两个维度。该基准测试不仅关注搜索结果是否正确,更加关注研究过程中的逻辑严密性、意图识别深度以及长程决策的鲁棒性。
欢迎转发,但请注明出处“上海经信委”
上观号作者:上海经信委
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
领克07 GT旅行车官图发布 蓝黑双拼色配运动套件
领克07 GT旅行车正式发布首批官方外观图,新车基于The Next Day概念车设计理念打造,将运动美学与实用旅行车功能完美融合。从官方释放的设计细节来看,这款车型不仅延续了领克家族标志性的设计语言,更在视觉张力和个性化配置上实现了突破,旨在为追求驾驶乐趣与生活方式的用户提供全新选择。 外观方面,
小米汽车双品牌战略启动 增程车型以高性价比入局
小米汽车近期正式发布全新独立子品牌“寻天”(英文名SKYNOMAD),聚焦增程式家用车市场。其首款车型“昆仑N3”(此前网络代号YU9)预计将于2026年下半年正式推向市场。这一战略布局被业内普遍解读为小米将其在手机领域验证成熟的“双品牌策略”延伸至汽车业务,旨在通过清晰的品牌与产品差异化,覆盖更广
中国家电行业面临挑战与机遇并存
三星电子的一纸公告,为其在中国大陆的电视、冰箱、洗衣机等家电销售业务画上了句号。颇具戏剧性的是,就在同一天,三星市值突破了万亿美元大关,其半导体部门单季度利润暴涨了756%。 这背后的商业逻辑再清晰不过:卖一台电视的利润,可能远不及卖一颗高端HBM存储芯片的零头。而后者,几乎不需要庞大的售后服务团队
维他动力获5亿元Pre-A轮融资 刷新消费级具身智能融资纪录
消费级具身智能赛道传来重磅消息。Vbot维他动力近日宣布完成近5亿元软妹币的Pre-A轮融资,创下了该赛道迄今为止最大单笔融资纪录。本轮融资由东方嘉富、华泰紫金、复星锐正联合领投,上汽集团旗下尚颀资本、明荟致远共同参与,凯辉基金、今日资本、高瓴创投、渶策资本、BV百度风投、柏睿资本等老股东继续跟投,
科大讯飞AI座舱音效亮相北京车展 引领智能汽车新体验
科大讯飞北京车展亮见:智能座舱的“人格化”与“全球化”新叙事 在今年的北京国际汽车展览会上,以“领时代,智未来”为主题的科大讯飞展台,成为了业界观察人工智能如何深度重塑汽车智能座舱体验的关键窗口。当行业竞争仍聚焦于基础语音识别准确率或屏幕尺寸时,科大讯飞已然将智能座舱的竞争维度,提升至“人格化交互”
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

