人大清华DeepAnalyze：用大模型实现数据分析智能升级

首页

热心网友

转载

2025-10-31

DeepAnalyze-8B+具备模拟数据科学家行为的能力，能够在真实环境中自主编排和优化各类操作流程，最终独立完成复杂的数据科学研究任务。

来自人民大学与清华大学的研发团队近日发布了DeepAnalyze，这是首个面向自主数据科学能力的agentic LLM。该模型的问世迅速引发了业内的广泛讨论，上线仅一周便收获1000余个GitHub星标，社交媒体浏览量突破20万次。

DeepAnalyze项目正处于持续完善阶段，我们诚邀各位专家学者交流合作！欢迎研究人员和从业者在GitHub平台提交改进方案，成为项目贡献者，共同推动DeepAnalyze的发展！

DeepAnalyze-8B+能够模拟数据科学家的思维方式，在真实场景中主动规划执行路径、动态调整操作策略，最终攻克复杂的数据科研难题。该模型全面支持各类以数据为核心的关键任务：

数据任务：自动化数据预处理、深度数据分析、智能建模、可视化呈现、数据洞见发现与专业报告生成；数据研究：支持对任意数量的结构化数据（数据库、CSV、Excel）、半结构化数据（JSON、XML、YAML）及非结构化数据（TXT、Markdown）进行开放式深度探索，并生成分析师级别的研究报告；

DeepAnalyze作为真正的agentic LLM，无需任何预设工作流触发机制，即可自主完成复杂的数据科学全流程任务。

论文链接：https://arxiv.org/pdf/2510.16872 代码、Demo链接：https://github.com/ruc-datalab/DeepAnalyze 模型链接：https://huggingface.co/RUC-DataLab/DeepAnalyze-8B 数据链接：https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K

DeepAnalyze的完整论文、源代码、预训练模型及数据集均已开源，诚邀社区用户亲身体验！

DeepAnalyze: 自主实现数据科学全流程

DeepAnalyze支持本地化部署，可作为您专属的私有数据科学助手！

DeepAnalyze 是什么？

现有将LLMs应用于自主数据科学的方法，主要分为两大类别：

领域特定的LLM：面向数据科学的代码生成LLM、结构化数据理解LLM... 基于工作流的智能体：人工预设执行流程，通过提示词调用闭源LLM完成任务

现有方案在实践层面面临双重局限：

仅支持单点任务（例如数据清洗、模型训练），无法实现端到端的完整数据科学流程。闭源模型未在真实环境中的数据科学任务上专门训练，难以编排和优化各种复杂操作。

DeepAnalyze致力于推动基于LLM的数据科学系统从预设流程的智能体范式，转变到可训练的agentic LLM范式。

数据科学领域的复杂性为训练agentic LLM提出了新的挑战，主要包括：

奖励稀疏：数据科学的复杂性使得LLMs在训练的早期阶段基本无法成功完成任务，难以获取正向奖励信号，从而导致agentic LLM训练过程崩溃。路径稀缺：数据科学的解决过程通常依赖长链推理，求解轨迹的稀缺使得LLMs缺少足够的指导，导致其在庞大的搜索空间中进行低效且盲目的试错式探索。

针对这两个核心问题，DeepAnalyze创新性地引入了：

课程化的智能体训练：在真实环境中从单一任务到复合任务渐进式训练LLM，让大模型逐步提升能力，避免在复杂任务上奖励信号为0导致的强化学习失效。数据支撑的轨迹合成：自动化生成500K数据科学领域的推理过程与环境交互数据，在庞大的搜索空间中提供正确路径的明确指引。

通过在真实环境中的agentic训练，DeepAnalyze具备了自主编排和自适应优化操作的能力，能端到端地完成数据科学全流程，包括具体的数据任务和开放式的数据研究。

DeepAnalyze 在数据科学基准测试中表现优异

1. DeepAnalyze-8B在DataSciBench（端到端数据科学基准）上优于所有开源模型，与GPT-4o相媲美

2. DeepAnalyze在DSBench数据分析和数据建模任务上超越基于工作流的智能体

3. DeepAnalyze在面向数据的深度研究中取得最佳表现，能生成分析师级别的分析报告

例如：

更多实验结果请参阅DeepAnalyze完整论文。

总结

DeepAnalyze是首个面向自主数据科学的agentic LLM，具备两项核心能力：自主编排和自适应优化。作为一个基础模型，DeepAnalyze可以直接部署使用，也可通过提示词工程或监督微调进一步定制以适应特定场景。项目提出的课程化智能体训练范式与数据支撑的轨迹合成方法，有效解决了复杂场景下的奖励稀疏和轨迹稀缺问题，实现了对需要多种能力的高复杂度任务的有效学习。