机器学习中常用决策树算法技术深度解析
借助天气数据集,手把手带你推导决策树(ID3 与 CART)算法 首先梳理决策树的几个关键特性。作为机器学习中最经典的算法之一,决策树既能处理分类任务,也能完成回归分析。今天我们将重点聚焦分类场景。 什么是决策树? 决策树本质上是一棵“树”,其中每个内部节点代表一个属性条件的判断,分支对应判断的结果
借助天气数据集,手把手带你推导决策树(ID3 与 CART)算法
首先梳理决策树的几个关键特性。作为机器学习中最经典的算法之一,决策树既能处理分类任务,也能完成回归分析。今天我们将重点聚焦分类场景。
什么是决策树?
决策树本质上是一棵“树”,其中每个内部节点代表一个属性条件的判断,分支对应判断的结果,而叶子节点则输出最终的分类标签。上图展示了一个简单案例:如果身高大于180厘米,或者身高不足180厘米但体重大于80公斤,则判定为男性;否则为女性。它的核心优势在于可解释性极强——你一眼就能看懂模型得出结论的逻辑。

那么这棵树究竟是如何“生长”出来的?我们将通过一个经典的天气数据集来逐步说明。在此之前,需要先明确几个重要术语。
核心术语一览
熵(Entropy)
在机器学习中,熵用于衡量信息的不确定性或混乱程度。熵值越高,信息越杂乱,从中提取确定性结论的难度就越大。

信息增益(Information Gain)
简单来说,信息增益衡量的是在观测某个变量后,我们获得了多少“新增信息”。计算公式为:父节点的熵减去子节点的加权平均熵。

基尼不纯度(Gini Impurity)
如果随机为数据贴标签,基尼不纯度反映的是“贴错标签”的概率。其最小值为0——当数据仅包含一个类别时,基尼不纯度即为0。


构建决策树的主流算法主要有两种:
1. CART(分类与回归树):以基尼不纯度作为分裂标准。
2. ID3(迭代二分法3):以熵和信息增益作为分裂标准。
本文将重点讲解ID3算法,一旦掌握ID3,CART的学习便会变得非常轻松。
使用ID3算法进行分类:天气数据集实战演练
数据集结构如下:自变量包括天气预报、温度、湿度和风力,因变量为“是否踢足球(Yes/No)”。

第一步:确定根节点
1. 首先计算类别变量(因变量)的熵。
E(S) = -[(9/14)log₂(9/14) + (5/14)log₂(5/14)] = 0.94
(共14条记录,其中9个Yes,5个No)
2. 接着计算每个特征对应的加权平均熵。
以天气预报特征为例,先基于该特征对数据进行分组:

E(S, outlook) = (5/14)*E(3,2) + (4/14)*E(4,0) + (5/14)*E(2,3)
= (5/14)[-(3/5)log(3/5)-(2/5)log(2/5)] + (4/14)*0 + (5/14)[-(2/5)log(2/5)-(3/5)log(3/5)]
= 0.693
3. 计算信息增益:父节点熵减去加权平均熵。
IG(S, outlook) = 0.94 - 0.693 = 0.247
同样方法计算其他特征:
IG(S, Temperature) = 0.940 - 0.911 = 0.029
IG(S, Humidity) = 0.940 - 0.788 = 0.152
IG(S, Windy) = 0.940 - 0.8932 = 0.048
天气预报特征(outlook)的信息增益最高(0.247),因此它被选为根节点。
此时数据分布如下:

注意:当天气预报为多云(overcast)时,因变量全部是“Yes”,该分支可直接判定为“踢足球”,无需进一步分裂。
第二步:递归寻找子节点
接下来在晴天(sunny)分支下寻找下一个分裂节点,通过比较温度、湿度和风力三者信息增益的高低。

首先计算晴天分支的父熵:
E(sunny) = -(3/5)log(3/5)-(2/5)log(2/5) = 0.971
然后计算温度的信息增益:
E(sunny, Temperature) = (2/5)*E(0,2) + (2/5)*E(1,1) + (1/5)*E(1,0) = 0.4
IG(sunny, Temperature) = 0.971 - 0.4 = 0.571
同理:
IG(sunny, Humidity) = 0.971
IG(sunny, Windy) = 0.020
湿度(Humidity)的信息增益最大,因此它在晴天分支下成为子节点。

湿度正常(normal)则踢球,湿度高(high)则不踢。采用相同方法处理下雨分支。
最终得到完整的决策树:

使用CART算法进行分类
CART的流程与ID3几乎完全相同,唯一的区别在于将熵替换为基尼不纯度。
1. 计算因变量的基尼不纯度:
Gini(S) = 1 - [(9/14)² + (5/14)²] = 0.4591
2. 计算各特征的加权平均基尼不纯度:
以天气预报为例:

Gini(S, outlook) = (5/14)*Gini(3,2) + (4/14)*Gini(4,0) + (5/14)*Gini(2,3)
= (5/14)[1-(3/5)²-(2/5)²] + (4/14)*0 + (5/14)[1-(2/5)²-(3/5)²]
= 0.342
基尼增益 = 0.459 - 0.342 = 0.117
同理:
Gini gain(Temperature) = 0.459 - 0.4405 = 0.0185
Gini gain(Humidity) = 0.459 - 0.3674 = 0.0916
Gini gain(Windy) = 0.459 - 0.4286 = 0.0304
基尼增益最高的仍然是天气预报特征(0.117),因此它同样成为CART树的根节点。后续的递归过程与ID3完全一致,此处不再重复。
决策树的优点与不足
优点:
- 可解释性极强,特别适合需要“讲清逻辑”的业务场景。
- 对数据预处理要求较低,无需归一化或标准化。
- 能够满足低延迟的实时推理需求。
缺点:
- 对噪声数据敏感,容易产生过拟合——树越深,过拟合风险越高。常用的应对策略是进行剪枝操作。
(编辑:hfy)
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:机器学习中常用决策树算法技术深度解析要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点GoogleMeet是面向商业与企业的视频会议服务,支持屏幕共享、实时字幕及与GoogleWorkspace集成,适用于项目讨论、网络研讨和线上教学等多种会议场景,具备扎实的安全与隐私保护。
Lanter是Chrome扩展,利用AI将YouTube视频语音转为带时间戳的文字笔记,支持一键抓取高光、自动标点排版、书签管理、全局搜索及每日邮件汇总,方便高效回顾视频关键内容。
一款AI驱动的Chrome扩展音频笔记应用,支持录音自动转文字、标签分类与全文搜索,将语音转化为可检索的数字资产,显著提升信息定位与管理效率。
专为GoogleMeet设计的AIChrome扩展,实时转录会议内容,自动生成摘要并提取行动项与决策,无缝同步至Google文档、任务及Gmail,省去手动整理时间,显著提升协作效率。
- 日榜
- 周榜
- 月榜
热点快看
