聊一聊信贷领域中的特征分箱
等款分箱和等频分箱针对的是无监督样本,而卡方分箱针对的是有监督样本。其核心思想是利用卡方检验(Chi-Square Test)来衡量相邻两个区间的分布相似性,从最小的箱开始,不断合并卡方值最小的相邻箱,直到满足停止条件(如分箱数、卡方阈值)。
楔子
最近收到不少小伙伴的私信,在这里统一回复:谢谢大家关心,我还活着,只是不更新了而已。然后也有小伙伴从几个月前就一直问我啥时候更新,我的回答是没啥好更新的了,建议大家一定要拥抱 AI,生产力绝对会成倍提升。
但话都说到这儿了,不更新一篇也不合适。由于目前正在从事风控领域,就更新一篇风控相关的文章吧。
什么是特征分箱?
在信贷风控领域,特征分箱(Feature Binning)是一项至关重要且应用广泛的特征工程技术,它的作用是将连续型特征(如年龄、收入)或多取值的离散型特征(如职业)进行分组、装箱,将其转化为一系列离散的区间或类别。这一看似简单的操作,在构建稳定、可解释且高效的信用评分卡等风控模型中,扮演着定海神针般的关键角色。
而之所以要特征分箱,是因为在原始的连续型特征上直接建模,往往会遇到诸多挑战。而特征分箱通过将数据离散化,带来了多方面的显著优势。
提升模型的稳定性和鲁棒性:分箱操作能够有效降低特征中 "噪声" 的干扰。例如借款人年龄的微小变动(从 30 岁变为 31 岁)可能并不会对其信用风险产生实质性影响,分箱后,这些细微的波动被平滑处理,能有效防止模型因过度拟合个别数据点而变得不稳定,从而增强模型的泛化能力,使其在面对新数据时表现更稳健。增强模型的可解释性:将连续特征转化为有限的几个箱,极大地增强了业务人员对模型决策逻辑的理解。例如,相比于 "年龄每增加一岁,违约概率下降 0.5%" 这种复杂的线性关系,"年龄在 30 ~ 40岁之间的客群,其信用风险较低" 这样的结论显然更直观,更易于向决策层和业务部门解释和沟通。有效处理非线性关系:现实世界中,许多特征与信用风险之间并非是简单的线性关系。例如,年龄与违约率可能呈现 U 型关系,即年轻人和老年人的风险相对较高,中年人风险较低。分箱操作可以将这种非线性关系转化为分段的线性关系,使得逻辑回归等线性模型也能有效捕捉到这种复杂的模式。便捷地处理缺失值和异常值:在进行分箱时,可以将缺失值或异常值作为一个独立的 "箱" 来处理。这不仅避免了复杂的缺失值填充或异常值剔除操作,还能将 "缺失" 或 "异常" 本身作为一种信息纳入模型考量,有时这些特殊值本身就蕴含着特定的风险信息。为后续的 WOE 转换和评分卡创建奠定基础:在构建信用评分卡时,特征分箱是计算证据权重(Weight of Evidence,WOE)和信息价值(Information Value,IV)的前提。WOE 可以衡量每个分箱内好坏客户的比例差异,从而揭示该分箱对风险的预测能力。常见的特征分箱方法
特征分箱的方法主要有以下几种:
等宽分箱(Equal Width Binning)等频分箱(Equal Frequency Binning)卡方分箱(Chi-Merge Binning)决策树分箱(Decision Tree Binning)等宽分箱
核心思想:将特征的取值范围(最大值 ~ 最小值)等分成 N 个区间。
这种做法实现简单、快速,但缺点也很明显。如果特征值分布不均,容易产生某些箱内样本量过多,而另一些箱内样本量过少的情况,导致分箱结果无意义。
因此等宽分箱一般用于数据分布比较均匀的特征,或作为快速探索性分析的初步分箱方法。
等频分箱
核心思想:将特征按从小到大的顺序排列,然后切分成 N 个部分,使得每个部分(箱)内的样本数量大致相等。
这种做法保证了每个箱内都有足够的样本量,避免了等宽分箱的缺点。但它自身也有缺点,因为可能会将数值上非常接近的样本点强行切分到不同的箱中,对于某些业务场景,这种纯粹基于频率的切分可能破坏了原有的业务逻辑。
卡方分箱
等款分箱和等频分箱针对的是无监督样本,而卡方分箱针对的是有监督样本。其核心思想是利用卡方检验(Chi-Square Test)来衡量相邻两个区间的分布相似性,从最小的箱开始,不断合并卡方值最小的相邻箱,直到满足停止条件(如分箱数、卡方阈值)。
这种做法是一种基于目标变量(如是否违约)进行分箱的监督方法,能保证分箱后的每个箱都有显著不同的风险水平。至于缺点是计算相对复杂,对某些值域的样本量敏感。
卡方分箱在构建信用评分卡时非常常用,因为它能确保分箱结果与风险有很强的关联性。
决策树分箱
针对有监督样本,核心思想是利用单特征构建一个简单的决策树模型来拟合目标变量,树的每个叶子节点就代表一个分箱。
这种做法能自动找到最优的分割点,并且可以很好地处理非线性关系,分箱结果与目标变量强相关。但缺点是容易过拟合,需要通过剪枝或限制树的深度来控制,因此对于强线性关系的特征可能不是最优选择。
决策树分箱主要用于需要深度挖掘特征与风险之间非线性关系的场景。
卡方分箱
下面来单独说一下卡方分箱(Chi-Merge Binning)的原理,因为它不像等宽和等频那么简单。
卡方分箱的哲学可以用一句老话来概括:"物以类聚,人以群分",它的核心目标是将特征值相近且目标值(如好坏客户)分布也相似的区间进行合并。最终保留下来的每个箱子,其内部的客户风险水平应该尽可能一致,而不同箱子之间的风险水平则要有显著的差异。
它是个自底向上的过程,和之后要介绍的决策树正好相反,先让每个特征值都自成一派(一个箱),然后通过一个标准去衡量哪些"派别"最相似,并将它们合并,不断重复这个过程,直到"派别"数量减少到我们满意的程度。而衡量派别相似的标准,就是统计学中著名的卡方检验(Chi-Square Test)。
所以要理解卡方分箱,就必须先理解它的数学引擎 - 卡方独立性检验。这个检验的目的是判断两个分类变量是否相互独立,在当前的场景中,这两个变量是:
分箱变量:即样本属于哪个箱子,例如箱子 A 还是箱子 B。目标变量:即客户是好客户还是坏客户。卡方检验会提出一个零假设(H0):分箱变量与目标变量相互独立。换句话说,零假设认为 "一个客户在箱子 A 还是箱子 B" 与 "他是一个好客户还是坏客户" 这两件事没有关系。如果这个假设成立,那么箱子 A 和箱子 B 中好坏客户的比例应该是没有显著差异的。
卡方检验会计算出一个卡方统计量(χ2 值),这个值衡量了实际观测值与期望值之间的差距。

如果 χ2 值很小,说明观测值(O)与期望值(E)非常接近,这意味着数据非常符合 "两个变量相互独立" 的零假设,因此我们没有理由拒绝零假设。在分箱场景下,这代表着这两个相邻的箱子,其好坏客户的分布非常相似,它们是合并的首要候选者。
如果 χ2 值很大:说明观测值(O)与期望值(E)差距巨大,这强烈地表明 "两个变量相互独立" 的假设是错误的,因此我们可以拒绝零假设。在分箱场景下,这代表着这两个相邻的箱子,其好坏客户的分布有显著差异,它们应该被分开,不能合并。
下面通过一个例子,来实际感受一下运算过程。
假设有以下数据,并且已经初始化,每个年龄段是一个独立的箱。我们想看看相邻的 20 ~ 30 岁和 31 ~ 40 岁这两个箱是否应该合并。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
4月汽车销量榜前十仅一款燃油车 燃油车时代即将落幕
四月新能源车零售渗透率突破61 4%,销量前十车型中仅剩一款燃油车。目前汽车保有量仍以燃油车为主,但市场趋势显示,车企正密集推出无需外接充电的油电混动车型,以满足充电不便用户的需求。同时,部分豪华品牌也放缓纯电路线,转向多元动力策略。油电混动成为连接燃油与电动化的重要。
ADC抗癌药市场迎来新入局者药企探索多元支付提升患者可及性
葛兰素史克ADC新药玛贝兰妥单抗在华获批,用于多发性骨髓瘤治疗。ADC药物市场快速增长,国内外药企加速布局,多款产品上市或通过授权合作出海。药企期待通过医保与商业保险等多元化支付体系提高药品可及性,减轻患者负担。
深圳福田AI生态亮相国际人工智能展
第七届深圳国际人工智能展览会开幕,福田区组织12家优质AI企业集体参展,涵盖芯片、硬件及行业解决方案。参展企业包括多家国家级高新技术与专精特新企业,聚焦算力硬件、垂直场景应用,展现区域产业活力与创新生态。展会为企业提供展示与合作平台,体现政策支持对AI发展的赋能作用。
央美陈抱阳解析AI与艺术融合情感认知智能技术如何革新美术教学
中央美术学院陈抱阳教授探讨了AI艺术的深层意义,强调研究应关注人如何观看AI及其对人类感知与情感的影响。他的创作融入中国文化传统,为具身智能艺术提供思想资源,不仅探索AI进入艺术的路径,更思考艺术如何重新定义AI的社会角色。艺术与AI的互动正改变技术理解、观看方式与教学逻辑。
方程豹豹5天神Max版上市 限时售价25.38万元
方程豹豹5天神Max版正式上市,限时售价25 38万元。新车核心尺寸与动力系统保持不变,系统总功率505kW。配置方面取消部分后排豪华功能,但保留了前排座椅加热通风按摩、中控与副驾娱乐屏及智能驾驶辅助系统,聚焦越野性能与核心科技,提供更具性价比的选择。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

