当前位置: 首页
科技数码
聊一聊信贷领域中的特征分箱

聊一聊信贷领域中的特征分箱

热心网友 时间:2025-12-15
转载

等款分箱和等频分箱针对的是无监督样本,而卡方分箱针对的是有监督样本。其核心思想是利用卡方检验(Chi-Square Test)来衡量相邻两个区间的分布相似性,从最小的箱开始,不断合并卡方值最小的相邻箱,直到满足停止条件(如分箱数、卡方阈值)。

楔子

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

最近收到不少小伙伴的私信,在这里统一回复:谢谢大家关心,我还活着,只是不更新了而已。然后也有小伙伴从几个月前就一直问我啥时候更新,我的回答是没啥好更新的了,建议大家一定要拥抱 AI,生产力绝对会成倍提升。

但话都说到这儿了,不更新一篇也不合适。由于目前正在从事风控领域,就更新一篇风控相关的文章吧。

什么是特征分箱?

在信贷风控领域,特征分箱(Feature Binning)是一项至关重要且应用广泛的特征工程技术,它的作用是将连续型特征(如年龄、收入)或多取值的离散型特征(如职业)进行分组、装箱,将其转化为一系列离散的区间或类别。这一看似简单的操作,在构建稳定、可解释且高效的信用评分卡等风控模型中,扮演着定海神针般的关键角色。

而之所以要特征分箱,是因为在原始的连续型特征上直接建模,往往会遇到诸多挑战。而特征分箱通过将数据离散化,带来了多方面的显著优势。

提升模型的稳定性和鲁棒性:分箱操作能够有效降低特征中 "噪声" 的干扰。例如借款人年龄的微小变动(从 30 岁变为 31 岁)可能并不会对其信用风险产生实质性影响,分箱后,这些细微的波动被平滑处理,能有效防止模型因过度拟合个别数据点而变得不稳定,从而增强模型的泛化能力,使其在面对新数据时表现更稳健。增强模型的可解释性:将连续特征转化为有限的几个箱,极大地增强了业务人员对模型决策逻辑的理解。例如,相比于 "年龄每增加一岁,违约概率下降 0.5%" 这种复杂的线性关系,"年龄在 30 ~ 40岁之间的客群,其信用风险较低" 这样的结论显然更直观,更易于向决策层和业务部门解释和沟通。有效处理非线性关系:现实世界中,许多特征与信用风险之间并非是简单的线性关系。例如,年龄与违约率可能呈现 U 型关系,即年轻人和老年人的风险相对较高,中年人风险较低。分箱操作可以将这种非线性关系转化为分段的线性关系,使得逻辑回归等线性模型也能有效捕捉到这种复杂的模式。便捷地处理缺失值和异常值:在进行分箱时,可以将缺失值或异常值作为一个独立的 "箱" 来处理。这不仅避免了复杂的缺失值填充或异常值剔除操作,还能将 "缺失" 或 "异常" 本身作为一种信息纳入模型考量,有时这些特殊值本身就蕴含着特定的风险信息。为后续的 WOE 转换和评分卡创建奠定基础:在构建信用评分卡时,特征分箱是计算证据权重(Weight of Evidence,WOE)和信息价值(Information Value,IV)的前提。WOE 可以衡量每个分箱内好坏客户的比例差异,从而揭示该分箱对风险的预测能力。

常见的特征分箱方法

特征分箱的方法主要有以下几种:

等宽分箱(Equal Width Binning)等频分箱(Equal Frequency Binning)卡方分箱(Chi-Merge Binning)决策树分箱(Decision Tree Binning)

等宽分箱

核心思想:将特征的取值范围(最大值 ~ 最小值)等分成 N 个区间。

这种做法实现简单、快速,但缺点也很明显。如果特征值分布不均,容易产生某些箱内样本量过多,而另一些箱内样本量过少的情况,导致分箱结果无意义。

因此等宽分箱一般用于数据分布比较均匀的特征,或作为快速探索性分析的初步分箱方法。

等频分箱

核心思想:将特征按从小到大的顺序排列,然后切分成 N 个部分,使得每个部分(箱)内的样本数量大致相等。

这种做法保证了每个箱内都有足够的样本量,避免了等宽分箱的缺点。但它自身也有缺点,因为可能会将数值上非常接近的样本点强行切分到不同的箱中,对于某些业务场景,这种纯粹基于频率的切分可能破坏了原有的业务逻辑。

卡方分箱

等款分箱和等频分箱针对的是无监督样本,而卡方分箱针对的是有监督样本。其核心思想是利用卡方检验(Chi-Square Test)来衡量相邻两个区间的分布相似性,从最小的箱开始,不断合并卡方值最小的相邻箱,直到满足停止条件(如分箱数、卡方阈值)。

这种做法是一种基于目标变量(如是否违约)进行分箱的监督方法,能保证分箱后的每个箱都有显著不同的风险水平。至于缺点是计算相对复杂,对某些值域的样本量敏感。

卡方分箱在构建信用评分卡时非常常用,因为它能确保分箱结果与风险有很强的关联性。

决策树分箱

针对有监督样本,核心思想是利用单特征构建一个简单的决策树模型来拟合目标变量,树的每个叶子节点就代表一个分箱。

这种做法能自动找到最优的分割点,并且可以很好地处理非线性关系,分箱结果与目标变量强相关。但缺点是容易过拟合,需要通过剪枝或限制树的深度来控制,因此对于强线性关系的特征可能不是最优选择。

决策树分箱主要用于需要深度挖掘特征与风险之间非线性关系的场景。

卡方分箱

下面来单独说一下卡方分箱(Chi-Merge Binning)的原理,因为它不像等宽和等频那么简单。

卡方分箱的哲学可以用一句老话来概括:"物以类聚,人以群分",它的核心目标是将特征值相近且目标值(如好坏客户)分布也相似的区间进行合并。最终保留下来的每个箱子,其内部的客户风险水平应该尽可能一致,而不同箱子之间的风险水平则要有显著的差异。

它是个自底向上的过程,和之后要介绍的决策树正好相反,先让每个特征值都自成一派(一个箱),然后通过一个标准去衡量哪些"派别"最相似,并将它们合并,不断重复这个过程,直到"派别"数量减少到我们满意的程度。而衡量派别相似的标准,就是统计学中著名的卡方检验(Chi-Square Test)。

所以要理解卡方分箱,就必须先理解它的数学引擎 - 卡方独立性检验。这个检验的目的是判断两个分类变量是否相互独立,在当前的场景中,这两个变量是:

分箱变量:即样本属于哪个箱子,例如箱子 A 还是箱子 B。目标变量:即客户是好客户还是坏客户。

卡方检验会提出一个零假设(H0):分箱变量与目标变量相互独立。换句话说,零假设认为 "一个客户在箱子 A 还是箱子 B" 与 "他是一个好客户还是坏客户" 这两件事没有关系。如果这个假设成立,那么箱子 A 和箱子 B 中好坏客户的比例应该是没有显著差异的。

卡方检验会计算出一个卡方统计量(χ2 值),这个值衡量了实际观测值与期望值之间的差距。

图片

O(Observed):观测频数,即我们实际统计到的、落在每个箱子里的样本数量。E(Expected):期望频数,即如果零假设成立,我们理论上期望的样本数量。

如果 χ2 值很小,说明观测值(O)与期望值(E)非常接近,这意味着数据非常符合 "两个变量相互独立" 的零假设,因此我们没有理由拒绝零假设。在分箱场景下,这代表着这两个相邻的箱子,其好坏客户的分布非常相似,它们是合并的首要候选者。

如果 χ2 值很大:说明观测值(O)与期望值(E)差距巨大,这强烈地表明 "两个变量相互独立" 的假设是错误的,因此我们可以拒绝零假设。在分箱场景下,这代表着这两个相邻的箱子,其好坏客户的分布有显著差异,它们应该被分开,不能合并。

下面通过一个例子,来实际感受一下运算过程。

假设有以下数据,并且已经初始化,每个年龄段是一个独立的箱。我们想看看相邻的 20 ~ 30 岁和 31 ~ 40 岁这两个箱是否应该合并。

来源:https://www.51cto.com/article/824506.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
聚焦AI文创与跨境,“数智苏豪”新街口OPC社区启幕

聚焦AI文创与跨境,“数智苏豪”新街口OPC社区启幕

3月30日,南京新街口核心商圈,苏豪大厦一楼广场上机器人迎宾起舞,充满科技感。由苏豪资产运营集团与南京新街口金融商务区管理委员会(以下简称“新街口管委会”)共同打造的“数智苏豪”新街口OPC社区揭牌

时间:2026-03-30 22:55
极兔牵手顺丰真相:合作细节与市场影响深度解析

极兔牵手顺丰真相:合作细节与市场影响深度解析

今年1月中旬,物流圈上演了备受瞩目的一幕:当国内快递行业因增速放缓而步入存量整合期时,主导中高端市场的老牌物流服务商顺丰控股,与主打电商件的极兔速递联合宣布达成了一项投资交易金额达83亿港元的相互持

时间:2026-03-30 22:55
力箭二号遥一运载火箭成功发射空间试验飞船

力箭二号遥一运载火箭成功发射空间试验飞船

记者从公司获悉,3月30日19时00分,中科宇航力箭二号遥一运载火箭·国际纺都号在东风商业航天创新试验区成功发射,将新征程01卫星、新征程02卫星和天视卫星01星精准送入预定轨道,发射任务取得圆满成

时间:2026-03-30 22:55
1.9亿年薪背后:又一位车企CEO薪酬为何大幅上涨?

1.9亿年薪背后:又一位车企CEO薪酬为何大幅上涨?

电 动 知 家消 息,近日,据外媒报道,据福特汽车日前发布的一份文件,该公司首席执行 官吉姆·法利2025年的总薪酬大幅增长了11%,达到约2752万美元(约1 9亿元人民币),这是其自2020年末

时间:2026-03-30 22:55
美议员为何急于拉黑中国机器人却暗留后门?

美议员为何急于拉黑中国机器人却暗留后门?

白宫里,一台人形机器人缓步走入东厅,与美国“第一夫人”并肩亮相,动作仍带着明显的机械感;仅仅一天后,国会山上,这种“会走路的机器”却被划为潜在安全威胁,写进立法提案。这是上周美国上演的荒诞一幕。两党

时间:2026-03-30 22:55
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程