Minitab Statistical Software 中的预测分析模块在所有行业中都是非常宝贵的资产。业务价值可以通过预测措施产生,例如客户流失、患者住院时间、成本、风险、利润和许多其他因素。
在本文中,我们将研究银行业中的一个应用程序。对于银行来说,向错误的人提供抵押贷款可能是一个损失数十万美元的错误。鉴于这些风险,银行在决定批准或拒绝他们的抵押贷款申请之前了解他们的客户并对其做出预测是极其重要的。让我们看看 Minitab 的预测分析模块如何通过准确预测客户未来可能违约的情况来更大限度地减少抵押贷款违约的数量。
#了解贷款数据#
以下是分析中使用的观察数据的一部分。对以前的客户抵押贷款有1,645 项观察结果。C1 列显示响应变量或目标,如果该人拖欠抵押贷款,则是,如果没有,则否。其他 9 列包含我们将评估为潜在预测因子的特征。
#抵押贷款违约的现状#
下面的饼图帮助我们更好地了解借款人的抵押贷款违约率。 我们看到 10% 的抵押贷款被拖欠。降低这个百分比可以大大增加利润。
#比较预测模型#
为了应对这一挑战,我们使用 Minitab 预测分析模块。
由于响应为是或否,我们将使用分类模型。如果对连续响应感兴趣,将使用基于树的回归模型。预测分析模块包含三种分类建模类型:
1. CART® 分类
2. 随机森林分类
3. TreeNet 分类
对于分类,评估模型拟合优度的主要指标之一是 ROC 曲线下的面积。该指标越接近 1 越好。模块中的三个建模引擎中的每一个都被利用,并比较了各自的 ROC 曲线下面积值。
TreeNet 分类产生的 ROC 曲线下面积为 0.9695。对于来自其他两个建模引擎的模型,该值优于 ROC 曲线下的区域,这意味着生成的 TreeNet 分类模型是抵押贷款违约的更佳预测模型。TreeNet Gradient Boosting 是 Minitab 中较灵活、屡获殊荣且功能更强大的机器学习工具,它能够始终如一地生成极其准确的模型。在三个建模引擎中,TreeNet 通常倾向于产生更好的结果。
#可视化重要变量#
我们首先将相对变量重要性图作为我们模型输出的一部分。相对变量重要性值的范围从 0% 到 100%,较重要的变量始终为 100%。债务对信用是预测抵押贷款违约较重要的变量,其次是债务对收入,是第二重要的变量。九个特征中的八个在某些方面对模型很重要。
#预测违约概率#
既然我们在 Minitab 中已有模型,我们可以进行预测。我们可以将单个值输入 Minitab 以进行预测,如果一次进行大量预测很有价值,我们可以将值列输入到 Minitab 中。
以下为申请 485,000 美元抵押贷款的个人数据:
• 43 岁
• 81,000 美元的收入
• 9 个信用来源
• 0.68 的债务信贷比率
• 0.73 的债务收入比
• 住宅抵押贷款
• 来自西北地区
• 无家属
我们将这些值输入到预测模型中以获得单个默认值的概率,如下面的预测输出所示。此人拖欠抵押贷款的可能性超过 97%。一旦做出预测,那么您,拥有行业知识的人,就可以解释预测并采取行动。我认为违约概率为 97% 的个人很可能会被拒绝抵押贷款。
在所有预测变量的值都可用时进行预测总是更好的情况,但实际上很多时候预测变量的某些值丢失。Minitab 中的预测分析使我们在发生这种情况时仍然可以轻松地进行预测。在下面的示例中,有几个缺失值。即使有缺失值,我们仍然可以预测该客户拖欠抵押贷款的概率。
我们还有另一个潜在客户申请了 375,000 美元的抵押贷款。我们没有关于该申请人的收入、债务与收入比率、地区和受抚养人数量的数据。但我们确实有以下信息:
• 49 岁
• 4 个信用来源
• 0.31 的债务信贷比率
• 住宅抵押贷款
尽管有缺失值,我们仍然能够做出预测,并看到该客户拖欠抵押贷款的可能性不到 1%,如下所示。
根据分析,此人似乎是抵押贷款的理想人选,因为根据预测模型,他们违约的可能性不到 1%。这只是 Minitab 基于树的机器学习算法如何帮助您解决复杂问题并获得宝贵见解的一个示例。
免责声明:本文系网络转载或改编,未找到原创作者,版权归原作者所有。如涉及版权,请联系删