首页/知识库/使用分类和回归树(CART)快速获取数据洞察/
使用分类和回归树(CART)快速获取数据洞察
2024-05-13 16:49:15206浏览
CART可以有效地用于评估大型数据集,并可以在DMAIC的分析阶段提供快速解决方案。CART可以成为任何流程改进从业者工具包中最快速和最有效的工具之一。然而,CART不应替代相应的参数技术。后者总是更有力地解释任何现象,这归功于底层分布的性质。

在DMAIC(定义、测量、分析、改进、控制)六西格玛项目的分析阶段,会识别和验证变异和缺陷的潜在根本原因。为了进行探索性和确认性研究,使用各种数据分析工具。描述性和图形技术有助于理解数据的性质和可视化潜在关系。例如假设检验和回归等统计分析技术用于验证根本原因。

虽然回归分析是分析阶段广泛使用的统计方法之一,但有些情况需要使用其他非参数方法。违反基本假设,如正态分布和独立分布的残差,以及存在非线性关系,是使用非参数方法如分类和回归树(CART)更为合适的常见情况。此外,在银行和医疗等服务行业,许多潜在的变异和缺陷原因是分类性质的(例如,地理位置、产品、渠道、合作伙伴),此时使用CART也很合适。在这些情况下使用回归或广义线性模型(GLM)的问题在于,大量的哑变量使结果难以解释。CART是一种有用的非参数技术,可以用来解释一个连续或分类的因变量,以多个自变量为条件。自变量可以是连续的或分类的。CART采用一种通常称为“分而治之”的分区方法。


分类和回归树(CART)的工作原理

假设有一组信用卡交易,标记为欺诈或真实。每笔交易有两个属性:交易金额和客户年龄。图1展示了欺诈和真实交易的示例图。

图1: 欺诈和真实交易

CART算法的工作目标是找到在分割数据时能够创建最佳同质群体的自变量。对于因变量为分类的分类问题,这是通过计算基于分割结果熵的信息增益来决定的。对于数值型响应,同质性是通过标准差或方差等统计量来衡量的(更多信息请参考《使用R进行机器学习》一书,作者是Brett Lantz)。

图2: 分割交易

CART技术的两个重要参数是最小分割标准和复杂度参数(Cp)。最小分割标准是在尝试分割前必须在一个节点中存在的最小记录数。这需要在一开始就指定。Cp是一个复杂度参数,用于避免对那些显然无效的节点进行分割。另一种考虑这些参数的方式是,Cp值是在“生长树”之后确定的,并且使用最优值来“修剪树”。

在这个例子中,图2显示第一个形成的规则是 x2 > 35 → 欺诈交易。同样,如图3和图4所示,形成了其他规则。

图3

图4

CART算法继续将数据集分割,直到每个“叶子”节点剩下的记录数量达到最小分割标准所指定的数量为止。这样形成了一个树状结构,如图5所示。然后,Cp值会针对树的各个层次进行绘制,使用最优值来修剪树。

图5: CART分析结果

CART的应用 以下示例包含一个银行派遣交易的假设数据集,共600笔。

图6: 银行交易的示例数据

因变量是“有缺陷”属性,这是一个有两个类别(是和否)的分类变量。每笔交易根据交付物是否有打印错误被标记为“是”或“否”。自变量包括“金额”、“渠道”、“服务类型”、“客户类别”和“涉及部门”。应用任何分析方法的第一步是使用描述性统计学来探索数据。假设在探索数据时,所有的自变量似乎都与因变量有显著关系。为了进行CART分析,数据集被随机分为两组,训练集和测试集。非参数研究不基于理论概率分布;普遍接受的做法是在一组数据上构建模型,并在另一组上测试。这有助于确定模型对未知未来记录的准确性。

CART模型用于探索有缺陷的交易与“金额”、“渠道”、“服务类型”、“客户类别”和“涉及部门”的关系。构建模型后,检查树的各个层级的Cp值,以找到相对误差最小的最优层级。然后使用最优Cp值来修剪树。

修剪后,可以创建如图8所示的“最终”树。该模型还可以针对测试数据进行验证,以确定其准确性。

图7: 最终CART结果

CART的优势

与其他非参数技术一样,CART不需要对底层分布做任何假设。它易于使用,可以快速提供大量数据的有价值洞察。这些洞察进一步可以用来深入特定原因并找到快速有效的解决方案。该解决方案易于解释,直观,并可以使用现有数据进行验证;它是向管理层展示解决方案的好方法。

CART的局限性

像任何技术一样,CART在进行分析和做出决策前也有一些需要考虑的限制。最大的限制是它是一种非参数技术;不建议基于观察到的结果对底层现象进行任何概括。虽然通过分析获得的规则可以在新数据上进行测试,但必须记住,模型是基于样本构建的,不对底层概率分布做任何推断。除此之外,CART的另一个限制是树在七到八层之后变得相当复杂。在这种情况下解释结果并不直观。

结论

CART可以有效地用于评估大型数据集,并可以在DMAIC的分析阶段提供快速解决方案。CART可以成为任何流程改进从业者工具包中最快速和最有效的工具之一。然而,CART不应替代相应的参数技术。后者总是更有力地解释任何现象,这归功于底层分布的性质。


如何学习专业六西格玛全课程:


线上课程学习:点击此链接

扫描二维码加入六堂课唯一质量群,共同交流讨论质量相关知识信息哦👇

友情链接: