在六西格玛中,正态分布的数据是一个常见的误解。一些人认为,所有收集和用于分析的数据都必须是正态分布的。但正态分布并不像人们想象的那样常见,而且它不是主要目标。正态分布是一种手段,而不是目的本身。
为了使用一些统计工具,如单值控制图、Cp/Cpk分析、t检验和方差分析(ANOVA),需要正态分布的数据。然而,如果实践者不使用这些特定工具,数据是否正态分布并不重要。只有当实践者在项目中需要使用要求正态分布数据的统计工具时,分布才会成为问题,而这时他们可能并没有得到正态分布的数据。
图1中的概率图就是这种情况的一个例子。在这种情况下,显然不能假设正态性;p值小于0.05,且超过5%的数据点在95%置信区间之外。
图1:循环时间的概率图
那么可以做些什么呢?基本上,有两种选择:
- 识别并尽可能解决非正态性的原因,或者
- 使用不要求正态性的工具
解决非正态性的原因 当数据不是正态分布时,应该确定非正态的原因并采取适当的补救措施。以下是导致非正态的六个常见原因。
原因1:极端值 数据集中有太多极端值会导致偏斜分布。通过清理数据可以实现数据的正态性。这涉及确定测量错误、数据输入错误和异常值,并基于合理原因将其从数据中删除。
重要的是要确认异常值是真正的特殊原因后再将其排除。切记:正态分布数据的特性是可以预期有小部分极端值存在;并非每个异常值都是由特殊原因引起的。只有在正常条件下极端值超过预期时,才能解释并从数据中删除它们。
原因2:两个或更多过程的重叠 数据可能不是正态分布的,因为它实际上来自于多个过程、操作员或班次,或者来自一个频繁发生变化的过程。如果两个或更多本来是正态分布的数据集重叠,数据可能看起来呈双峰或多峰分布——即具有两个或更多的最频繁值。
对于这些情况的补救措施是确定导致双峰或多峰分布的因素(X)并对数据进行分层。然后再次检查数据是否正态,之后可以分别处理分层后的过程。
例如:图2中的直方图显示了一个网站的加载时间数据并非正态分布。将加载时间按周末与工作日数据分层后(图3),两组数据均为正态分布。
图2:网站加载时间数据
图3:分层后的网站加载时间数据
原因3:数据区分不足 四舍五入错误或测量设备分辨率差可能会导致实际上连续且正态分布的数据看起来是离散的且不正常的。通过使用更准确的测量系统或收集更多数据,可以克服数据区分不足的问题。
原因4:数据排序 如果数据只是代表了过程产生的总输出的一个子集,收集的数据可能不是正态分布的。如果数据是在排序后收集和分析的,就会发生这种情况。图4中的数据来自一个目标是生产100毫升瓶装液体的过程。下限和上限规格分别为97.5毫升和102.5毫升。由于所有超出规格的瓶子已经从过程中移除,数据不再是正态分布的——即使原始数据本来是正态的。
图4:排序后的瓶子体积数据
原因5:值接近零或自然极限 如果一个过程的许多值接近零或自然极限,数据分布将向左或向右偏斜。在这种情况下,诸如Box-Cox幂转换之类的转换可能有助于使数据正态化。在这种方法中,所有数据都被提升或转换为某个指数,由Lambda值表示。当比较转换后的数据时,所有进行比较的内容必须以相同的方式转换。
下图说明了这个概念的一个示例。
图5显示了一组循环时间数据;图6显示了使用自然对数转换后的相同数据。
图5:循环时间数据
图6:对数转换后的循环时间数据
请注意:没有一种转换方法能保证正态分布。始终使用概率图检查转换后是否可以假设正态分布。
原因6:数据遵循不同的分布 有许多数据类型本质上是非正态分布的。示例如下:
- Weibull分布,通常用于寿命数据,如产品的生存时间
- 对数正态分布,通常用于长度数据,如身高
- 极大极值分布,通常用于每天最长的停机时间等数据
- 指数分布,通常用于增长数据,如细菌生长
- 泊松分布,通常用于罕见事件,如事故发生数量
- 二项分布,通常用于“比例”数据,如不合格品率
如果数据遵循其中一种不同的分布,则必须使用与无法“正态化”数据相同的工具进行处理。
无需正态性 有些统计工具不需要正态分布的数据。为了帮助实践者了解何时以及如何使用这些工具,下面的表格比较了不要求正态分布的工具及其正态分布的等效工具。