偏态数据的终结者:Box-Cox变换(一)

By 老船长008 at 2017-05-14 • 0人收藏 • 296人看过
编者按:方差分析、t检验要求资料服从正态分布、满足方差齐性,线性相关要求服从双变量正态分布……,统计教材告诉我们可以对资料进行各种变换:如平方根变换、倒数变换、对数变换等。但是我们在实际工作中遇到不服从正态分布资料时,往往无从下手,对资料逐个尝试不同的数据变换方法,不但费时耗力,很多时候难以找出理想的变换方法,最后只好采用非参数的统计方法。今天给大家的介绍一个对付偏态数据的神器:Box-Cox变换,这个方法可快速地帮助大家找出最佳的变换方法。但有必要提醒的大家的是,这个方法虽好,但不是每次都能成功的,这时,可能得乖乖地使用非参数方法了。在多种统计分析方法中要求资料服从正态分布,或近似正态分布。绝大部分的控制图(如子组变量控制图、单值变量控制图、时间加权控制图)也要求资料服从正态分布。Box-Cox 变换(Box-Cox Transformation)对于纠正过程数据中的非正态性以及与子组均值相关的子组过程变异非常有用。Minitab通过W=Y**λ查找最优指数变换,以获得最佳的λ值,λ值介于-5至5之间,λ=0时为对数变换,λ=-1时为倒数变换,λ=0.5时为平方根变换。Box-Cox 变换的一个显著优点是通过求变换参数λ来确定变换形式,整个过程完全基于数据本身而无需任何先验信息,这无疑比凭经验或通过尝试而选用对数、平方根等变换方式要客观和准确。Box-Cox变换的目的是为了让数据满足线性模型的基本假设,即线性、正态性及方差齐性,然而经过Box-Cox 变换后数据是否同时满足以上假设,需进一步通过正态性检验、方差齐性检验等方法考察验证。此外,Box-Cox 变换仅能处理正值的数据。〖例11-30〗已知例10-30的瓷砖翘曲程度(mm)数据服从Weibull分布,试尝试将其变换成服从正态分布的资料。(瓷砖翘曲.MTW)一、打开数据文件:“瓷砖翘曲.MTW”。二、单击【统计(Stat)】→【控制图(Control Charts)】→【Box-Cox 变换(Box-Cox Transformation)】菜单,打开Box-Cox 变换(Box-Cox Transformation)主对话框。数据类型选择【图表的所有观测值均在一列中(Allobservations for a chart are in one column)】,分析变量选择“C1(翘曲程度),【子组大小(Subgroupsizes)】为1。三、选项(Options)对话框。○【优化或取整lambda(Optimal or rounded lambda)】:使用λ的取整值或最优值。 注:Minitab默认使用λ的取整值,如需更改设置并使用最优值,可访问【工具(Tools)】→【选项(Options)】→【控制图和质量工具(Control Charts and Quality Tools)】,在取消选中【如果可能,使用 Box-Cox 变换的取整值(Use rounded values forBox-Cox transformations when possible.)】选项,本例选择取消选中。○【其他(输入-5到5之间的值)(Other (enter value(s) between -5 and 5))】:用户自行设定介于-5到5之间的λ值。■【将变换后数据存储在(Store transformed datain)】:设定变换后数据的存储列,本例为“C2”。  选项(Options)对话框四、主要结果与分析从Box-Cox可见,纵坐标为根据不同λ值变换后数据的标准差,横坐标为λ值,两条垂直的虚线是λ估计值的95%置信下限和置信上限,本例λ估计值为0.35,其95%CI为(0.05,0.64)。一般来说在落在95%CI内的λ值都是合理的选择,习惯上我们会选择一个容易理解的变换,如平方根变换(λ=0.5)。瓷砖翘曲程度的Box-Cox变换图五、分别对原始数据、最佳变换(λ=0.35)和平方根变换(λ=0.5)后资料进行正态性检验(参见第5.6.1节),结果见表11-2。一般来说,对相同的数据同时进行三种正态性检验,任何一种检验方法拒绝原假设,我们可以认为该数据不服从正态分布。可见瓷砖翘曲程度的原始数据是不服从正态分布的,通过Box-Cox变换后,无论是最佳变换还是平方根变换,都是服从正态分布的。表11-2  Box-Cox变换前后数据的正态性检验数据类型AD法RJ法KS法统计量P值统计量P值统计量P值原始数据1.0280.0100.978P<0.010.076P>0.15最佳变换0.4440.2810.994P>0.100.057P>0.15平方根变换0.3010.5740.996P>0.100.065P>0.15 本文摘自电子工业出版社即将出版的《Minitab常用统计分析教程》(暂名)相关文章养在深闺人难识:功能强大的Minitab秀外慧中,善解人意的Minitab审稿人呀,Minitab叫您看过来,看过来【免费赠书】Minitab可视化教程回复关键词(单个词)获取下载地址】学习资源包:SPSS ;文章目录:文章 或 art配套电子书:book 或 电子书免费(试用)统计工具:tool、minitab、epiinfo、epidata 或 size投稿:mchgz@163.com一起学SPSS统计互助QQ群:292265982统计交流群,请注明所属专业 

登录后方可回帖