多变量统计分析

来自医学百科

多变量统计分析(multivariate statistical analysis),统计资料中有多个变量(或称因素、指标)同时存在时的统计分析,是统计学的重要分支,是单变量统计的发展。例如对630名炊事员高血压病进行调查,检查项目中除血压外,尚有年龄、性别、体重、体胖等15个项目(变量)。如果用单变量统计分析法考察超重与血压的关系,一般是把数据做成表1的形式。从表1可见,超重组与不超重组相比,高血压患病率高出一倍以上。但如果把资料按体胖者与不体胖者划分成两组,再考察每组内的超重与高血压患病率的关系,就未能发现超重与高血压患病率有任何明显的联系。也就是说,单变量统计分析忽视了另外因素(如此例中的体胖及年龄等)的影响。对于有多个变量客观存在而又相互影响的资料,采用简单的单变量统计分析是不合理的。多变量统计分析就能把变量间的内在联系和相互影响考虑在内。

统计学中的多变量统计分析起源于医学和心理学。1930年代它在理论上发展很快,但由于计算复杂,实际应用很少。1970年代以来由于计算机的蓬勃发展和普及,多变量统计分析已渗入到几乎所有的学科。到80年代后期,计算机软件包已很普遍,使用也方便,因此多变量分析方法也更为普及。

多变量统计的理论基础和工具是数学中的概率论和矩阵。但对于实际应用者而言,只要有合适的计算机和软件包以及掌握一些初步的多变量统计知识就可以使用它来解决实际问题。多变量统计的内容很多,但从实际应用角度看,主要包括回归分析、判别分析、因子分析、主成分分析、聚类分析、生存分析等六个大的分支。