经典的理论说,只要样本数量多于变量维数,做回归分析及相关分析都是可以的,样本的大小只影响分析的精度,不决定能不能做回归分析或者相关分析。
相关介绍:
在统计建模中,回归分析是一组用于估计变量之间关系的统计过程。当焦点是一个因变量和一个或多个自变量(或“预测因子”)之间的关系时,它包括许多用于建模和分析多个变量的技术。
更具体地说,回归分析有助于理解因变量的典型值 (或“标准变量”)在任何一个独立变量变化时发生变化,而其他独立变量保持不变。
最常见的是,回归分析在给定自变量的情况下估计因变量的条件期望——即当自变量固定时因变量的平均值。不太常见的是,焦点集中在因变量的分位数,或给定自变量的因变量的其他位置参数上。在所有情况下,都要估计独立变量的函数,称为回归函数。
在回归分析中,利用概率分布来描述回归函数预测周围因变量的变化也是很有意义的。一个相关但不同的方法是必要条件分析[1] (NCA),它估计自变量给定值(上限线而不是中心线)的因变量的最大值(而不是平均值),以便识别自变量的值是必要的,但对于给定变量的给定值是不够的。
回归分析被广泛用于预测和预报,其使用与机器学习领域有很大的重叠。回归分析也用于理解哪些自变量与因变量相关,并探索这些关系的形式。在有限的情况下,回归分析可以用来推断自变量和因变量之间的因果关系。然而,这可能导致幻想或错误的关系,所以谨慎是明智的。