统计学（16）-什么是虚拟变量/哑变量

如题所述

第1个回答 2022-07-10

此部分对我来说，还是比较难于理解的。我只做简单介绍，后续如果有新的体悟，会再次更新。
定义： 虚拟变量(Dummy Variable) 也叫哑变量，它算不上一种变量类型，确切地说，是将多分类变量转换为二分类变量的一种形式。
Dummy Variable 的意思就是假的变量，不是真实的变量。（厉害吧！）

例1：
某研究者检测了4 种社区类型的S02 水平。研究者欲分析社区类型是否与S02水平有关系，或者说，不同社区类型的S02 水平是否不同。

所谓虚拟变量，就是把原来的一个多分类变量转换为多个二分类变量，总的来说，就是，如果多分类变量有K 个类别，则可以转换为k-1个二分类变量。如变量x为赋值1、2 、3 、4的四分类变量，就可以转换为3个赋值为0和1的二分类变量。（现在有点理解，其实就是按照顺序进行的变化趋势，临近数值的分类）。

分类结果的解释一般是要有参照类别的。
比如我们说男性肺癌发生率高，暗含了＂相对于女性”这样的参照； 50 岁以上人群冠心病发生率更高，暗含了＂相对于50 岁以下人群”这样的参照。
没有参照，就没法说高或低。比如80%，是高还是低呢？那要看是和70%还是90%比。

当我们把k个类别的多分类变量转换为k-1个二分类变量后，每个二分类变量表示相对参照类的大小。例如，多分类变量x用1 、2 、3 、4 表示，我们设定以1 作为参照，那么生成的3个虚拟变量分别表示2 和1相比的大小、3 和1相比的大小、4 和1相比的大小。
通过生成虚拟变量，就把原来的一个系数变成了多个系数，这多个系数更详细地展示了自变量与因变量之间的关系，在自变量与因变量呈非线性关系的时候，这尤其重要。因为当你使用线性回归、Logistic 回归这些方法的时候，实际上已经默认自变量与因变量是线性关系了，你是不可能找出非线性关系的。

什么时候用虚拟变量？
虚拟变量主要用于多分类自变量与因变量是非线性关系的时候，如果多分类自变量与因变量已经是线性关系了，就没有必要用虚拟变量了。因为此时线性关系已经可以很好地刻画出二者的关系了。

虚拟变量有什么优点和缺点？
优点：当多分类自变量与因变量的关系不是线性关系的时候，虚拟变量可以更真实地展示二者的关系。
缺点：把一个多分类变量转换为虚拟变量后，自变量数目会增多，如一个四分类变量就会生成3个虚拟变量。如果你的样本量不是很大，那么自变量的增加会导致估计结果不稳定。
设置虚拟变量时如何指定参照类？
主要根据专业和研究目的。如年龄，如果你想了解高年龄组与低年龄组的比较情况，那就把低年龄组设为参照。 一般尽量把危险低的设为参照组，如在社区类型中，把对照区（社区类型=0) 设为参照。
这个危险低的理解，是不是就是说熵小呢？以后再解决。
如果虚拟变量的结果不一致该怎么办？
如果产生了3个虚拟变量，其中1个虚拟变量的P<0.05, 另外2 个虚拟变量的P>0.05, 那么你在报告结果时仍需要把这3个虚拟变量的结果都展示出来，而不是只展示有统计学意义的那一个。在列方程时也需要把3个虚拟变量的系数都列在方程中。（这个看不懂！）

相似回答

什么叫哑变量?答：1、哑变量（Dummy Variable）又称虚拟变量，是指在回归分析中，将分类变量转换为二元变量的一种方法。2、在回归分析中，分类变量通常无法直接参与计算，需要将其转换为数值变量或二元变量，以便进行回归分析。3、哑变量的应用非常广泛，特别是在社会科学、经济学和市场营销等领域。如在市场营销中，可以将顾...

哑变量/虚拟变量答：虚拟变量又称哑变量，是人为设定的用于将分类变量引入回归模型中的方法。在回归分析中，自变量X既可以是定量数据也可以定类数据。回归分析计算时是将所有自变量X视为数字，但当数据为定类数据时，此时数字代表类别，数字大小本身没有比较意义。因此，这类数据在做回归分析时，需要设置成哑变量才能纳入回归分...

大家正在搜

什么是虚拟变量哑变量和虚拟变量虚拟变量是解释变量吗虚拟变量一定是01吗虚拟变量怎么加入虚拟变量个数怎么确定统计变量的分类统计变量的类型有哪些统计参数和变量的区别