【秒懂指南】卡方检验中为什么要进行个案加权?
http://kuailexuexi.net/data/attachment/forum/20250220/1740035267924_0.gif个案加权?
我们在一文中提到,卡方检验的过程中需要对观察频数进行加权。有些同学可能不理解加权到底是什么意思?为什么要对观察频数进行加权呢?今天我们就来聊一聊加权的那些事儿。
01
认识加权平均数
一般说的平均数,是把所有的数值加和,然后除以这些数的总个数。表示为:(p1+p2+p3+…+pn)/n。比如计算1、2、3、4的平均数,把这些数字加起来,除以数字的个数即可:
平均数=
(1 + 2 + 3 + 4)/4= 10/4 = 2.5
当数据记录中含有一些相同的数值时,如果某个数有几个相同数,就把该数乘以几,相加后再除以总数,即可得到加权平均数。比如,给出一组数,p1、p2、p3…pn ,各数字对应的个数k1,k2,k3……kn,就叫权。
加权平均数=
(k1p1+k2p2+……knpn)/(k1+k2+……kn)
例子:计算1、2、3、3、4的加权平均数,
加权平均数=
(1× 1 +1× 2 +2× 3 +1× 4)/5=2.6
02
个案加权
在默认情况下,SPSS数据集中的每一行是一个个案,这在大多数情况下是没有问题的,但有时却比较麻烦。比如,在卡方检验中,如果每一行就是一个个案就要输入N(总数)行!
以一文中的案例来说。我需要将研究所涉及的每一个个体的信息输入到SPSS中,如下图所示。为了节省空间,只显示了表的一部分。
http://kuailexuexi.net/data/attachment/forum/20250220/1740035267924_3.jpg
使用输入原始数据的方法,我们需要将相同的个案重复输入很多次,比如,雄性、帮助者(1,1)的个案,需要输入120次。
如果使用频数格式输入数据,那就简单很多。我们只需要将相同取值的个案输入一次,然后加上频数变量用来记录该个案出现了多少次。数据输入的最终结果如下图:
http://kuailexuexi.net/data/attachment/forum/20250220/1740035267924_4.png
在这种情况下,如果不进行个案加权,SPSS会默认为一行为一个个案,从而产生错误的结果。
为了加深对个案加权的理解,我重复了的步骤,只是将个案加权这一步省略掉,其他步骤完全一致。最终得到的结果是这样的:
http://kuailexuexi.net/data/attachment/forum/20250220/1740035267924_5.png
个案处理摘要中,N=4,显然,SPSS按照一行为一个个案对数据进行处理的;可想而知,卡方检验的结果肯定也是不正确的。见下图:
http://kuailexuexi.net/data/attachment/forum/20250220/1740035267924_6.png
总而言之,在SPSS中,个案加权是为数据的频数变量赋以权重,用于记录该个案共出现了多少次,从而将数据指定为频数格式,通常在做卡方检验时会用到。
写在最后:
朝花夕拾——那些未曾忘却的文字
http://kuailexuexi.net/data/attachment/forum/20250220/1740035267924_7.jpg
END
页:
[1]