admin 发表于 前天 15:07

【秒懂指南】卡方检验中为什么要进行个案加权?

http://kuailexuexi.net/data/attachment/forum/20250220/1740035267924_0.gif

个案加权?

我们在一文中提到,卡方检验的过程中需要对观察频数进行加权。有些同学可能不理解加权到底是什么意思?为什么要对观察频数进行加权呢?今天我们就来聊一聊加权的那些事儿。

01

认识加权平均数

一般说的平均数,是把所有的数值加和,然后除以这些数的总个数。表示为:(p1+p2+p3+…+pn)/n。比如计算1、2、3、4的平均数,把这些数字加起来,除以数字的个数即可:

平均数=

(1 + 2 + 3 + 4)/4= 10/4 = 2.5

当数据记录中含有一些相同的数值时,如果某个数有几个相同数,就把该数乘以几,相加后再除以总数,即可得到加权平均数。比如,给出一组数,p1、p2、p3…pn ,各数字对应的个数k1,k2,k3……kn,就叫权。

加权平均数=

(k1p1+k2p2+……knpn)/(k1+k2+……kn)

例子:计算1、2、3、3、4的加权平均数,

加权平均数=

(1× 1 +1× 2 +2× 3 +1× 4)/5=2.6

02

个案加权

在默认情况下,SPSS数据集中的每一行是一个个案,这在大多数情况下是没有问题的,但有时却比较麻烦。比如,在卡方检验中,如果每一行就是一个个案就要输入N(总数)行!

以一文中的案例来说。我需要将研究所涉及的每一个个体的信息输入到SPSS中,如下图所示。为了节省空间,只显示了表的一部分。

http://kuailexuexi.net/data/attachment/forum/20250220/1740035267924_3.jpg

使用输入原始数据的方法,我们需要将相同的个案重复输入很多次,比如,雄性、帮助者(1,1)的个案,需要输入120次。

如果使用频数格式输入数据,那就简单很多。我们只需要将相同取值的个案输入一次,然后加上频数变量用来记录该个案出现了多少次。数据输入的最终结果如下图:

http://kuailexuexi.net/data/attachment/forum/20250220/1740035267924_4.png

在这种情况下,如果不进行个案加权,SPSS会默认为一行为一个个案,从而产生错误的结果。

为了加深对个案加权的理解,我重复了的步骤,只是将个案加权这一步省略掉,其他步骤完全一致。最终得到的结果是这样的:

http://kuailexuexi.net/data/attachment/forum/20250220/1740035267924_5.png

个案处理摘要中,N=4,显然,SPSS按照一行为一个个案对数据进行处理的;可想而知,卡方检验的结果肯定也是不正确的。见下图:

http://kuailexuexi.net/data/attachment/forum/20250220/1740035267924_6.png

总而言之,在SPSS中,个案加权是为数据的频数变量赋以权重,用于记录该个案共出现了多少次,从而将数据指定为频数格式,通常在做卡方检验时会用到。

写在最后:

朝花夕拾——那些未曾忘却的文字

http://kuailexuexi.net/data/attachment/forum/20250220/1740035267924_7.jpg

END
页: [1]
查看完整版本: 【秒懂指南】卡方检验中为什么要进行个案加权?