신뢰도타당보분석요인분석크론바알파/신뢰도타당도 분석

KMO와 Bartlett 카이제곱 구형성 검증

학위논문통계 2022. 12. 14. 14:39

 

탐색적 요인분석에서 결과표에 많이 제시하는 측정값으로 KMO 값과 Bartlett chi 제곱 구형성 검증이 있습니다. 오늘은 여기에 대해서 간단히 설명하겠습니다.

 

이 2개의 값은 설문문항들의 상관계수 행렬과 밀접한 관계가 있습니다.

 

측정문항의 신뢰도와 타당도가 좋으려면 각 측정문항의 상관계수 행렬이 독립적으로 나오면 안됩니다.

 

예를 들어 고객만족을 측정하기 위해 설문문항 4개를 만들어서 설문응답자 200명에게 물어 봤다고 하죠.

 

이 설문문항 4개는 고객만족을 측정하려고 만든 문항이기 때문에 이 4개의 설문문항의 상관관계가 매우 높아야 합니다. 만약 이 4개의 설문문항이 서로 독립적이라고 하면 이 4개의 설문문항은 고객만족이 아닌 각각 다른 의미의 변수를 측정한다고 보는 것입니다.

 

Bartlett 구형성 검증은

 

귀무가설: 설문문항의 상관계수가 identity 행렬이다. 즉 설문문항이 각각 독립적이다. 즉 상관계수 행렬이

 

과 같은 형태로 되어 있다.

 

 

대립가설: 설문문항의 상관계수가 identity 행렬이 아니다. 즉 설문문항간에 서로 상관관계가 있다.

 

그래서 설문문항 신뢰도와 타당도 분석을 위해 탐색적 요인분석을 한 경우 Bartlett 카이제곱 구형성 검증은 항상 유의적으로 나와야 합니다. 그리고 실제 해보면 유의하지 않게 나오는 경우는 없습니다.

 

 

구형성이라는 말은 구의 이차방정식, 수학에서는 quadratic form이라고 하는데 여기에 중간에 있는 행렬이 identity 행렬이기 때문입니다.

 

Bartlett 구형성 검증은 좀 이해하기가 쉬운 반면 KMO는 편상관계수(partial correlation) 개념이 나와 이해하기가 그리 쉽지는 않습니다.

 

 

KMO의 정의는

 

KMO=(상관계수 제곱의 합)/[(상관계수 제곱의 합)+(편상관계수 제곱의 합)]

 

이 식만 보면 잘 이해가 안되죠. 편상관계수의 의미도 잘 모르겠고요.

 

두 변수의 상관계수는 우리가 눈에 보이는, 겉으로 드러나 상관계수라고 보면 됩니다. 이에 반해 편상관계수는 순수한 두 변수간의 상관계수라 보시면 되고요.

 

 

예를 들어서 설명할게요. 키와 몸무게의 상관계수를 잰다고 해보죠. 키가 커지면 이에 반해 몸무게도 거의 일정하게 늘어난다고 볼 수 있는데 현실에서는 그렇지 않죠.

 

이는 사람마다 어깨 넓이, 허리 두께, 엉덩이 크기, 허벅지 두께에 따라 몸무게가 다 달라지기 때문입니다.

 

즉 키와 몸무게 관계에서 외부에서 영향을 미치는 변수가 매우 많다는 것이죠.

 

그래서 키와 몸무게 관계에서 외부에 미치는 변수를 통제해서, 즉 고려해서 순수하게 키와 몸무게의 상관관계를 측정한 것이 편상관계수입니다.

 

 

그럼 위의 KMO의 정의로 다시 돌아가보죠.

 

만약

 

1) 상관계수=편상관계수이면 그럼 KMO=상관계수 제곱/(2*상관계수 제곱)이 되어 0.5가 됩니다.

 

2) 편상관계수가 0이면 KMO=상관계수 제곱/상관계수 제곱=1이 됩니다.

 

 

그럼 설문문항이 5개 있다고 하죠, 설문 A, B, C, D, E가 있다고 하죠.

 

그럼 설문 A와 설문 B의 상관계수를 구하는데 설문 C, D, E가 설문 A와 설문 B와 전혀 관계가 없다면, 즉 독립관계를 유지한다면 상관계수=편상관계수가 됩니다. 즉 KMO=0.5 비슷한 값을 갖게 됩니다.

 

위의 키와 몸무게 관계를 상상해보시면 됩니다. 키와 몸무게의 관계에서 어깨 넓이, 허리 두께, 엉덩이 크기, 허벅지 두께와 같이 키와 몸무게에 영향을 미치는 변인이 없다면 KMO는 0.5에 가까운 값을 갖게 됩니다.

 

반면에 설문 A와 설문 B관계에서 설문 C, D, E가 설문 A와 설문 B에 미치는 영향이 매우 크다면 외부에 드러나는 설문 A와 설문 B의 상관계수 값에 관계없이 실제 상관관계, 즉 편상관계수는 0에 가깝게 될 것입니다. 이 경우 KMO=1에 가깝게 됩니다.

 

즉 설문문항간의 상관관계가 크면 KMO=1에 가깝게 되고 설문문항간의 상관관계가 없으면 KMO=0.5에 가깝게 됩니다.

 

통상 KMO가 0.8 이상이면 양호하다고 보고, 0.7 이상이면 수용가능하다고 쓰시면 됩니다. 인터넷에 검색하면 다양한 기준 값이 있는데 이 KMO는 Bartlett 검증과 달리 이론적으로 계산되는 것이 아니기 때문에 수학공식처럼 적용하기 힘듭니다. 통상 해보면 0.8 이상으로 많이 나오고 거의 대부분 0.7 이상은 나옵니다.

 

 

 

 

 

 

 

 

 

 

 

탐색적 요인분석에서 결과표에 많이 제시하는 측정값으로 KMO 값과 Bartlett chi 제곱 구형성 검증이 있습니다. 오늘은 여기에 대해서 간단히 설명하겠습니다.

 

이 2개의 값은 설문문항들의 상관계수 행렬과 밀접한 관계가 있습니다.

 

측정문항의 신뢰도와 타당도가 좋으려면 각 측정문항의 상관계수 행렬이 독립적으로 나오면 안됩니다.

 

예를 들어 고객만족을 측정하기 위해 설문문항 4개를 만들어서 설문응답자 200명에게 물어 봤다고 하죠.

 

이 설문문항 4개는 고객만족을 측정하려고 만든 문항이기 때문에 이 4개의 설문문항의 상관관계가 매우 높아야 합니다. 만약 이 4개의 설문문항이 서로 독립적이라고 하면 이 4개의 설문문항은 고객만족이 아닌 각각 다른 의미의 변수를 측정한다고 보는 것입니다.

 

Bartlett 구형성 검증은

 

귀무가설: 설문문항의 상관계수가 identity 행렬이다. 즉 설문문항이 각각 독립적이다. 즉 상관계수 행렬이

 

 

 

과 같은 형태로 되어 있다.

 

 

대립가설: 설문문항의 상관계수가 identity 행렬이 아니다. 즉 설문문항간에 서로 상관관계가 있다.

 

그래서 설문문항 신뢰도와 타당도 분석을 위해 탐색적 요인분석을 한 경우 Bartlett 카이제곱 구형성 검증은 항상 유의적으로 나와야 합니다. 그리고 실제 해보면 유의하지 않게 나오는 경우는 없습니다.

 

 

구형성이라는 말은 구의 이차방정식, 수학에서는 quadratic form이라고 하는데 여기에 중간에 있는 행렬이 identity 행렬이기 때문입니다.

 

구의 식은 다음과 같습니다.

 

 

이걸 조금 고급스럽게 표현하면

 

 

 

 

 

Bartlett 구형성 검증은 좀 이해하기가 쉬운 반면 KMO는 편상관계수(partial correlation) 개념이 나와 이해하기가 그리 쉽지는 않습니다.

 

 

KMO의 정의는

 

KMO=(상관계수 제곱의 합)/[(상관계수 제곱의 합)+(편상관계수 제곱의 합)]

 

이 식만 보면 잘 이해가 안되죠. 편상관계수의 의미도 잘 모르겠고요.

 

두 변수의 상관계수는 우리가 눈에 보이는, 겉으로 드러나 상관계수라고 보면 됩니다. 이에 반해 편상관계수는 순수한 두 변수간의 상관계수라 보시면 되고요.

 

 

예를 들어서 설명할게요. 키와 몸무게의 상관계수를 잰다고 해보죠. 키가 커지면 이에 반해 몸무게도 거의 일정하게 늘어난다고 볼 수 있는데 현실에서는 그렇지 않죠.

 

이는 사람마다 어깨 넓이, 허리 두께, 엉덩이 크기, 허벅지 두께에 따라 몸무게가 다 달라지기 때문입니다.

 

즉 키와 몸무게 관계에서 외부에서 영향을 미치는 변수가 매우 많다는 것이죠.

 

그래서 키와 몸무게 관계에서 외부에 미치는 변수를 통제해서, 즉 고려해서 순수하게 키와 몸무게의 상관관계를 측정한 것이 편상관계수입니다.

 

 

그럼 위의 KMO의 정의로 다시 돌아가보죠.

 

만약

 

상관계수=편상관계수이면 그럼 KMO=상관계수 제곱/(2*상관계수 제곱)이 되어 0.5가 됩니다.

 

편상관계수가 0이면 KMO=상관계수 제곱/상관계수 제곱=1이 됩니다.

 

 

 

그럼 설문문항이 5개 있다고 하죠, 설문 A, B, C, D, E가 있다고 하죠.

 

그럼 설문 A와 설문 B의 상관계수를 구하는데 설문 C, D, E가 설문 A와 설문 B와 전혀 관계가 없다면, 즉 독립관계를 유지한다면 상관계수=편상관계수가 됩니다. 즉 KMO=0.5 비슷한 값을 갖게 됩니다.

 

위의 키와 몸무게 관계를 상상해보시면 됩니다. 키와 몸무게의 관계에서 어깨 넓이, 허리 두께, 엉덩이 크기, 허벅지 두께와 같이 키와 몸무게에 영향을 미치는 변인이 없다면 KMO는 0.5에 가까운 값을 갖게 됩니다.

 

반면에 설문 A와 설문 B관계에서 설문 C, D, E가 설문 A와 설문 B에 미치는 영향이 매우 크다면 외부에 드러나는 설문 A와 설문 B의 상관계수 값에 관계없이 실제 상관관계, 즉 편상관계수는 0에 가깝게 될 것입니다. 이 경우 KMO=1에 가깝게 됩니다.

 

즉 설문문항간의 상관관계가 크면 KMO=1에 가깝게 되고 설문문항간의 상관관계가 없으면 KMO=0.5에 가깝게 됩니다.

 

통상 KMO가 0.8 이상이면 양호하다고 보고, 0.7 이상이면 수용가능하다고 쓰시면 됩니다. 인터넷에 검색하면 다양한 기준 값이 있는데 이 KMO는 Bartlett 검증과 달리 이론적으로 계산되는 것이 아니기 때문에 수학공식처럼 적용하기 힘듭니다. 통상 해보면 0.8 이상으로 많이 나오고 거의 대부분 0.7 이상은 나옵니다.

 

 

 

 

 

 

 

 

 

 

탐색적 요인분석에서 결과표에 많이 제시하는 측정값으로 KMO 값과 Bartlett chi 제곱 구형성 검증이 있습니다. 오늘은 여기에 대해서 간단히 설명하겠습니다.

 

이 2개의 값은 설문문항들의 상관계수 행렬과 밀접한 관계가 있습니다.

 

측정문항의 신뢰도와 타당도가 좋으려면 각 측정문항의 상관계수 행렬이 독립적으로 나오면 안됩니다.

 

예를 들어 고객만족을 측정하기 위해 설문문항 4개를 만들어서 설문응답자 200명에게 물어 봤다고 하죠.

 

이 설문문항 4개는 고객만족을 측정하려고 만든 문항이기 때문에 이 4개의 설문문항의 상관관계가 매우 높아야 합니다. 만약 이 4개의 설문문항이 서로 독립적이라고 하면 이 4개의 설문문항은 고객만족이 아닌 각각 다른 의미의 변수를 측정한다고 보는 것입니다.

 

Bartlett 구형성 검증은

 

귀무가설: 설문문항의 상관계수가 identity 행렬이다. 즉 설문문항이 각각 독립적이다. 즉 상관계수 행렬이

 

 

 

과 같은 형태로 되어 있다.

 

 

대립가설: 설문문항의 상관계수가 identity 행렬이 아니다. 즉 설문문항간에 서로 상관관계가 있다.

 

그래서 설문문항 신뢰도와 타당도 분석을 위해 탐색적 요인분석을 한 경우 Bartlett 카이제곱 구형성 검증은 항상 유의적으로 나와야 합니다. 그리고 실제 해보면 유의하지 않게 나오는 경우는 없습니다.

 

 

구형성이라는 말은 구의 이차방정식, 수학에서는 quadratic form이라고 하는데 여기에 중간에 있는 행렬이 identity 행렬이기 때문입니다.

 

구의 식은 다음과 같습니다.

 

 

이걸 조금 고급스럽게 표현하면

 

 

 

 

 

Bartlett 구형성 검증은 좀 이해하기가 쉬운 반면 KMO는 편상관계수(partial correlation) 개념이 나와 이해하기가 그리 쉽지는 않습니다.

 

 

KMO의 정의는

 

KMO=(상관계수 제곱의 합)/[(상관계수 제곱의 합)+(편상관계수 제곱의 합)]

 

이 식만 보면 잘 이해가 안되죠. 편상관계수의 의미도 잘 모르겠고요.

 

두 변수의 상관계수는 우리가 눈에 보이는, 겉으로 드러나 상관계수라고 보면 됩니다. 이에 반해 편상관계수는 순수한 두 변수간의 상관계수라 보시면 되고요.

 

 

예를 들어서 설명할게요. 키와 몸무게의 상관계수를 잰다고 해보죠. 키가 커지면 이에 반해 몸무게도 거의 일정하게 늘어난다고 볼 수 있는데 현실에서는 그렇지 않죠.

 

이는 사람마다 어깨 넓이, 허리 두께, 엉덩이 크기, 허벅지 두께에 따라 몸무게가 다 달라지기 때문입니다.

 

즉 키와 몸무게 관계에서 외부에서 영향을 미치는 변수가 매우 많다는 것이죠.

 

그래서 키와 몸무게 관계에서 외부에 미치는 변수를 통제해서, 즉 고려해서 순수하게 키와 몸무게의 상관관계를 측정한 것이 편상관계수입니다.

 

 

그럼 위의 KMO의 정의로 다시 돌아가보죠.

 

만약

 

상관계수=편상관계수이면 그럼 KMO=상관계수 제곱/(2*상관계수 제곱)이 되어 0.5가 됩니다.

 

편상관계수가 0이면 KMO=상관계수 제곱/상관계수 제곱=1이 됩니다.

 

 

 

그럼 설문문항이 5개 있다고 하죠, 설문 A, B, C, D, E가 있다고 하죠.

 

그럼 설문 A와 설문 B의 상관계수를 구하는데 설문 C, D, E가 설문 A와 설문 B와 전혀 관계가 없다면, 즉 독립관계를 유지한다면 상관계수=편상관계수가 됩니다. 즉 KMO=0.5 비슷한 값을 갖게 됩니다.

 

위의 키와 몸무게 관계를 상상해보시면 됩니다. 키와 몸무게의 관계에서 어깨 넓이, 허리 두께, 엉덩이 크기, 허벅지 두께와 같이 키와 몸무게에 영향을 미치는 변인이 없다면 KMO는 0.5에 가까운 값을 갖게 됩니다.

 

반면에 설문 A와 설문 B관계에서 설문 C, D, E가 설문 A와 설문 B에 미치는 영향이 매우 크다면 외부에 드러나는 설문 A와 설문 B의 상관계수 값에 관계없이 실제 상관관계, 즉 편상관계수는 0에 가깝게 될 것입니다. 이 경우 KMO=1에 가깝게 됩니다.

 

즉 설문문항간의 상관관계가 크면 KMO=1에 가깝게 되고 설문문항간의 상관관계가 없으면 KMO=0.5에 가깝게 됩니다.

 

통상 KMO가 0.8 이상이면 양호하다고 보고, 0.7 이상이면 수용가능하다고 쓰시면 됩니다. 인터넷에 검색하면 다양한 기준 값이 있는데 이 KMO는 Bartlett 검증과 달리 이론적으로 계산되는 것이 아니기 때문에 수학공식처럼 적용하기 힘듭니다. 통상 해보면 0.8 이상으로 많이 나오고 거의 대부분 0.7 이상은 나옵니다.