신뢰도타당보분석요인분석크론바알파/요인분석의 이론

탐색적 요인분석과 확인적 요인분석

학위논문통계 2013. 5. 18. 23:57

 

전에 이 글을 올렸는데 사라져 버린 것 같네요. 다시 올립니다.

 

 

 

1. 신뢰도와 타당도에 관해 우리나라 책을 몇 권 보면 Hair 책을 번역한 수준인 것 같습니다. 네 사람이 지은 책이죠. 책의 예제를 보면 이 사람들도 전부 경영학 교수인 것 같고요. 하여간 이 책은 수리적으로 명쾌하게 이야기 하지 않아서 읽기 매우 불편합니다.

 

그래도 그 책에 참고문헌이나 책 등이 있습니다. 그러면 거기에 나오는 참고문헌이나 논문은 읽고 책을 써야죠. 자기가 쓰고 자기가 이해도 못하면 이걸 어떻게 책으로 냅니까.

 

나중에 Hair 책과 Lattin 책에 나오는 내용으로 조금 정리해 보겠습니다. 저도 엄청 헷갈립니다. 그래서 설문도구 개발 논문 의뢰가 들어오면 학과에서 비슷한 내용으로 통과한 선행논문을 보내달라고 합니다. 거기에 맞춰서 해주겠다고 하죠.

 

하여간 대부분 석사는 크론바 알파값을 구하면 되고, 탐색적 요인분석을 요구하면 제가 앞에서 한 수준정도로 하면 됩니다. 탐색적 요인 분석이 잘 나오면 확인적 요인 분석도 잘 나올 수 밖에 없습니다.

 

여기서 잠깐 PCA(주성분 분석, Principal component analysis)와 탐색적 요인 분석, 탐색적 요인분석과 확인적 요인분석의 차이점에 대해 이야기 해보죠. PCA는 SPSS 메뉴에는 없습니다. 현재까지 제가 알기로는요. 최근 버전에서는 들어가 있는지는 모르겠습니다. 그러나 명령문은 있습니다. 정준분석(canonical analysis)도 메뉴에는 없어도 macro로 짜 있어 명령문으로 하면 됩니다. 요인분석에서 나오는 주성분 방식은 주성분 분석이 아닙니다. 요인적재값을 추정하는데 주성분 분석에 사용하는 기법을 사용했다는 이야기입니다. 주성분 방식 말고 몇 가지가 있습니다.

 

 

일단 탐색적 요인 분석(통계학에서 배우는 요인분석입니다)은 두가지 용도로 사용됩니다. 하나는 지금 하고 있는 사회계열의 개념들을 측정하는 것이고, 하나는 변수를 축약해서 현상을 가능하면 단순하게 보려고 하는 것입니다.

 

 

 

 

1. PCA와 턈색적 요인분석

 

 

PCA와 탐색적 요인 분석은 변수 축약을 하려고 하는 것입니다. 목적도 갖고 여러 가지 계산도 비슷합니다. 그러나 기본적으로 문제를 보는 관점이 완전이 반대입니다.

 

 

PCA: F = a1X1+a2X2+a3X3

 

Factor: X = a1F1+a2F2+a3F3+e

 

이렇게 됩니다. PCA는 관찰된 변수가 오른쪽에 가 있고, 탐색적 요인 분석은 왼쪽에 가 있죠. 즉 PCA는 관찰된 변수 X1, X2, X3을 가지고 우리가 사용하기 편한 새로운 변수를 만드는 작업입니다. 예를 들어 언어능력의 경우

 

 

F1=a1*단어이해+a2*문장완성+a3*문단이해

 

F2=a1*더하기+a2*세기

 

 

 

이렇게 모형을 만들고 새로운 X1-X5까지 다섯 개의 변수를 사용하는 것이 아니라 변수 F1과 F2 두 가지 변수를 사용하겠다는 것이죠. 그러면 각 아동 마다 새로운 값

 

 

(언어능력, 계산능력)

 

 

값이 나올 겁니다. 아동별로 구해진 언어능력과 계산능력의 값을 가지고 이차원 공간에서 아동을 찍어낼수 있다는 것이죠.

 

 

그러나 요인분석은 반대입니다.

 

 

X1=a1F1+a2F2

 

 

이런 식이 되 버린다는 것이죠. 즉 관찰치 X(설문에서 관찰된 값)는 우리가 모르는 내부적으로 잠재된 F의 발현된, 표현된 값으로 생각한다는 것이죠.

 

그래서 주성분 분석과 탐색적 요인 분석은 방향이 정 반대입니다. 하여간 그렇다는 것만 아시고요. 그럼 요인분석은 앞의 주성분 분석처럼 이 차원 공간에 분석하려면 어떻게 할 것가 이런 생각이 들죠. 요인점수라는 것을 구하면 됩니다. SPSS에서 요인점수를 저장하라고 지시하면 데이터에 새로운 변수 2개가 만들어집니다.

 

 

이 요인 점수는 표준화 되어 있습니다. 즉 평균이 0이고 분산이 1, 그리고 두 개의 요인의 상관관계는 0입니다. 즉 F1과 F2는 서로 독립입니다. 그런데 언어능력과 계산능력이 완전히 독립적인 관계일까요?

 

 

또한 주성분 분석과 요인분석에서 다른 것도 할 수 있습니다. 예를 들어 학생들의 성별이나 지역 이런 정보가 있으면 이 이차원 공간에서 성별, 지역별 이런 점도 찍어 낼 수 있다는 것이죠.

 

 

그럼 이런 생각이 들 수 있습니다. 똑같은 목적을 할 수 있는 분석이라고 하는데 실제 분석에서 어떻게 차이가 나는지 궁금하다는 것이죠. 최소한 이런 경우는 주성분을 쓰고, 저런 경우는 탐색적 요인 분석을 쓰고, 그런 이야기를 알고 싶다는 것이죠. 저도 알고 싶습니다. 여기저기 관련된 책을 봐도 이 부분에서는 알 수가 없습니다. 사실 석사 끝나고 통계책을 거의 보지를 않아서.

 

 

 

혹시 아시는 분이 있으면 책이나 논문을 소개해 주시기 바랍니다. S 매뉴얼에 어떤 논문 하나를 참고하라고 하든데 귀찮아서.

 

 

주성분 분석과 탐색적 요인 분석은 여기까지만 하고요.

 

 

 

 

2. 탐색적 요인분석과 확인적 요인분석

 

 

그럼 탐색적 요인 분석과 확인적 요인분석은 어떻게 다를까요?

 

아래 그림을 보면 쉽게 알 수 있습니다.

 

탐색적 요인 분석 그림

 

 

 

 

 

 

 

 

확인적 요인 분석 그림

 

 

 

 

 

 

그림을 보면 탐색적 요인분석은 5개의 관찰치가 두 개의 잠재변인인 언어능력과 계산 능력에 다 연결이 되어 있죠. 그러나 확인적 요인분석은 3개의 변수는 언어능력에 2개의 변수는 계산능력에 연결이 되어 있습니다. 즉 탐색적 요인 분석이 끝나서 3개의 변수가 언어능력에 묶이고, 2개의 변수가 계산 능력에 묶이면 이젠 이건 알려진 정보입니다. 확인적 요인 분석은 이 정보를 사용한 것입니다.

 

 

 

또 하나는 잠재 변수인 언어능력과 계산능력간에 연결이 되어 있습니다. 이건 두 개의 변수가 상관성이 있다는 것을 가정한 것입니다. 그러나 탐색적 요인 분석에서는 두 개의 잠재변수가 독립이라는 것을 가정합니다. 그래서 요인점수에서도 상관계수가 0이 나오는 것이고요. 아 물론 사각회전(기울어진 회전)을 선택하면 이 경우는 두 개의 잠재변인이 독립은 아니지만 이걸 사용할 경우는 거의 없다고 보시면 됩니다.

 

 

 

그럼 좀 귀찮지만 명확하게 수식으로 써 볼까요?

 

탐색적 요인 분석:

 

X1 = a11*F1+a12*F2

X2 = a21*F1+a22*F2

X3 = a31*F1+a32*F2

X4 = a41*F1+a41*F2

X5 = a51*F1+a52*F2

 

 

가 되고 여기서 F1과 F2는 독립입니다. 데이터를 찍으면 아래 그림처럼 삐딱하지 않고 수직적인 관계가 됩니다. 원 모양의 그림이 보이죠. 변수가 세 개 있으면 구 모양으로 찍히겠죠. Bartelett의 구형성 검증이라게 뭘 하는 건지 좀 추측이 되시나요?

 

 

 

 

 

 

 

 

그럼 확인적 요인 분석을 자세히 쓰면

 

확인적 요인 분석

 

X1 = a11*F1+0*F2

X2 = a21*F1+0*F2

X3 = a31*F1+0*F2

X4 = 0*F1+a41*F2

X5 = 0*F1+a52*F2

 

 

단 여기서는 F1과 F2는 서로 상관성이 있을 수도 있습니다.

 

확인적 요인분석이 훨씬 간단해 보이지요. 위의 모형 때문에 확인적 요인 분석에서는 해석이 명확해 집니다.

 

 

예를 들어 탐색적 요인 분석에서는 기본적으로

 

X=F+e

 

이고 우리가 분산분석에서 배웠지만

 

 

X의 전체 변동= F의 변동+오차의 변동

 

 

이렇게 설명되죠. 이 F의 변동(communality라고 합니다)이 크면 오차의 변동이 적기 때문에 좋다고 할 수 있습니다. 그러나 단일 척도가 아니면 이런 해석을 할 수 없습니다. 예를 들어 단어 이해에서 F의 변동의 컸다고 하죠. 그러나 이 F는 두 개의 F1과 F2의 결합으로 되어 있습니다.

 

즉 탐색적 요인 분석을 해서

 

 

단어이해 = 0.982*F1-0.108*F2

 

이렇게 된 경우는 공통분산(communality)이 크면 좋지만, 그렇지 않고

 

단어이해 = 0.5*F1+0.5*F2

 

 

이렇게 되면 공통분산이 커도 좋은 측정치가 아니거든요. 즉 단어이해는 언어능력과 계산능력의 평균적인 개념을 측정한 것이라 볼 수 있거든요.

 

 

 

그러나 확인적 요인 분석은 이런 걱정이 없다는 것이죠. 만약 요인이 4개, 즉 하위영역이 4개라고 해도

 

X1=a11*F1+0*F2+0*F3+0*F4+e

 

뒤 부분이 전부 0이라

 

X1=a11*F1+e

 

이런식으로 되어 공통분산이 트면 좋다는 것이죠.

 

즉 확인적 요인 분석에서는 공통분산이 크다는 것은 X1에 대해 오로지 F1만의 설명력이 크다는 이야기고 이러면 X1는 F을 잘 표현하는, 발현시킨 측정치라고 볼 수 있다는 것이죠.

 

분산추출(variance extracted measure)이라는 통계값이 위에서 설명한 그런 개념이고 회귀분석에서 결정계수 R^2이랑 거의 같은 개념입니다.

 

 

 

 

3. 주의할 점

 

여기서 두 개의 잠재변인이 연결된 모형이 더 큰 모형입니다. 연결이 되어 있으니 더 구체적인 것이라 생각해서 연결되지 않는 것보다 더 작은 모형이라 생각이 들 수 있지만 그렇지 않습니다. 연결이 되었다는 것은 상관관계가 있을 수 있다는 것을 의미합니다. 즉 독립일 수도 있다는 이야기입니다. 그래서 연결이 되지 않는 모형도 포함합니다. 가장 큰 모형을 포화모형(saturated model, 철자가 맞나?)이라고 합니다.

 

 

 

회귀분석에서

 

귀무가설: b1=0에 해당하는 모형 M1과

 

대립가설: b1이 0이 아니다라는 모형 M2에서

 

대립가설에 해당하는 모형이 더 큰 모형이라고 했습니다. 서로 배타적 관계인 것 같지만 사실상 M2가 M1보다 더 큰 모형입니다. 엄밀하게 말하면 합을 해야 하겠지만요.

 

그래서 확인적 요인 분석에서 이렇게 변수들 간에 연결을 시켜주면 절대적인 적합도는 올라갑니다. 그래서 이런 문제 때문에 수정적합도 계수들이 등장하는 것이죠.

 

 

 

그럼 우리가 설문문항을 여러 개 측정해서 연구주제 변수를 새로 만들려고 하는데 설문문항의 평균값, 합, 아니면 탐색적 요인분석에서 나오는 요인점수, 아니면 확인적 요인분석에서 나온 잠재변수 어느 것을 쓰는 것이 가장 좋을까요?

 

아... 이런 이야기는 책에 없습니다. 상식적으로 생각하시면 되죠.