34. 요인 분석


r

Overview

요인 분석이란 다수의 변수들을 대상으로 변수들 간의 관계를 분석하여 공통 차원으로 축약하는 통계 기법이며, 데이터를 축소하는 변수의 정제 과정이다.


요인 분석 예시

5명의 고객에 대한 ‘fast-food’ 점포의 평가 내용을 살펴보자.

fig01

‘fast-food’ 점포는 대체로 음식의 질은 좋으나 서비스는 별로 좋지 않다 라고 해석할 수 있다.

또 다른 예를 들어보면, 학생들 100명을 대상으로 국, 영, 수, 물리 시험을 통해 성적을 구하였을때, 공통적으로 설명할 수 있는 공통 인자(변수)를 파악하는 것이다.

즉, 언어 능력(국어, 영어), 수리 능력(수학, 물리) 등으로 분리해 내는 것이다.


요인 분석의 전제 조건

하위 요인으로 구성되는 데이터 셋이 준비되어 있어야 한다.
분석에 사용되는 척도는 등간 척도*비율 척도8이어야 한다.
표본의 크기는 최소 50개 이상이 바람직하다.
상관 관계가 높은 것 끼리 그룹화 하는 것으로, 변수들 간 상관 관계가 낮다면(|3| 이하) 요인 분석에 적합하지 않다.


요인 분석의 목적

항목설명
자료의 요약변수를 몇 개의 공통된 변인으로 묶음
변인 구조 파악변인들의 상호 관계 파악
불필요한 변인 제거중요도가 떨어지는 변수 제거
특정 도구 타당성 검증변인들이 동일한 요인으로 묶이는지 확인

요인 분석의 종류

항목설명
타당성 검정측정 도구가 정확히 측정되었는지를 알아보기 위해 측정 변수들이 동일한 요인으로 묶이는지 검정
변수 축소변수들의 상관관계가 높은 것끼리 묶어 변수 정제
변수 제거변수의 중요도를 나타내는 요인 적재량이 0.4 미만이면 설명이 부족한 요인으로 판단하여 제거
톡립 변수 활용요인 분석에서 얻어지는 결과를 이용하여 상관 분석이나, 회귀 분서의 설명 변수로 활용

주요 용어

항목설명
주성분Principal component
분산에 영향을 많이 주는 성분
변수(variable)분석에 사용하고자 하는 내용이 있는 데이터
변수 : s1 ~ s6를 저장하고 있는 subject 변수
요인(factor)서로 상관 계수가 높은 것끼리 모아 변수의 집단으로 나눠놓은 결과물
요인 적재값(loading)각 변수(s1 ~ s6)와 요인(factor) 간의 상관 계수
값이 +0.4 미만이면 중요도가 그리 높지 않는 변수
높은 적재 값은 해당 변수들이 이 요인으로 설명할 수 있음을 의미
요인 점수(scores)관측치와 요인 간의 관계를 통하여 구해진 점수
SS Loadings각 요인 적재 값의 제곱의 총합
각 요인의 설명력을 보여 주는 것으로, 값이 크면 높은 설명력
Uniquenesses유효성을 판단하여 제시한 값으로 통상 0.5 이하이면 유효
정보 손실1 -누적분산비율
고유 값변수 속에 담겨진 정보가 어떤 요인에 어느 정도 표현될 수 있는 지의 비율
먼저 추출된 요인의 고유 값은 다음에 추출되는 요인의 고유 값보다 큼

요인 수를 결정하는 방법

  • 주성분 분석 방법
  • 상관 계수 행렬을 이용한 초기 고유 값을 이용하는 방법

고유값(eigen value)의 사용

선형 연립 방정식
특이값 분해
주성분 분석

prcomp 함수

주성분 분석이란 변동량(분산)에 영향을 주는 주요 성분을 분석하는 방법

prcomp 함수는 주성분 분석을 수행해주는 함수로, 주성분 분석을 이용하여 어떤 요소가 변동량에 영향을 가장 많이 주는 가를 찾아 내는 방법

요인 분석에서 사용될 요인의 개수를 결정하는 데 주로 사용

  • 사용 형식 : pc <- prcomp(data)
  • data : 주성분 분석을 수행할 데이터 프레임

factanal 함수

요인 분석(factor analysis) 함수의 줄인말로, 요인 분석에서 해석이 어려운 어느 한 요인을 높게 나타나도록 하기 위하여 요인 축을 회전하는 방법 일반적으로, varimax 회전법을 많이 사용

유의 확률(p-value)의 값이 0.05보다 적으면 요인 수가 부족하다는 의미

항목설명
사용 형식result <- factanal(dataset, factors=2, rotation='varimax')
dataset요인 해석을 위한 데이터 셋을 지정
factor주성분 변수(요인 개수)의 개수를 지정
rotation요인 회전법 이름(varimax, promax, none)
scores요인 점수를 계산하는 방법
c('none', 'regression', 'Bartlett')
예) regression(회귀 분석으로 요인 점수를 계산하는 방식)
na.action결측치에 대한 처리

factanal 출력 결과 예시

result <- factanal(subject, factors=3, rotation='varimax', scores='regression') result

Call:
factanal(x = subject, factors = 3, scores = "regression", rotation = "varimax")
Uniquenesses: # 유효성을 판단하여 제시한 값으로 통상 0.5 이하이면 유효한 것으로 본다.
국어 수학 인문 물리 사회 영어
0.005 0.051 0.240 0.005 0.005 0.056
Loadings: # 변수와 요인 간의 상관 관계이다.
    # 예를 들어 Factor1과 인문과목과 사회과목이 상관계수가 높다

SS loadings # 각 요인 적재 값들의 제곱의 총합

The degrees of freedom for the model is 0 and the fit was 0.7745





© 2019. by RaP0d

Powered by aiden