38. 일반화 선형 모델(Generalized Linear Model)


r

Overview

회귀 분석에서 일반화 선형 모델(Generalized Linear Model)에 대해 알아본다.


일반화 선형 모델(Generalized Linear Model)

일반화 선형 모형은 종속 변수가 정규 분포되어 있지 않는 경우를 포함하는 선형 모형의 확장 모형이다.

대표적으로 로지스틱 회귀(Logistic regression)와 포아송 회귀(Poisson regression) 등이 있다.


일반화 선형 모델이 필요한 경우

회귀 분석은 종속 변수가 정규 분포화 되어 있는 연속형 변수이다.

다음과 같은 경우에는 종속 변수가 정규 분포화되어 있다고 볼 수 없다.

이항 변수

종속 변수가 범주형 변수인 경우, 두 가지 선택지에서 1가지를 고르는 경우

예시 : 0 또는 1, 합격/불합격, 사망/생존 등

다항 변수

종속 변수가 범주형 변수인 경우, 여러 선택지에서 1가지를 고르는 경우

예시 1 : 상품의 품질이 poor/good/excellent 중 1개
예시 2 : 선호하는 당이 공화당/민주당/무소속 등인 경우


로지스틱 회귀 분석

로지스틱 회귀 분석(Logistic Regression Analysis)은 종속 변수와 독립 변수 간의 관계를 나타내어 예측 모델을 생성한다는 점에서는 선형 회귀 분석 방법과 동일하다.

하지만 독립 변수(x)에 의해서 종속 변수(y)의 범주로 분류한다는 측면은 분류 분석 방법으로 분류한다.

로지스틱 회귀의 특징

  • 분석 목적
    • 종속 변수와 독립 변수의 관계를 통해 예측 모델을 생성
  • 회귀와의 차이점
    • 종속 변수는 반드시 범주형 변수
    • 이항 분류 : 1/0
    • 다항 분류 : 1, 2, 3, 4, 5
  • 정규성
    • 정규 분포 대신 이항분포를 따름
  • 로짓 변환
    • 종속 변수의 출력 범위를 0과 1로 조정하는 과정(recode)
    • A, B, C \(\to\) 1, 2, 3
  • 활용 가능 분야
    • 의료, 통신, 날씨 등 다양한 분야

로지스틱 모델 구하기

stats 패키지에서 제공하는 glm() 함수를 사용하면 로지스틱 회귀 모델을 구해준다.

  • 사용 형식
    • glm( y~ x, data = train, family = 'binomial' )
  • formula
    • 종속변수~독립변수 형태로 지정한 포뮬러
  • data
    • 포뮬러를 적용시킬 데이터 지정
  • family
    • 로지스틱 분류 시, ‘binomial’ 옵션을 사용한다.





© 2019. by RaP0d

Powered by aiden