35. 회귀 분석
in Study on R Programming
Overview
회기분석(Regression Analysis)이란 특정 변수(독립 변수)가 다른 변수(종속 변수)에 어떠한 영향을 미치는가를 분석하는 방법이다.
즉, 인과 관계가 있는지 등을 분석하기 위한 방법으로, 한 변수의 값을 가지고 다른 변수의 값을 예측해 주는 분석 방법이다.
기계 학습(머신 러닝)
회귀 분석은 기계학습을 이용한다.
기계 학습 즉, 머신 러닝은 빅 데이터와 사물 인터넷(IoT) 시대에서 유용한 정보를 생성해주는 중요한 역할을 제공한다.
기계 학습은 정해진 특정 알고리즘을 통해서 데이터를 예측하는 인공 지능의 일종이다
되도록 사람의 개입을 적게 하고 컴퓨터가 데이터에 의한 학습을 통해 최적의 판단이나 예측을 가능하게 해주는 것을 말한다.
지도 학습과 비지도 학습(자율 학습)으로 분류가 된다.
지도 학습은 사전에 입력출력 정보를 제공하고, 해당 입력에 대한 출력 값이 나타나는 규칙을 발견하고, 이를 통해서 만들어진 모델(model)을 통해서 새로운 데이터를 추정 및 예측하는 학습 패턴을 의미한다.
비지도 학습은 최종적인 정보가 없는 상태에서 컴퓨터 스스로 공통점과 차이점 등의 패턴을 이용해서 규칙을 생성하고, 이를 통해서 분석 결과를 도출해내는 방식이다.
따라서 유사한 데이터를 그룹화해주는 군집화와 군집내의 특성을 나타내는 연관 분석 방법에 주로 이용된다.
선형 회귀 분석
선형 회귀를 설명하기 전에 독립 변수와 종속 변수에 대한 개념을 간단히 살펴 보자.
독립 변수는 영향을 주는 변수이고 종속 변수는 영향을 받는 변수이다.
예를 들어, 직선의 방정식 \(y = 2x+1\)에서\(x\)는 독립변수이고, y는 종속변수로, \(x\)의 값에 따라서 \(y\)의 값이 달라진다.
즉, \(x=2\)이라고 가정하면 \(y=2\times2+1\) 라는 연산식에 의하여 값이 5가 된다.
선형 회귀는 독립 변수와 종속 변수간의 관계를 모델링하는 기법을 말한다.
이 때, 독립 변수가 하나인 경우 단순 선형 회귀(Simplie Linear Regression), 독립 변수가 2개 이상인 경우 중선형 회귀(Multiple Linear Regression)이라고 한다.
선형 회귀는 다음과 같이 독립 변수 x와 종속 변수 y로 표현한다.
\(y=\beta0+\beta1\times x + \varepsilon=wx+b\)
회귀 계수 = \(\beta 0\)(절편) + \(\beta 1\)(x의 계수)
\(\varepsilon\) : 오차
관련 용어
관련된 함수들은 대부분 ststs 패키지에 들어 있다.
항목 | 설명 |
---|---|
독립 변수 | 다른 변수에게 영향을 주는 변수 |
종속 변수 | 다른 변수에게 영향을 받는 변수 |
회귀 계수 | 절편과 기울기 \(\beta0\)(절편) + \(\beta1\)(x의 계수) coef(model) 함수는 회귀 계수(절편과 기울기)를 구해 주는 함수 |
회귀 방정식 | 회귀 계수를 이용하여 생성된 방정식 |
회귀 선 | 독립 변수와 종속 변수에 대한 분포를 나타내기 위한 가장 적합한 직선 |
적합된 값 (fitted value) | 각 독립 변수 x에 대한 모델의 예측된 y 값을 적합된 값(예측치) 적합된 값은 fitted(mydata) 함수를 사용 |
잔차(residuals) | 모델로부터 구한 예측 값과 실제 값 사이의 차이(H - y) 를 의미residuals() 함수를 이용 |
잔차 제곱 합 | 선형 회귀에서는 오차의 제곱의 합이 최소가 되도록 회귀 계수를 정함 stats 패키지의 deviance() 함수 이용 |
다중 공선성 (multicollinearity) | 독립 변수들 간의 강한 상관 관계로 인하여 회귀 분석의 결과를 신뢰할 수 없게 되는 현상 강한 상관 관계를 갖는 독립 변수를 제거하여 해결 다중 공선성 문제가 의심이 되는 경우에 반드시 상관 계수를 구해야 함 |
분산 팽창 요인 (VIF) | Variance Inflation Factor 공차 한계의 역수로 표시 공차 한계 : 한 독립 변수가 다른 독립 변수들에 의하여 설명이 되지 않는 부분 VIF가 10 이상이면 다중 공선성 의심 |