43. 분류 분석
in Study on R Programming
Overview
분류 분석(Classification Analysis)은 다수의 변수를 갖는 데이터 셋을 대상으로 특정 변수 값을 조건으로 지정하여 데이터를 분류하여 트리 형태의 모델을 생성하는 분석 방법이다.
분류 분석은 학습 데이터(training data)를 이용하여 분류 모델을 찾은 다음에 이를 이용하여 새로운 데이터에 대하여 분류 값을 예측한다.
R에서 제공하는 분석 방법은 의사 결정 트리, 랜덤 포레스트, 인공 신경망 등이 있다.
의사 결정 트리(Decision Tree) 방식과 랜덤 포레스트(Random Forest) 방식 기법으로 데이터를 분류하는 방법에 대해서 알아 보도록 한다.
분류 분석의 특징
y 변수 존재
- 독립 변수 x와 종속 변수 y가 존재한다.
의사 결정 트리
- 분류 예측 모델에 의해 의사 결정 현태로 데이터 분류
- 분류 결과 시각화 가능
비모수 검정
- 선형성, 정규성, 등분산성 가정이 필요 없음
추론 기능
- 유의 수준 판단 기준이 없음
- 추론 기능이 없음
활용 분야
- 이탈 고객과 지속 고객의 분류
- 신용 상태 분류
- 번호 이동 고객과 지속 고객 분류 등
분류 분석 활용 예시
- 고객 분류, 기업의 부도 예측, 주가 예측, 환율 예측, 경제 전망 등.
- 기존 고객들의 여러 정보를 이용하여 신용 상태를 파악하고, 새로운 고객의 향후 신용 상태 예측
- 과거 환자들의 종양 검사를 토대로, 이를 통해서 새로운 환자에 대한 암을 진단에 이용
- 고객을 분류할 수 있는 변수들에 대한 규칙, 특성을 찾아 미래 잠재 고객의 행동이나 반응 예측과 유도에 활용