33. 상관 관계 분석


r

Overview

상관 관계 분석이란 변수들간의 연관성을 분석하기 위하여 사용하는 방법으로써, 한 개의 변수가 다른 변수와 어느 정도의 관련성이 있는 지를 개관할 수 있는 분석 기법이다.

“하나의 변수가 다른 변수와 관련성이 있는가?” 또는 “관련성이 있다면 어느 정도 있는 가?” etc.

사용 예시

광고의 양과 브랜드의 인지도는 얼마나 연관성이 있는가? 광고비와 매출액은 얼마나 연관성이 있는가?

사용처

회귀 분석에서 변수들 간의 인과 관계를 분석하기 전에 선행 자료로 사용될 수 있다.


피어슨 상관 계수

상관 계수란 변수들 간의 관련성을 가늠하기 위한 척도이다.

두 변수간의 가장 높은 상관 관계의 상관 계수는 1이다.

두 변수간에 상관 관계가 전혀 없으면 상관 계수는 0이다.


상관 계수 보기

변수 간의 상관 계수는 stats 패키지에서 제공하는 cor() 함수를 이용하며 다음과 같은 형식이다.

cor() 함수

상관 계수를 구해주는 함수로써, 반환 값은 상관 계수 행렬(matrix) 객체이다.

  • 사용형식
    • cor(x, y, use, method)
  • x
    • vector, matrix, data frame 등
  • y
    • 기본값은 NULL
  • use
    • -
  • method
    • c(‘pearson’, ‘kendall’, ‘spaerman’)
    • 기본 값은 pearson
    • 보편적으로 피어슨 상관 계수를 이용

상관 계수 시각화

corrgram() 함수를 사용하면 상관 계수와 상관 계수에 따른 색의 농도로 시각화 해주는 패키지

  • 사용형식
    • corrgram(x, lower.panel = panel, upper.panel = panel)
  • x
    • 작업을 수행할 데이터
  • lower.panel
    • 아래쪽 판넬에 상관 계수를 추가
    • lower.panel = panel.conf
  • upper.panel
    • 위쪽 판넬에 상관 계수를 추가
    • upper.panel = panel.conf

corrplot 패키지

corrplot 패키지는 상관 행렬(correlation matrix)의 결과와 신뢰 구간(confidence interval)을 그래프로 그려 주는 패키지

행렬의 재정렬(reordering) 알고리즘을 포함하고 있으며 색의 선택, 텍스트 라벨링, 칼라 라벨 등을 포함

corrplot() 함수

항목설명
사용 형식corrplot(mcor, method="shade", shade.col=NA, tl.col="black", tl.srt=45)
mcormatrix 객체(상관 계수 행렬 객체)
methodcircle : default, shade : 네모칸,
ellipse : 오른쪽(양수), 왼쪽(음수)으로 방향의 타원
shade.col-
tl.col글자 색
tl.srt변수의 기울기
addCoef.col내부 색상
addcolorlabel-
order순서 조절(AOE, FPC, hclust)

밀도 곡선, 상관성, 유의 확률

차트에 밀도 곡선, 상관성, 유의 확률(*)을 추가하려면 다음과 같이 작성한다.

library(PerformanceAnalytics)

# 상관성, p값(*), 정규 분포(모수 검정 조건) 시각화
chart.Correlation( product, histogram=, pch="+")
savePlot('chart.Correlation 실행 결과.png', type="png")

fig01


상관 관계 분석 결과표

일반적으로 상관 관계 분석 결과를 논문이나 보고서에 제시할 경우에는 기본적인 기술 통계량과 피어슨 상관 계수를 함께 제시한다.

fig02




© 2019. by RaP0d

Powered by aiden