상세 컨텐츠

본문 제목

[SAS ODA]상관분석 클릭으로 끝내기(공분산 행렬, 산점도)

SAS

by 대학원생D군 2023. 3. 17. 20:00

본문

반응형

안녕하세요, 

이번 포스팅에서는 SAS ODA를 이용하여 상관분석을 클릭으로 끝내는 방법을 살펴보겠습니다. 상관분석은 회귀분석 이전에 수행되며 변수들 간의 상관관계를 보며 다중공선성 등을 진단할 수 있기 때문에 학술지 논문이나 학위 논문에서 필수적으로 포함되어야 합니다.

 

상관분석은 작업 및 유틸리티 > 통계량 > 상관분석에서 할 수 있습니다. 이번에도 역시 SASHELP.CLASS 데이터셋을 활용하여 분석해 보겠습니다.

먼저 분석하고자 하는 데이터셋을 데이터에 입력한 후 분석변수에 상관분석을 하고 싶은 변수들을 넣으면 됩니다. 상관 대상은 크게 필요한 경우가 없으며 부분상관변수의 경우 편상관계수를 구하고 싶은 경우 활용하시면 됩니다. 저는 논문을 쓰면서 편상관계수가 필요했던 적은 없는 것 같습니다..

옵션에 들어가면 방법, 통계량, 도표 등과 관련된 옵션을 설정할 수 있습니다.

  • 방법은 상관분석 시 결측치를 어떻게 다룰 것인지에 대한 것으로 변수 쌍에 대한 비결측값 사용, 선택한 모든 변수에 대해 비결측값 사용을 선택할 수 있습니다. 즉, 활용하는 변수 중 하나라도 결측값이 있는 관측치를 분석 대상에서 제외하고 싶다면 선택한 모든 변수에 대해 비결측값 사용을 클릭(옵션은 nomiss)하면 됩니다.
  • 통계량에서는 상관계수, p-value표시, 공분산, 제곱합과 교차곱, 수정제곱합과 교차곱, 기술통계량, Fisher의 z변환, 비모수 상관계수인 Spearman의 순위 상관계수, Kendall의 tau b, Hoeffiding의 종속측도를 선택할 수 있습니다. 여러 통계량 중 상관계수 p값 표시, 기술통계량이면 충분하지만 구조방정식, 매개효과 분석 등 공분산 행렬이 필요한 경우도 있으니 선택해 보겠습니다. 
  • 도표 : 산점도 행렬(히스토그램 포함), 개별산점도(예측 타원 시각화)를 선택할 수 있습니다.

위와 같이 설정하여 상관분석을 실시한 결과는 아래와 같습니다.

공분산행렬, 단순 통계량(기술통계), 피어슨 상관계수를 확인할 수 있습니다.

옵션 > 도표 > 도표 유형 > 산점도 행렬을 선택하니 아래와 같은 시각화 결과물을 얻었습니다. 히스토그램으로 변수의 분포를 파악할 수 있고 산점도를 통하여 변수들 간의 관계를 한눈에 살펴볼 수 있기 때문에 유용합니다. PROC SGPLOT을 이용해서 시각화할 수 있으나 시간이 없는 경우 유용하게 활용할 수 있습니다.

SAS 코드는 아래를 참고하시면 됩니다.

proc corr data=SASHELP.CLASS pearson cov plots=matrix(histogram);
	var Age Height Weight;
run;

옵션 > 도표 > 도표 유형 > 개별 산점도를 선택하면 아래와 같이 변수들 간의 관계를 하나하나 살펴볼 수 있습니다. 그리고 인셋 통계량 포함을 선택을 하면 좌측 상단에 관측점, 상관계수, p-값이 그래프에 포함됩니다.

개별 산점도를 시각화하는 코드는 아래와 같습니다. 위의 코드와 비교해 보면 코드를 이해하는데 큰 도움이 될 것입니다.

proc corr data=SASHELP.CLASS pearson cov plots=scatter(ellipse=prediction 
		alpha=0.05);
	var Age Height Weight;
run;

끝으로 출력에 출력 데이터셋 생성을 클릭하고 출력 데이터셋에 포함할 통계량으로 상관계수, 공분산을 선택하여 실행한 결과입니다. 공분산, 상관계수, 평균, 표준편차, 관측점 수가 work.Corr_stats에 저장됩니다. 해당 데이터셋은 중급, 고급 통계 분석을 하는데 큰 도움이 됩니다.

이상으로 SAS ODA를 사용해서 상관분석을 하는 방법을 알아보았습니다.

감사합니다!

반응형

관련글 더보기

댓글 영역