안녕하세요,
이전 포스팅에서 엑셀 데이터 분석 기능을 활용해서 기술통계분석, t-검정, 상관분석을 수행하는 방법을 알아보았습니다. 자세한 내용은 제 블로그의 개별 포스팅을 참고하시면 됩니다. 오늘은 논문에서 가장 많이 사용되는 방법 중 하나인 선형회귀분석, 다중회귀분석을 엑셀 데이터 분석 기능으로 하는 방법을 알아보겠습니다. 엑셀 데이터 분석 기능 활성화 방법은 아래의 포스팅을 참고하시면 됩니다.
[Excel]엑셀 분석도구 기능 활성화, 엑셀로 기술통계분석
안녕하세요, 이전 포스팅에서 SAS, R을 이용해서 기초적인 분석을 수행하는 코드를 설명해 드렸습니다. 사실 SAS, R의 경우 프로그램을 설치하였다고 해서 바로 제가 설명드린 코드를 활용해서 데
paratussemper.tistory.com
이번 포스팅에서도 SASHELP.CLASS 데이터셋을 활용하겠습니다. 데이터 탭 > 데이터 분석 > Regression 을 차례로 클릭합니다.
Height를 종속변수로 하고 Weight와 Age를 설명변수로 하는 회귀분석을 수행해보겠습니다.
위와 같이 입력하여 OK 버튼을 클릭했는데 에러가 나타났습니다. Input range must be contiguous reference. 설명변수들이 떨어져 있으면 분석이 되지 않는 것같습니다.
이에 데이터셋의 형태를 조금 수정하여 AGE와 WEIGHT가 나란히 있도록 수정하였습니다. 엑셀 데이터 분석 회귀분석에서는 회귀진단에 필요한 그래프도 제공합니다.
분석결과가 아래와 같이 제시되었습니다. 기본적인 모형정보를 확인할 수 있는데 R-Square뿐만 아니라 Adjusted R-square도 출력합니다. 그리고 회귀계수, 표준오차, p-value에 95% 신뢰구간 추정 결과까지 출력되기 때문에 엑셀만으로도 충분히 회귀분석 결과표를 채울 수 있습니다.
회귀진단에 활용할 수 있는 다양한 그래프도 확인할 수 있습니다.
다음으로 다중공선성을 살펴보기 위하여 활용되는 분산팽창지수(VIF)를 구하는 방법을 알아보겠습니다. 안타깝게도 엑셀에서는 VIF 결과를 따로 제시하지 않습니다. 그러나 VIF를 구하는 방법만 알고 있다면 큰 어려움없이 구할 수 있습니다. 예를 들어 A, B, C, D라는 설명변수가 있다고 한다면 A변수의 VIF는 A를 종속변수로, 나머지 변수인 B, C, D를 설명변수로 하여 회귀분석을 수행하여 얻은 R-square를 VIF = 1/(1-Rsquare) 공식에 대입하여 계산하면 VIF를 얻을 수 있습니다. SASHELP.CLASS 사례에 대입해보면 AGE 변수의 VIF를 구하기 위해서는 AGE를 종속변수, 그리고 나머지 원인변수인 WEIGHT를 독립변수로 하는 회귀분석을 수행하여 R-square를 얻은 후 위의 식에 대입하면 됩니다.
아래의 결과는 AGE를 종속변수로, WEIGHT를 독립변수로 하는 회귀분석 결과입니다. 모형정보에 있는 R-square를 위의 공식에 대입하여 계산하면 됩니다(VIF=1/(1-0.54891126))
이상으로 엑셀을 활용하여 회귀분석을 하는 방법을 알아보았습니다.
포스팅을 참고하여 학위논문을 무사히 마무리 하시길 바랍니다.
궁금하신 점은 댓글로 남겨주세요:)
감사합니다!
티스토리 시작 3주만에 구글 애드센스 한방에 통과한 후기 (3) | 2023.03.22 |
---|---|
[DATA&R]근로시간과 노동생산성 이대로 괜찮은가? (0) | 2023.03.20 |
[DATA&R]휘발유 가격 재역전, 주유소 평균 판매가격은?(R시각화) (5) | 2023.03.12 |
[Excel]엑셀 데이터 분석으로 상관분석 클릭으로 끝내기 (0) | 2023.03.11 |
[Excel]엑셀 분석도구로 t검정 클릭으로 끝내기 (0) | 2023.03.08 |
댓글 영역