상세 컨텐츠

본문 제목

[SAS ODA]로지스틱 회귀분석 클릭으로 끝내기

SAS

by 대학원생D군 2023. 3. 21. 10:00

본문

반응형

안녕하세요, 

이번 포스팅에서는 SAS ODA를 활용하여 로지스틱 회귀분석을 하는 방법을 살펴보겠습니다. 로지스틱 회귀분석은 종속변수가 범주형 변수일 때 사용하는 유용한 방법으로 학위논문 작성에도 많은 분들이 사용하는 분석 방법입니다. 이번 포스팅에서도 역시 SASHELP.CLASS 데이터셋을 사용하여 성별을 종속변수로, 체중과 신장을 설명변수로 하는 로지스틱 회귀분석을 해보겠습니다. 

 

[SAS ODA]선형회귀분석 클릭으로 끝내기(조절효과/상호작용항)

안녕하세요, 몇년전부터 머신러닝, 딥러닝에 대한 관심이 많이 증가하였습니다. 그러나 머신러닝 관련 책을 살펴보면 회귀분석에 대한 내용이 포함되어 있습니다. 머신러닝의 알고리즘과 비교

paratussemper.tistory.com

로지스틱 회귀분석은 작업 및 유틸리티 > 선형 모델 > 이진 로지스틱 회귀에서 할 수 있습니다. 분류변수, 연속변수에 설명변수를 입력하는 것은 이전에 살펴본 선형 회귀분석과 동일합니다. 그러나 이진 로지스틱 회귀의 경우 종속변수가 아닌 반응으로 표현되어 있네요. 반응에 종속변수인 성별을 투입하면 됩니다. 데이터 탭에 데이터셋, 반응변수, 설명변수를 입력하였는데 코드가 생성되었습니다. 로지스틱 회귀분석은 데이터탭만으로도 충분히 분석이 가능합니다.

다음으로 모델 탭을 살펴보면 모델 유형을 지정할 수 있는데 일반적인 분석을 위해서는 주 효과 모델을 클릭하면 되고, 상호작용항을 만드시고 싶으면 사용자 정의 모델을 이용하여 만드시면 됩니다.

선형 회귀모형과 마찬가지로 선택 탭에서는 모형 선택 방법을 지정할 수 있습니다. 선형 회귀모형에서는 전진선택, 후진제거, 단계별 선택 기능을 사용할 수 있었는데 로지스틱 회귀에는 3가지 방법에 더하여 고속 후진제거, 고속 후진제거를 가진 단계별 선택 기능을 추가적으로 제공하고 있습니다.

옵션을 살펴보면 로지스틱 회귀분석 모형의 적합도를 살펴볼 수 있는 통계량을 추가적으로 지정하여 출력하도록 할 수 있습니다. 저는 호스머 램쇼 통계량(Hosmwer & Lemeshow 적합도)을 클릭해보았습니다. 이외에도 분류테이블, 부분상관, 일반화된 R 제곱, 이탈도 및 Pearson 적합도, 다중비교, 정확 검정, 모수 추정값 등 다양한 기능을 제공합니다. 도표의 경우에도 기본 도표 이외에도 odds 그래프 등을 출력하도록 지정할 수 있습니다.

출력 탭의 스코어 데이터셋 생성도 클릭을 해보았습니다. 한 가지 아쉬운 점은 한계효과를 시각화하는 코드가 없다는 점입니다. 로지스틱 회귀분석의 경우 회귀계수, 오즈비(odds ratio)를 해석하는 것은 쉽지 않습니다. 그렇기 때문에 저는 한계효과 그래프를 활용합니다. 해당 부분은 이후 포스팅에서 proc logistic 프로시저에 대한 설명과 함께 소개하겠습니다. 

분석결과는 아래와 같이 출력됩니다. 논문 작성에 불필요한 부분은 제외하였습니다. 모형 수렴 여부, AIC SC, -2LL, Wald 통계량 등 모형 정보를 확인할 수 있고 MLE로 추정된 회귀계수와 그 유의미성, 그리고 오즈비를 확인할 수 있습니다. 분석결과를 살펴보면 모형 자체가 유의미하지 않았고 유의미한 변수가 하나도 없었습니다.

호스머 램쇼 통계량도 아래와 같이 확인할 수 있습니다.

그리고 스코어 데이터셋을 보면 관측치가 남성일 확률과 여성일 확률을 확인할 수 있습니다. 분류 문제에서 유용하게 활용할 수 있을 것 같습니다.

이외에도 오즈비 시각화 결과 및 모형 진단을 위한 각종 그래프가 출력되었습니다.

이상으로 SAS ODA를 활용한 로지스틱 회귀분석 방법을 살펴보았습니다.

감사합니다!

☆ 제 코드는 정답이 아니며 틀린 부분이 있을 수 있으니 주의하여 활용하시기 바랍니다.

반응형

관련글 더보기

댓글 영역