자격증

빅분기 실기 Statsmodels의 model.summary() 해석

goatlife 2025. 11. 25. 21:53

📌 1. OLS Regression Results 예시 출력

아래는 Statsmodels 의 model.summary()로 자주 나오는 형태를 기반으로 작성된 예시입니다.

 

📘 2. 각 지표의 해석 

아래는 빅분기 시험에 자주 나오는 해석 포인트 중심으로 정리했습니다.


🔹 (1) Dep. Variable

  • 종속변수(예측하려는 값)
    예: Survived → 살아남았는지(0/1)

🔹 (2) R-squared (결정계수)

  • 모델이 종속변수 변동을 얼마나 설명하는지 비율
  • 0~1 사이이며, 1에 가까울수록 모델이 잘 설명함

예: R-squared = 0.512
→ “생존 여부를 51.2% 정도 설명한다”


🔹 (3) Adj. R-squared (수정된 결정계수)

  • R² 에 변수 개수에 따른 패널티를 부여해 조정한 값
  • 변수 개수가 많을 때 모델의 진짜 성능을 보여줌
    시험에서 해석 포인트:

값이 R²보다 약간 작으며, 모델 과적합 여부 확인 가능


🔹 (4) F-statistic & Prob(F-statistic)

  • 전체 회귀모델이 유의한가? 즉,
    독립변수들이 종속변수 예측에 의미가 있는가?

예: Prob(F) = 2.45e-45
→ 0.05보다 매우 작으므로 모델 전체는 유의함


🔹 (5) coef (회귀계수, β값)

각 독립변수가 종속변수에 미치는 영향(방향·크기)

예시 해석

  • Gender = 0.2541
    • 성별이 1 증가(예: 여성 =1이면)하면 생존 확률이 0.2541 증가
  • SibSp = -0.0413
    • 가족 수가 많을수록 생존 확률 감소

👉 계수가 양수면 + 영향, 음수면 - 영향.


🔹 (6) std err

  • 계수의 표준오차
  • 값이 작을수록 안정적인 추정

🔹 (7) t 값

  • 회귀계수가 0이 아니라는 증거의 강도
  • |t|가 클수록 해당 변수는 종속변수에 유의함

🔹 (8) P>|t| (p-value, 유의확률)

  • 해당 독립변수가 유의한지 판단하는 핵심 지표
  • 0.05 미만이면 “유의하다”

 

변수 p-value 해석
Gender 0.000 매우 유의
SibSp 0.001 유의
Parch 0.168 유의하지 않음
Fare 0.000 매우 유의

🔹 (9) 95% 신뢰구간 [0.025, 0.975]

  • 계수가 이 구간 안에 있을 확률 95%
  • 구간에 0을 포함하면 → 유의하지 않을 가능성

예:Parch는 구간이 [-0.006 ~ 0.037], 0 포함 → 유의 X


🔹 (10) Omnibus / Prob(Omnibus)

  • 잔차가 정규성을 띠는지 검정
  • p-value가 0.05보다 크면 “정규성 만족”

🔹 (11) Jarque-Bera (JB)

  • 정규성 검정의 또 다른 방법
  • p-value가 0.05보다 크면 “잔차는 정규분포”

시험 팁:

둘 다 정규성이 깨지면 선형회귀의 가정이 위배됨.


🔹 (12) Skew (왜도)

  • 잔차의 비대칭 정도
  • 0이면 완전 대칭(정규)

🔹 (13) Kurtosis (첨도)

  • 잔차의 뾰족한 정도
  • 3이면 정규분포
  • 3보다 높으면 꼬리가 두꺼움(과도한 이상치 가능)

🔹 (14) Durbin-Watson (DW)

  • 잔차의 자기상관(연관성) 검정
  • 값 범위: 0 ~ 4
    • 2 → 자기상관 없음 (적합)
    • 0에 가까움 → 양의 자기상관
    • 4에 가까움 → 음의 자기상관

예: DW = 1.934 → 거의 2, 자기상관 없음


🔹 (15) Cond. No. (조건수)

  • 다중공선성 여부 판단
  • 30 이상이면 공선성 의심
  • 100 이상이면 매우 심각

예: Cond. No = 72.3
→ 약간 높은 편, 일부 다중공선성 가능


🔥 + 추가 : 상관계수(Correlation coefficient) 의미

OLS Summary에는 없지만, 분석에서 자주 묻는 부분이므로 추가 설명.

상관계수 r (Pearson correlation)

  • -1 ~ +1
  • 1에 가까울수록 강한 양의 상관
  • -1에 가까울수록 강한 음의 상관
  • 0에 가까울수록 관계가 약함
  • 단, “인과관계” 아님 → 단지 함께 움직일 뿐

📌 3. 요약: 시험에서 꼭 해석해야 하는 부분


 

구분 의미
R-squared 모델 설명력
Adj. R-squared 설명력 + 변수 개수 조정
Prob(F) 모델 전체 유의성
coef 변수의 영향 방향·크기
p-value (P> t
Durbin-Watson 자기상관 검정
Cond. No 다중공선성 여부
LIST