이 글은 강비정 교수가 쓴 글입니다.
다변량 데이터 분석 코스에 따라 작성됩니다.
작사: KUBIG 16학년 최규빈
제2장 다중선형회귀
예
차량 가격을 어떻게 예측할 수 있습니까?
변수(X)
- 나이, 색상, 문, 무게, HP, KM…
목표 (y)
- 가격
표적
양적 종속 변수 Y와 여러 설명 변수 X 간의 선형 관계 찾기
-
다중은 p개의 설명 변수가 있음을 의미합니다.
-
회귀는 y가 실수임을 의미합니다.
-
선형은 y와 x 사이의 관계가 선형임을 의미합니다.
$$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 … + \beta_dx_d + \epsilon $$
$$ \beta = 계수 \quad \epsilon = 노이즈 $$
회귀를 설명하다
기술적 회귀
-
설명 변수(X)와 종속 변수(y) 간의 관계를 설명하는 데 중점을 둡니다.
-
$R^2$로 “적합도” 측정
-
$\beta$를 얼마나 잘 찾으셨나요?
예측 회귀
-
새로운 X 데이터가 주어지면 y 값을 예측하는 기능에 중점을 둡니다.
-
예측 정확도 최적화
-
y를 얼마나 잘 예측합니까?
단순 회귀 모델
1 설명 변수 x
-
선형: y = f(x)가 선형(직선)이라고 가정
-
비선형: r = f(x)가 비선형이라고 가정(곡선)
다중 회귀 모델
두 개 이상의 설명 변수가 있습니다 x
-
선의
-
비선형
선형 회귀
독립 변수는 설명 변수의 선형 조합으로 표현됩니다.
- 세 개 이상의 설명 변수가 있는 초평면 모양
최소제곱법
일반 최소 제곱
-
실제 목표 값과 회귀 추정 값의 제곱 차이 최소화
-
행렬-벡터로 표현되는 연산
-
명시적 솔루션 $\hat{\beta} = (X^TX)^{-1}X^Ty$가 있습니다.
설립조건
-
잡음 $\epsilon$은 정규 분포를 따릅니다.
잔차의 QQ 플롯을 플로팅하여 이를 확인할 수 있습니다. -
데이터가 선형 관계일 때
-
관측값이 서로 독립적인 경우
-
Y의 변동성이 특정 변수의 변화에 영향을 받지 않는 경우(동분산성)
잔차 플롯 가져오기
적당
평가지표
제곱합 분해
-
SST : 평균 $\displaystyle\sum_{j=1}^{n} (y_j – \bar{y})^2$에 대한 총 제곱합
-
SSR : 회귀 제곱합 $\displaystyle\sum_{j=1}^{n} (\hat{y_j} – \bar{y})^2$
-
SSE : 잔차(오차) 제곱합 $\displaystyle\sum_{j=1}^{n} \hat{\epsilon_j}^2$
R 스퀘어
전체 데이터(SSR)의 변동성(SSR)에 대한 회귀 방정식으로 설명할 수 있는 변동성의 비율
- 선형 관계의 강도에 따라 결정되는 분석가의 능력과 독립적인 값
$R^2 = 1 – \frac{SSE}{SST} = \frac{SSR}{SST}$
$0 \leq R^2 \leq 1 $
$R^2 = 1 $ -> 모든 데이터 포인트를 통해 방정식을 맞춥니다.
$R^2 = 0 $ -> 예측 변수와 대상 변수 사이에 선형 관계가 없습니다.
피해
R-제곱은 변수의 수에 따라 단조롭게 증가합니다.
- 솔루션: $R^2$ 조정
모델 평가
-
잔차가 독립적입니까?
-
잔차가 정상적으로 분포되어 있습니까?
-
먼저 p-값을 확인한 다음 계수를 확인합니다.
회귀 모델 성능 평가 방법
1. 평균 오차
실제 y와 예측 y 사이의 평균
- 부호 효과를 놓치기 때문에 x를 사용하십시오.
2. 평균 절대 오차(MAE)
평균 절대 오차
- MAE는 절대적인 차이만 제공하므로 상대적인 차이를 결정할 수 없습니다.
3. 평균 절대 백분율 오차(MAPE)
평균 절대 비례 오차
- MAE 식에서 각 $y_i$를 다음으로 나누어 오류 백분율을 결정할 수 있습니다.
4,5. (근) 평균 제곱 오차((R)MSE)
계산의 용이성을 향상시키기 위해 제곱으로 미분 가능하게 만드십시오.