(다변량 데이터 분석) Chapter 02


이 글은 강비정 교수가 쓴 글입니다.

다변량 데이터 분석 코스에 따라 작성됩니다.


작사: KUBIG 16학년 최규빈

제2장 다중선형회귀


차량 가격을 어떻게 예측할 수 있습니까?

변수(X)

  • 나이, 색상, 문, 무게, HP, KM…

목표 (y)

  • 가격

표적

양적 종속 변수 Y와 여러 설명 변수 X 간의 선형 관계 찾기

  • 다중은 p개의 설명 변수가 있음을 의미합니다.

  • 회귀는 y가 실수임을 의미합니다.

  • 선형은 y와 x 사이의 관계가 선형임을 의미합니다.

$$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 … + \beta_dx_d + \epsilon $$

$$ \beta = 계수 \quad \epsilon = 노이즈 $$

회귀를 설명하다

기술적 회귀

  • 설명 변수(X)와 종속 변수(y) 간의 관계를 설명하는 데 중점을 둡니다.

  • $R^2$로 “적합도” 측정

  • $\beta$를 얼마나 잘 찾으셨나요?

예측 회귀

  • 새로운 X 데이터가 주어지면 y 값을 예측하는 기능에 중점을 둡니다.

  • 예측 정확도 최적화

  • y를 얼마나 잘 예측합니까?

단순 회귀 모델

1 설명 변수 x

  • 선형: y = f(x)가 선형(직선)이라고 가정

  • 비선형: r = f(x)가 비선형이라고 가정(곡선)

다중 회귀 모델

두 개 이상의 설명 변수가 있습니다 x

  • 선의

  • 비선형

선형 회귀

독립 변수는 설명 변수의 선형 조합으로 표현됩니다.

  • 세 개 이상의 설명 변수가 있는 초평면 모양

최소제곱법

일반 최소 제곱

  • 실제 목표 값과 회귀 추정 값의 제곱 차이 최소화

  • 행렬-벡터로 표현되는 연산

  • 명시적 솔루션 $\hat{\beta} = (X^TX)^{-1}X^Ty$가 있습니다.

설립조건

  • 잡음 $\epsilon$은 정규 분포를 따릅니다.


    잔차의 QQ 플롯을 플로팅하여 이를 확인할 수 있습니다.

  • 데이터가 선형 관계일 때

  • 관측값이 서로 독립적인 경우

  • Y의 변동성이 특정 변수의 변화에 ​​영향을 받지 않는 경우(동분산성)
    잔차 플롯 가져오기

적당

평가지표

제곱합 분해

  • SST : 평균 $\displaystyle\sum_{j=1}^{n} (y_j – \bar{y})^2$에 대한 총 제곱합

  • SSR : 회귀 제곱합 $\displaystyle\sum_{j=1}^{n} (\hat{y_j} – \bar{y})^2$

  • SSE : 잔차(오차) 제곱합 $\displaystyle\sum_{j=1}^{n} \hat{\epsilon_j}^2$

R 스퀘어

전체 데이터(SSR)의 변동성(SSR)에 대한 회귀 방정식으로 설명할 수 있는 변동성의 비율

  • 선형 관계의 강도에 따라 결정되는 분석가의 능력과 독립적인 값

$R^2 = 1 – \frac{SSE}{SST} = \frac{SSR}{SST}$

$0 \leq R^2 \leq 1 $

$R^2 = 1 $ -> 모든 데이터 포인트를 통해 방정식을 맞춥니다.

$R^2 = 0 $ -> 예측 변수와 대상 변수 사이에 선형 관계가 없습니다.

피해

R-제곱은 변수의 수에 따라 단조롭게 증가합니다.

  • 솔루션: $R^2$ 조정

모델 평가

  • 잔차가 독립적입니까?

  • 잔차가 정상적으로 분포되어 있습니까?

  • 먼저 p-값을 확인한 다음 계수를 확인합니다.

회귀 모델 성능 평가 방법

1. 평균 오차

실제 y와 예측 y 사이의 평균

  • 부호 효과를 놓치기 때문에 x를 사용하십시오.

2. 평균 절대 오차(MAE)

평균 절대 오차

  • MAE는 절대적인 차이만 제공하므로 상대적인 차이를 결정할 수 없습니다.

3. 평균 절대 백분율 오차(MAPE)

평균 절대 비례 오차

  • MAE 식에서 각 $y_i$를 다음으로 나누어 오류 백분율을 결정할 수 있습니다.

4,5. (근) 평균 제곱 오차((R)MSE)

계산의 용이성을 향상시키기 위해 제곱으로 미분 가능하게 만드십시오.