[핵심 머신러닝] 선형회귀모델 4 (R2, ANOVA)

sillon 2022. 7. 22. 00:15

728x90

이 게시글은 김성범 교수님의 유튜브 강의를 정리한 내용입니다.

내용과 사진의 각 출처는 김성범 교수님께 있음을 미리 알립니다.

결정계수 (Coefficient of Determination : R^2)

위에서부터 첫번째 점은 실제 Y값 두번째 점은 우리가 구한 회귀 직선 위에 있는 Y값 세번째 점은 Y의 평균값

첫번째 점은 100% Y값을 설명 (자신) 두번째 점은 X로 Y를 어느 정도까지 설명할 수 있는지를 보여주는 값 세번째 점은 X에 관계없이 Y의 평균만으로 어느 정도까지 설명할 수 있는지를 보여주는 것

실제 Y값과 직선 위에 있는 Y값 (두번째 점)의 차이의 합을 계산해보면

(X로 설명할 수 없는 것, 에러에 의해 설명된양)

직선 위에 있는 Y값과 Y의 평균값의 차이의 합을 계산해 보면

(X로 얼마만큼 설명할 수 있는지, X변수에 의해 섧명된 양)

실제 Y값과 Y의 평균값의 차이의 합을 계산해 보면

(Y의 총 변동량)

그러므로 SSR이 높을수록 X로 Y를 설명할 수 있을 것이며 SSR/SST = 1이 되면 X로 Y를 100% 설명할 수 잇게 되므로 확정적인 관계가 된다. 반대로, SSR/SST = 0이 되면 X에 관계 없이 Y를 설명할 수 있게 된다.

이 SSR/SST가 뭐냐면 바로

결정계수이다.

(SST, SSR, SSE = 분산)

이 SSR/SSE가 얼마나 커야 큰 값인지를 인식하기 위해서는 분포를 알면 통계적으로 판단할 수 있다. 직접적으로 분포를 정의할 수는 없으나, SSR과 SSE가 각각 카이제곱 분포(파라미터 : 자유도)를 따른다.

단순회귀모델인 경우

요약

- 회귀 모델의 설명력을 표현하는 지표

- 1에 가까울수록 높은 성능의 모델이라고 해석할 수 있음

* RSS값이 작을수록 1에 가까워져 좋은 성능의 모델이 되고,

TSS보다 크다면 음수가 되어 성능이 나쁜 모델이 된다.

- 𝑻𝑺𝑺는 데이터 평균 값과 실제 값차이의 제곱

(실제값i - 평균실제값i)²의 합

- 오차가 없을수록 1에 가까운 값을 가짐

- 값이 0인 경우, 데이터의 평균 값을 출력하는 직선 모델을 의미함

- 음수 값이 나온 경우, 평균값 예측 보다 성능이 좋지 않음.

728x90