공부정리/Deep learnig & Machine learning

[핵심 머신러닝] 의사결정나무모델 1 (모델개요, 예측나무) - 강의 정리

sillon 2022. 8. 11. 18:44
728x90
반응형

이 게시글은 김성범 교수님의 유튜브 강의를 정리한 내용입니다.

내용과 사진의 각 출처는 김성범 교수님께 있음을 미리 알립니다.

해당 게시글 강의 영상: https://www.youtube.com/watch?v=xki7zQDf74I&list=PLpIPLT0Pf7IoTxTCi2MEQ94MZnHaxrP0j&index=23 


[핵심 머신러닝] 의사결정나무모델 1 (모델개요, 예측나무)

의사결정나무 모델

  • 데이터에 내재되어 있는 패턴을 변수의 조합으로 나타내는 예측/ 분류 모델을 나무의 형태로 만드는 것
  • 질문을 던져서 맞고 틀리는 것에 따라 우리가 생각하고 있는 대상을 좁혀나감 (point idea)
  • "스무고개"놀이와 비슷한 개념
    • 한사람이 어떤 물건을 생각하면 사람들이 20번 안에 여러가지 질문을 통해서 해당 물건을 맞춤

그 개념과 비슷한 게임..

 

이렇게 인물을 맞추는 게임

 

input- ouput 사이에는 관계가 있다는 가설함수가 있다는 것을 전제.

 

데이터가 균일하다는 정의: 분류와 예측의 정의가 각가 다르다.

 

분류는 y가 범주형이다.

 

 

끝마디가 5개, 중간마디가 3개 루트(뿌리)는 하나

 

작은 박스로 분할할 수록 균일하게 됨

A와 B의 표현 방법은 다르지만 본질적으로는 같은 얘기이다.

 

 

중괄호 안에 있는 조건은 x1, x2가 Rm 지역에 있는가? 있으면 1 없으면 0

 

constAnt 한 모델로 예측이 된다.

 

 

현재 끝마디는 3개이다.

 

 

1번 모델:

관측치: 203개

평균: 29.11

꽤 큰 값들을 가진 Y가 모여있다.

 

2번 모델

관측치: 86개

평균: 20.23

 

3번 모델

관측치: 103개

평균:14.69

 

결국 어떻게 나누느냐 -> 예측나무 모델링 프로세스를 파악한다.

 

예측나무 모델링 프로세스

실제 숫자 Y와 모델로부터 나온 Y의 값을 최소화 시키려문 Cm은 무슨 값이 되어야할가?

 

어떤 데이터가 들어왔을 때 해당 부분에 속해있는 관측치들의 y값들 중에 증명

 

최소화하기 위한 c값을 구해보면 해당 지역 y값들의 평균이 된다.

 

분할 변수와 분할점은 어떻게 결정할까?

 

시작은 어떻게 할 것인가?

j  분할 변수 인덱스

s 분할점 인덱스

 

그 둘을 결정하는 것 argmin

 

j,s를 조절하면서 연산을 계속 해본다.

j와 s에 따라서 구할 수 있다.

 

그리디 서치 알고리즘이라고 볼 수 있다.

728x90
반응형