이 게시글은 김성범 교수님의 유튜브 강의를 정리한 내용입니다.
내용과 사진의 각 출처는 김성범 교수님께 있음을 미리 알립니다.
해당 게시글 강의 영상: https://www.youtube.com/watch?v=xki7zQDf74I&list=PLpIPLT0Pf7IoTxTCi2MEQ94MZnHaxrP0j&index=23
[핵심 머신러닝] 의사결정나무모델 1 (모델개요, 예측나무)
의사결정나무 모델
- 데이터에 내재되어 있는 패턴을 변수의 조합으로 나타내는 예측/ 분류 모델을 나무의 형태로 만드는 것
- 질문을 던져서 맞고 틀리는 것에 따라 우리가 생각하고 있는 대상을 좁혀나감 (point idea)
- "스무고개"놀이와 비슷한 개념
- 한사람이 어떤 물건을 생각하면 사람들이 20번 안에 여러가지 질문을 통해서 해당 물건을 맞춤
input- ouput 사이에는 관계가 있다는 가설함수가 있다는 것을 전제.
데이터가 균일하다는 정의: 분류와 예측의 정의가 각가 다르다.
분류는 y가 범주형이다.
작은 박스로 분할할 수록 균일하게 됨
A와 B의 표현 방법은 다르지만 본질적으로는 같은 얘기이다.
중괄호 안에 있는 조건은 x1, x2가 Rm 지역에 있는가? 있으면 1 없으면 0
constAnt 한 모델로 예측이 된다.
현재 끝마디는 3개이다.
1번 모델:
관측치: 203개
평균: 29.11
꽤 큰 값들을 가진 Y가 모여있다.
2번 모델
관측치: 86개
평균: 20.23
3번 모델
관측치: 103개
평균:14.69
결국 어떻게 나누느냐 -> 예측나무 모델링 프로세스를 파악한다.
예측나무 모델링 프로세스
실제 숫자 Y와 모델로부터 나온 Y의 값을 최소화 시키려문 Cm은 무슨 값이 되어야할가?
어떤 데이터가 들어왔을 때 해당 부분에 속해있는 관측치들의 y값들 중에 증명
최소화하기 위한 c값을 구해보면 해당 지역 y값들의 평균이 된다.
분할 변수와 분할점은 어떻게 결정할까?
시작은 어떻게 할 것인가?
j 분할 변수 인덱스
s 분할점 인덱스
그 둘을 결정하는 것 argmin
j,s를 조절하면서 연산을 계속 해본다.
j와 s에 따라서 구할 수 있다.
그리디 서치 알고리즘이라고 볼 수 있다.
'공부정리 > Deep learnig & Machine learning' 카테고리의 다른 글
[핵심 머신러닝] 랜덤포레스트 모델 (0) | 2022.08.11 |
---|---|
[핵심 머신러닝] 의사결정나무모델 2 (분류나무, Information Gain) (0) | 2022.08.11 |
[머신러닝]Feature Selection (0) | 2022.08.08 |
[핵심 머신러닝] 정규화모델 2 - LASSO, Elastic Net (0) | 2022.08.08 |
[머신 러닝] 서포트 벡터 머신 (SVM) 보충 - 라그랑즈 승주법 (0) | 2022.08.06 |