[핵심 머신러닝] 의사결정나무모델 1 (모델개요, 예측나무) - 강의 정리

2022. 8. 11. 18:44·공부정리/Deep learnig & Machine learning
728x90
반응형

이 게시글은 김성범 교수님의 유튜브 강의를 정리한 내용입니다.

내용과 사진의 각 출처는 김성범 교수님께 있음을 미리 알립니다.

해당 게시글 강의 영상: https://www.youtube.com/watch?v=xki7zQDf74I&list=PLpIPLT0Pf7IoTxTCi2MEQ94MZnHaxrP0j&index=23 


[핵심 머신러닝] 의사결정나무모델 1 (모델개요, 예측나무)

의사결정나무 모델

  • 데이터에 내재되어 있는 패턴을 변수의 조합으로 나타내는 예측/ 분류 모델을 나무의 형태로 만드는 것
  • 질문을 던져서 맞고 틀리는 것에 따라 우리가 생각하고 있는 대상을 좁혀나감 (point idea)
  • "스무고개"놀이와 비슷한 개념
    • 한사람이 어떤 물건을 생각하면 사람들이 20번 안에 여러가지 질문을 통해서 해당 물건을 맞춤

그 개념과 비슷한 게임..

 

이렇게 인물을 맞추는 게임

 

input- ouput 사이에는 관계가 있다는 가설함수가 있다는 것을 전제.

 

데이터가 균일하다는 정의: 분류와 예측의 정의가 각가 다르다.

 

분류는 y가 범주형이다.

 

 

끝마디가 5개, 중간마디가 3개 루트(뿌리)는 하나

 

작은 박스로 분할할 수록 균일하게 됨

A와 B의 표현 방법은 다르지만 본질적으로는 같은 얘기이다.

 

 

중괄호 안에 있는 조건은 x1, x2가 Rm 지역에 있는가? 있으면 1 없으면 0

 

constAnt 한 모델로 예측이 된다.

 

 

현재 끝마디는 3개이다.

 

 

1번 모델:

관측치: 203개

평균: 29.11

꽤 큰 값들을 가진 Y가 모여있다.

 

2번 모델

관측치: 86개

평균: 20.23

 

3번 모델

관측치: 103개

평균:14.69

 

결국 어떻게 나누느냐 -> 예측나무 모델링 프로세스를 파악한다.

 

예측나무 모델링 프로세스

실제 숫자 Y와 모델로부터 나온 Y의 값을 최소화 시키려문 Cm은 무슨 값이 되어야할가?

 

어떤 데이터가 들어왔을 때 해당 부분에 속해있는 관측치들의 y값들 중에 증명

 

최소화하기 위한 c값을 구해보면 해당 지역 y값들의 평균이 된다.

 

분할 변수와 분할점은 어떻게 결정할까?

 

시작은 어떻게 할 것인가?

j  분할 변수 인덱스

s 분할점 인덱스

 

그 둘을 결정하는 것 argmin

 

j,s를 조절하면서 연산을 계속 해본다.

j와 s에 따라서 구할 수 있다.

 

그리디 서치 알고리즘이라고 볼 수 있다.

728x90
반응형

'공부정리 > Deep learnig & Machine learning' 카테고리의 다른 글

[핵심 머신러닝] 랜덤포레스트 모델  (0) 2022.08.11
[핵심 머신러닝] 의사결정나무모델 2 (분류나무, Information Gain)  (0) 2022.08.11
[머신러닝]Feature Selection  (0) 2022.08.08
[핵심 머신러닝] 정규화모델 2 - LASSO, Elastic Net  (0) 2022.08.08
[머신 러닝] 서포트 벡터 머신 (SVM) 보충 - 라그랑즈 승주법  (0) 2022.08.06
'공부정리/Deep learnig & Machine learning' 카테고리의 다른 글
  • [핵심 머신러닝] 랜덤포레스트 모델
  • [핵심 머신러닝] 의사결정나무모델 2 (분류나무, Information Gain)
  • [머신러닝]Feature Selection
  • [핵심 머신러닝] 정규화모델 2 - LASSO, Elastic Net
sillon
sillon
꾸준해지려고 합니다..
    반응형
  • sillon
    sillon coding
    sillon
  • 전체
    오늘
    어제
    • menu (614)
      • notice (2)
      • python (68)
        • 자료구조 & 알고리즘 (23)
        • 라이브러리 (19)
        • 기초 (8)
        • 자동화 (14)
        • 보안 (1)
      • coding test - python (301)
        • Programmers (166)
        • 백준 (76)
        • Code Tree (22)
        • 기본기 문제 (37)
      • coding test - C++ (5)
        • Programmers (4)
        • 백준 (1)
        • 기본기문제 (0)
      • 공부정리 (5)
        • 신호처리 시스템 (0)
        • Deep learnig & Machine lear.. (41)
        • Data Science (18)
        • Computer Vision (17)
        • NLP (40)
        • Dacon (2)
        • 모두를 위한 딥러닝 (강의 정리) (4)
        • 모두의 딥러닝 (교재 정리) (9)
        • 통계 (2)
      • HCI (23)
        • Haptics (7)
        • Graphics (11)
        • Arduino (4)
      • Project (21)
        • Web Project (1)
        • App Project (1)
        • Paper Project (1)
        • 캡스톤디자인2 (17)
        • etc (1)
      • OS (10)
        • Ubuntu (9)
        • Rasberry pi (1)
      • App & Web (9)
        • Android (7)
        • javascript (2)
      • C++ (5)
        • 기초 (5)
      • Cloud & SERVER (8)
        • Git (2)
        • Docker (1)
        • DB (4)
      • Paper (7)
        • NLP Paper review (6)
      • 데이터 분석 (0)
        • GIS (0)
      • daily (2)
        • 대학원 준비 (0)
      • 영어공부 (6)
        • job interview (2)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    programmers
    소수
    Python
    백준
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
sillon
[핵심 머신러닝] 의사결정나무모델 1 (모델개요, 예측나무) - 강의 정리
상단으로

티스토리툴바