공부정리/Deep learnig & Machine learning

[핵심 머신러닝] 로지스틱회귀모델 1 (로지스틱함수, 승산)

sillon 2022. 8. 3. 18:53
728x90
반응형

이 게시글은 김성범 교수님의 유튜브 강의를 정리한 내용입니다.

내용과 사진의 각 출처는 김성범 교수님께 있음을 미리 알립니다.

해당 게시글 강의 영상: https://www.youtube.com/watch?v=l_8XEj2_9rk&list=PLpIPLT0Pf7IoTxTCi2MEQ94MZnHaxrP0j&index=30 


[핵심 머신러닝] 로지스틱회귀모델 1 (로지스틱함수, 승산)

 

CONTENTS

로지스틱 회귀 모델 1

  • 로지스틱 회귀 모델 배경
  • 로지스틱 회귀 모델 형태
  • 아드 (Odds)

 

로지스틱 회귀 모델 배경

이러한 관계를 보면 보통 선형회귀 모델을 사용했었다.

데이터의 핵심: 연속 값임

 

데이터의 형태에 따라서 연속형 변수, 범주형 변수 등이 있다.

범주형 데이터일 경우에는 선형회귀 모델과는 다른 방식으로 접근해야할 필요성이있다.

 

로지스틱 회귀 모델 사용

새로운 관측치가 왔을 때 이를 기존 범주 중 하나로 예측 (범주 예측) // 즉 분류 문제를 해결

 

 

 

로지스틱 회귀 모델 이론 배경

 

Y값은 이진 범주형 변수이다. (0 or 1)

 

이진 값을 갖는 확률변수: Bernoulli random variable (버눌리 확률 변수)

- 베르누이 분포 (Bernoulli distribution) 버눌리...

버눌리 확률 변수의 기댓값은 파이가 나옴

파이: x값이 주어졌을 때 Y값이 1의 값을 가질 확률

 

위의 데이터를 직선으로 fitting 할 수는 있었겠지만, 직선으로 하기엔 부적합하다.

부적합!

 

이건 이분법이 아닌, 비율이나 확률로 표현한 테이블이다.

이 테이블을 그래프로 찍어보자

 

나이그룹과 질병보유율은 어떤 관계인가?

- 선형적인 관계라고 볼 수도는 있다.

하지만 더 정확하게 보면

빨간색 곡선과 비슷하다고 볼 수 있다.

이 모양은 즉,

로지스틱함수 / 시그모이드 함수라고 일컫는다.

 

Output 값은 항상 0~1 

 

함수의 가장 큰 특징: 식을 미분하면

로지스틱 함수의 형태로 나옴..

로지스틱 회귀 모델 - Parameter B1 (beta 1) 에 대한 해석

승산 (Odds)

성공할 확률을 p로 정의할 때, 실패 대비 성공 확률 비율

 

 

큰 월드컵 등과 같은 곳에서 배당금을 걸 때 승산을 사용한다.

odd는 결국 두 확률의 비율이다.

Odds 에 log를 취하면 선형이 된다. 이것을 로짓변환이라고 한다.

 

ㅠ(x) 가 0.5면 로그값은 log1이되어 결국 0의 값임

 

728x90
반응형