[핵심 머신러닝] 로지스틱회귀모델 1 (로지스틱함수, 승산)
이 게시글은 김성범 교수님의 유튜브 강의를 정리한 내용입니다.
내용과 사진의 각 출처는 김성범 교수님께 있음을 미리 알립니다.
해당 게시글 강의 영상: https://www.youtube.com/watch?v=l_8XEj2_9rk&list=PLpIPLT0Pf7IoTxTCi2MEQ94MZnHaxrP0j&index=30
[핵심 머신러닝] 로지스틱회귀모델 1 (로지스틱함수, 승산)
CONTENTS
로지스틱 회귀 모델 1
- 로지스틱 회귀 모델 배경
- 로지스틱 회귀 모델 형태
- 아드 (Odds)
로지스틱 회귀 모델 배경
이러한 관계를 보면 보통 선형회귀 모델을 사용했었다.
데이터의 핵심: 연속 값임
데이터의 형태에 따라서 연속형 변수, 범주형 변수 등이 있다.
범주형 데이터일 경우에는 선형회귀 모델과는 다른 방식으로 접근해야할 필요성이있다.
로지스틱 회귀 모델 사용
새로운 관측치가 왔을 때 이를 기존 범주 중 하나로 예측 (범주 예측) // 즉 분류 문제를 해결
로지스틱 회귀 모델 이론 배경
Y값은 이진 범주형 변수이다. (0 or 1)
이진 값을 갖는 확률변수: Bernoulli random variable (버눌리 확률 변수)
- 베르누이 분포 (Bernoulli distribution) 버눌리...
버눌리 확률 변수의 기댓값은 파이가 나옴
파이: x값이 주어졌을 때 Y값이 1의 값을 가질 확률
위의 데이터를 직선으로 fitting 할 수는 있었겠지만, 직선으로 하기엔 부적합하다.
부적합!
이건 이분법이 아닌, 비율이나 확률로 표현한 테이블이다.
이 테이블을 그래프로 찍어보자
나이그룹과 질병보유율은 어떤 관계인가?
- 선형적인 관계라고 볼 수도는 있다.
하지만 더 정확하게 보면
빨간색 곡선과 비슷하다고 볼 수 있다.
이 모양은 즉,
로지스틱함수 / 시그모이드 함수라고 일컫는다.
Output 값은 항상 0~1
함수의 가장 큰 특징: 식을 미분하면
로지스틱 함수의 형태로 나옴..
로지스틱 회귀 모델 - Parameter B1 (beta 1) 에 대한 해석
승산 (Odds)
성공할 확률을 p로 정의할 때, 실패 대비 성공 확률 비율
큰 월드컵 등과 같은 곳에서 배당금을 걸 때 승산을 사용한다.
odd는 결국 두 확률의 비율이다.
Odds 에 log를 취하면 선형이 된다. 이것을 로짓변환이라고 한다.
ㅠ(x) 가 0.5면 로그값은 log1이되어 결국 0의 값임