[핵심 머신러닝] 로지스틱회귀모델 2 (파라미터 추정, 해석)
이 게시글은 김성범 교수님의 유튜브 강의를 정리한 내용입니다.
내용과 사진의 각 출처는 김성범 교수님께 있음을 미리 알립니다.
해당 게시글 강의 영상: https://www.youtube.com/watch?v=Vh_7QttroGM&list=PLpIPLT0Pf7IoTxTCi2MEQ94MZnHaxrP0j&index=29
[핵심 머신러닝] 로지스틱회귀모델 2 (파라미터 추정, 해석)
로지스틱 회귀 모델 2
- 파라미터 추정
- 로지스틱 회귀 모델 결과 및 해석
- 로지스틱 회귀 모델 예제
지난 시간 REVIEW
다중 로지스틱 회귀모델
입력변수 X가 2개이상임
log(Odds) => 복잡한 로지스틱이 선형결합의 형태로 표현됨
파라미터 추정
로지스틱 회귀 모델 학습: 최대 우도 추정법 (Maximum Likelihood Estimation)
Likelihood -> 확률을 여러번 곱했음
y
여기서 로그를 취하면
버눌리 확률변수를 고려하고있어서 그 함수에 대한 로그 likelihood함수를 표현
likelihood 함수는 확률이기 때문에 확률을 최대로하는 것이 목적임
log likelihood가 최대가 되는 파라미터값을 결정하자!
앞서 배운 선형회귀처럼 미분해서 풀 수 없다. -> 명시적인 해가 존재하지 않음..
이것을 최대화하는 베타 값을 찾는 것은 쉬운 일이 아니다.
따라서 수치최적화 알고리즘을 이용하여 해를 구한다.
로그 최대 우도 함수 값을 최대화 -> Cross Entropy 값을 최소화하는 값을 찾아야함!
결국은 우리가 수치 최적화문제를 풀어서 베타 값을 얻으면 이런 형태가 나옴
추정한 값에는 ^ (hat)을 씌움
0.5보다 크면 1
0.5보다 작으면 0
경우에 따라서는 기준값을 다르게 사용하기도 한다.
로지스틱 회귀모델 - 결과 및 해석
선형회귀 모델의 경우 베타 파라미터 값이 직관적이었음
Odds도 어떤 비율이었는데, 여기서 한번 더 비율을 취함 -> odds ratio
로지스틱 회귀 모델 - 예제
대출 여부: Y = 0 대출X, Y = 1 대출 O
모델을 만들었다 -> 데이터를 가지고 파라미터를 잘 추정했다.
-> log likelihood를 최대화하는 B값을 찾는다. or CrossEntoropy 를 최소화하는 -> 이런 방법은 수치 최적화 방법을 이용
ㄴ 점 추정임
ㄴ 구간 추정...?!
해당 변수가 Y값에 관계가 있는지를 보여줌, 그리고 가설 검정에 쓰인다.
해당 베타 값이 0인지 아닌지 보여줌
p-value가 0에 가까우면 귀무가설을 기각함.
CreditCard를 많이 가지고 있으면 대출을 잘 안해주는 경향을 보인다.
Y = 질병 여부
0이면 질병 X, 1이면 질병 O
우리는 model을 얻었으므로 그냥 해당 X값에 넣으면 됨
이 값은 0.74로 답이 나옴
여기서 기준 값을 0.5라고해서 0.5보다 크면 1이라고 작성해준다.