공부정리/Deep learnig & Machine learning

[핵심 머신러닝] 로지스틱회귀모델 2 (파라미터 추정, 해석)

sillon 2022. 8. 3. 19:26
728x90
반응형

이 게시글은 김성범 교수님의 유튜브 강의를 정리한 내용입니다.

내용과 사진의 각 출처는 김성범 교수님께 있음을 미리 알립니다.

해당 게시글 강의 영상: https://www.youtube.com/watch?v=Vh_7QttroGM&list=PLpIPLT0Pf7IoTxTCi2MEQ94MZnHaxrP0j&index=29 


[핵심 머신러닝] 로지스틱회귀모델 2 (파라미터 추정, 해석)

 

로지스틱 회귀 모델 2

  • 파라미터 추정
  • 로지스틱 회귀 모델 결과 및 해석
  • 로지스틱 회귀 모델 예제

지난 시간 REVIEW

 

다중 로지스틱 회귀모델

입력변수 X가 2개이상임

log(Odds) => 복잡한 로지스틱이 선형결합의 형태로 표현됨

 

파라미터 추정

로지스틱 회귀 모델 학습: 최대 우도 추정법 (Maximum Likelihood Estimation)

Likelihood -> 확률을 여러번 곱했음

 

 

y

확률함수를 n번 곱한다..

여기서 로그를 취하면

 

log likelihood 함수

버눌리 확률변수를 고려하고있어서 그 함수에 대한 로그 likelihood함수를 표현

 

likelihood 함수는 확률이기 때문에 확률을 최대로하는 것이 목적임

 

log likelihood가 최대가 되는 파라미터값을 결정하자!

 

앞서 배운 선형회귀처럼 미분해서 풀 수 없다. -> 명시적인 해가 존재하지 않음..

 

이것을 최대화하는 베타 값을 찾는 것은 쉬운 일이 아니다.

 

따라서 수치최적화 알고리즘을 이용하여 해를 구한다.

 

로그 최대 우도 함수 값을 최대화 -> Cross Entropy 값을 최소화하는 값을 찾아야함!

 

결국은 우리가 수치 최적화문제를 풀어서 베타 값을 얻으면 이런 형태가 나옴

추정한 값에는 ^ (hat)을 씌움

 

0.5보다 크면 1

0.5보다 작으면 0

 

경우에 따라서는 기준값을 다르게 사용하기도 한다.

로지스틱 회귀모델 - 결과 및 해석

선형회귀 모델의 경우 베타 파라미터 값이 직관적이었음

 

Odds도 어떤 비율이었는데, 여기서 한번 더 비율을 취함 -> odds ratio

 

 

로지스틱 회귀 모델 - 예제

대출 여부: Y = 0 대출X, Y = 1 대출 O

 

모델을 만들었다 -> 데이터를 가지고 파라미터를 잘 추정했다.

 

-> log likelihood를 최대화하는 B값을 찾는다. or CrossEntoropy 를 최소화하는 -> 이런 방법은 수치 최적화 방법을 이용

 

ㄴ 점 추정임

 

 

ㄴ 구간 추정...?!

 

해당 변수가 Y값에 관계가 있는지를 보여줌, 그리고 가설 검정에 쓰인다.

 

해당 베타 값이 0인지 아닌지 보여줌

p-value가 0에 가까우면 귀무가설을 기각함.

 

CreditCard를 많이 가지고 있으면 대출을 잘 안해주는 경향을 보인다.

 

Y = 질병 여부

0이면 질병 X,  1이면 질병 O

 

우리는 model을 얻었으므로 그냥 해당 X값에 넣으면 됨

 

이 값은 0.74로 답이 나옴

여기서 기준 값을 0.5라고해서 0.5보다 크면 1이라고 작성해준다.

728x90
반응형