활성화 함수는 붉은 색 그래프, 활성화 함수의 미분값은 푸른색 그래프로 표현
Sigmoid
보통 어떤값이 나올 확률을 계산할 때 많이 사용된다.
특징: 입력 값을 0과 1 사이의 값으로 변환하여 출력한다.
사용처: 로지스틱 리그레션, 바이너리 클래시피케이션 등에 사용된다.
한계점: 미분 함수의 최대 값이 0.5가 된다. 때문에 레이어가 깊어질 수록 gradient가 전달되지 않는 vanishing gradient 문제가 발생할 가능성이 있다. 이후 ReLU에 의해 많이 대체된다.
Sigmoid를 이용한 출력 값이 0 또는 1사이에 값으로 매우 작다. 딥러닝 모델은 뉴런의 잘못된 가중치 값을 고치기 위하여 역전파 알고리즘 사용한다. 하지만 Sigmoid를 사용하는 경우 역전파 알고리즘 값을 구하는 중 미분된 기울기 값이 너무 작아져서 학습이 안되는 상황이 발생한다.
Hard Sigmoid
특징: 시그모이드 함수를 직선 형태로 핀 형태를 가진다. 미분 함수가 단순하기 때문에 그라디언트 계산 속도가 빠른 장점이 있다.
사용처: 시그모이드를 적용해야 하지만 빠른 연산 속도가 필요할 때 사용한다.
ReLU(rectified linear unit)
특징: 0 이하의 값은 다음 레이어에 전달하지 않는다. 0이상의 값은 그대로 출력한다.
사용처: CNN을 학습시킬 때 많이 사용된다.
한계점: 한번 0 활성화 값을 다음 레이어에 전달하면 이후의 뉴런들의 출력값이 모두 0이 된다. (dying ReLU) 이러한 한계점을 개선하기 위해 음수 출력 값을 소량이나마 다음 레이어에 전달하는 방식으로 개선한 활성화 함수들이 등장한다.
하지만 계산식 매우 간단함으로써 연산 속도가 빨라질 수 있고, 구현하기 편하다.
LeakyReLU
특징: ReLU와 거의 비슷한 형태를 가진다. 입력 값이 음수일 때 완만한 선형 함수를 그려준다. 일반적으로 알파를 0.01로 설정한다. (위 그래프에서는 시각화 편의상 알파를 0.1로 설정)
사용처: Rectifier Nonlinearities Improve Neural Network Acoustic Models
tanh(hyperbolic tangent)
특징: hyperbolic 함수란 쌍곡선 함수를 의미한다. hyperbolic sign, hyperbolic cosign 함수 역시 존재한다. tangent에 해당하는 hyperbolic 함수를 tanh라 부른다.
사용처: RNN, LSTM 등을 학습시킬 때 사용된다.
'공부정리 > Deep learnig & Machine learning' 카테고리의 다른 글
[딥러닝] 배치 정규화(Batch Normalization) (0) | 2022.08.29 |
---|---|
[딥러닝] 활성화 함수 정리 (0) | 2022.08.22 |
[핵심 머신러닝] 군집분석 (0) | 2022.08.17 |
[핵심 머신러닝] Boosting (0) | 2022.08.12 |
[핵심 머신러닝] 뉴럴네트워크모델 2 (Backpropagation 알고리즘) (0) | 2022.08.12 |