Denoisiong Diffusion Probabilistic Models (2) DDPM Loss Function
해당 게시물은 아래의 유튜브 영상을 정리한 글입니다.
https://www.youtube.com/watch?v=_JQSMhqXw-4
VAE와 Diffusion의 구조 비교
- VAE는 하나의 latent variable을 흭득
- Diffusion은 Makcov Chain을 통해서 여러개의 latent variables을 흭득
=> 두 구조는 latent variabled의 수가 다르다는 것으로 차이점이 나옴
이러한 차이는 Loss를 구성하는 데에도 결정적인 차이가 됨
VAE와 Diffsuion의 유사점
- 두 모델 모두 Reconstruction 과 Regularizaion 으로 Loss를 형성 하게됨
Diffusion에서의 차이점
- 많은 Latent Variable을 만들어내는 Makov Chain이 있음
- 여기서 Reverse Process를 학습하는 과정(Denosiong Process)이 Loss에 추가됨
q라는 Diffusion process를 나타내는 조건부 가우시분포와
P라는 Reverse process를 나타내는 조건부 가우시안 분포간의 KL Diversionce? Loss가 형성된다.
Introduction에서 본 것처럼 p는 q를 approximation 하도록 학습이 된다,
VAE 수식과의 최종적 비교
Denoisiong Diffusion Probabilistic Model(DDPM,2020)
Diffusion 모델에서 DDPM으로 변형될 때,
DDPM은 어떻게 다르게 접근하였는지 더 자세히 보자
상단의 Diffusion Loss Term 이 아래의 DDPM의 Loss Term으로 간단히 나타내게됨
이를 통해 성능이 향상되었음
DDPM의 Loss term을 보면 MSE 와 유사하고 간단한 LOSS 를 나타내게 됨
(Ground Truth)과 (학습대상) 간의 차이로 Loss를 간단하게 나타낼 수 있게된다.
DDPM Loss 에서의 변화
- 학습 목적 식에서 Regularizaion term 제외
- 굳이 학습 시키지 않아도 fixed noise scheduling으로 필요한 ‘isotropic gaussian’ 흭득 가능하기 때문
Beta를 Linear 하게 고정하며 증가시킬 경우,
가우시안 분포로 되게하는 강제 역할인 Regulariation이 굳이 없어도 T가 1000번 이상일 시 Gaussian 분포를 따르게 됨
- Denoising Process의 목적식 재구성
1. 상수화
평균과 분산 두 개 중에서 분산을 제외하고 가져가게됨
이는 앞서 Regularization Term을 제거한 것과 같은 뿌리를 두게 됨
먼저 주입된 beta는 사전 정의한 스케쥴(fixed noise scheduling)에 따라 가져가기 때문에 이러한 Beta를 우리는 알고 있게 됨
따라서 알고 있는 Beta 값을 활용하여 분산을 대체하는 것
즉, 알고 있는 것을 최대한 활용하자!
학습 대상이였던 분산을 각 시점이 누적된 노이즈 크기로 상수화 하게 됨
결국 DDPM에서 학습 대상은 각 시점별 조건부 가우시안 평균 모수를 추정하는 것으로 줄어들게 됨
2. Denoisiong Matching
q와 p라는 대상을 수식적으로 Mean Function간의 차이로 정리 가능
결국 우리는 알파 값도 알고 있었음! 따라서 우리는 알지 못하는 값만 학습하면 된다.
결국 DDPM model(Eg)이 학습해야 하는 것은 주어진 t 시점의 gaussian noise(€) 가 된다.
이처럼 각 시점의 다양한 scale의 gaussian noise를 예측해, denoising에 활용하고자 하는 것이 DDPM의 지향점이다.
최종적으로는 계수 term을 제외한 아래 식 (5)의 Loss를 사용
결국 이와같은 전개 과정으로 학습 과정을 간소화하게 되어 간단하게 전개가 된다.
DDPM Experiments
- Sample Quality
- DDPM의 FID score는 3.17로서 Unconditional 생성모형 중 가장 높은 sample quality를 보임
- 계수 Term을 제외한 경우는 제외하지 않은 경우에 비해 NLL이 높지만, Sample quality(FID score)는 월등히 높음 을 확인할 수 있음
노이즈를 학습하는 것 보다 Fix된 노이즈를 적용하는 것이 성능이 더 나았음
- 계수 텀 제거 효과의 의미
이 글은 옵시디언 프로그램을 통해 티스토리에 게시되었습니다.