Denoisiong Diffusion Probabilistic Models (2) DDPM Loss Function

공부정리/Computer Vision

Denoisiong Diffusion Probabilistic Models (2) DDPM Loss Function

sillon 2024. 1. 12. 10:34

728x90

해당 게시물은 아래의 유튜브 영상을 정리한 글입니다.
https://www.youtube.com/watch?v=_JQSMhqXw-4

VAE와 Diffusion의 구조 비교

Pasted image 20240112094050.png

VAE는 하나의 latent variable을 흭득
Diffusion은 Makcov Chain을 통해서 여러개의 latent variables을 흭득

=> 두 구조는 latent variabled의 수가 다르다는 것으로 차이점이 나옴
이러한 차이는 Loss를 구성하는 데에도 결정적인 차이가 됨

VAE와 Diffsuion의 유사점

Pasted image 20240112094340.png Pasted image 20240112094524.png

두 모델 모두 Reconstruction 과 Regularizaion 으로 Loss를 형성 하게됨

Diffusion에서의 차이점

많은 Latent Variable을 만들어내는 Makov Chain이 있음
여기서 Reverse Process를 학습하는 과정(Denosiong Process)이 Loss에 추가됨

Pasted image 20240112094446.png

q라는 Diffusion process를 나타내는 조건부 가우시분포와
P라는 Reverse process를 나타내는 조건부 가우시안 분포간의 KL Diversionce? Loss가 형성된다.

Introduction에서 본 것처럼 p는 q를 approximation 하도록 학습이 된다,

Pasted image 20240112095153.png

VAE 수식과의 최종적 비교

Pasted image 20240112095303.png

Denoisiong Diffusion Probabilistic Model(DDPM,2020)

Diffusion 모델에서 DDPM으로 변형될 때,
DDPM은 어떻게 다르게 접근하였는지 더 자세히 보자

Pasted image 20240112095455.png

상단의 Diffusion Loss Term 이 아래의 DDPM의 Loss Term으로 간단히 나타내게됨
이를 통해 성능이 향상되었음

DDPM의 Loss term을 보면 MSE 와 유사하고 간단한 LOSS 를 나타내게 됨

Pasted image 20240112100441.png

(Ground Truth)과 (학습대상) 간의 차이로 Loss를 간단하게 나타낼 수 있게된다.

DDPM Loss 에서의 변화

학습 목적 식에서 Regularizaion term 제외
- 굳이 학습 시키지 않아도 fixed noise scheduling으로 필요한 ‘isotropic gaussian’ 흭득 가능하기 때문

Pasted image 20240112100748.png

Beta를 Linear 하게 고정하며 증가시킬 경우,
가우시안 분포로 되게하는 강제 역할인 Regulariation이 굳이 없어도 T가 1000번 이상일 시 Gaussian 분포를 따르게 됨

Pasted image 20240112100801.png

Denoising Process의 목적식 재구성

1. 상수화

Pasted image 20240112101215.png

평균과 분산 두 개 중에서 분산을 제외하고 가져가게됨
이는 앞서 Regularization Term을 제거한 것과 같은 뿌리를 두게 됨

먼저 주입된 beta는 사전 정의한 스케쥴(fixed noise scheduling)에 따라 가져가기 때문에 이러한 Beta를 우리는 알고 있게 됨

따라서 알고 있는 Beta 값을 활용하여 분산을 대체하는 것
즉, 알고 있는 것을 최대한 활용하자!

학습 대상이였던 분산을 각 시점이 누적된 노이즈 크기로 상수화 하게 됨

Pasted image 20240112101636.png

결국 DDPM에서 학습 대상은 각 시점별 조건부 가우시안 평균 모수를 추정하는 것으로 줄어들게 됨

2. Denoisiong Matching

Pasted image 20240112101712.png

q와 p라는 대상을 수식적으로 Mean Function간의 차이로 정리 가능

Pasted image 20240112101738.png Pasted image 20240112101937.png

결국 우리는 알파 값도 알고 있었음! 따라서 우리는 알지 못하는 값만 학습하면 된다.

Pasted image 20240112102123.png Pasted image 20240112102210.png

결국 DDPM model(Eg)이 학습해야 하는 것은 주어진 t 시점의 gaussian noise(€) 가 된다.

이처럼 각 시점의 다양한 scale의 gaussian noise를 예측해, denoising에 활용하고자 하는 것이 DDPM의 지향점이다.

최종적으로는 계수 term을 제외한 아래 식 (5)의 Loss를 사용

Pasted image 20240112102303.png

결국 이와같은 전개 과정으로 학습 과정을 간소화하게 되어 간단하게 전개가 된다.

Pasted image 20240112102330.png

DDPM Experiments

Sample Quality
DDPM의 FID score는 3.17로서 Unconditional 생성모형 중 가장 높은 sample quality를 보임
계수 Term을 제외한 경우는 제외하지 않은 경우에 비해 NLL이 높지만, Sample quality(FID score)는 월등히 높음 을 확인할 수 있음

Pasted image 20240112102629.png

노이즈를 학습하는 것 보다 Fix된 노이즈를 적용하는 것이 성능이 더 나았음

계수 텀 제거 효과의 의미

이 글은 옵시디언 프로그램을 통해 티스토리에 게시되었습니다.

728x90