공부정리/Computer Vision

[GAN] GAN 모델 안정화를 위한 기법 - PGGAN

sillon 2024. 1. 8. 17:26
728x90
반응형

DCGAN은 고해상도의 이미지를 생성하기 위해 제안되었지만, 그렇게 고해상도를 만들어내지 못했음

Progressive GAN

주요 기여
저해상도의 이미지부터 시작하여 위의 사진처럼 layer를 추가해가면서 고해상도에 도달하게 하는 구조
Pasted image 20240108163400.png

1024X1024 해상도의 고해상도 이미지를 생성가능하게 한 GAN 모델

Pasted image 20240108164650.png

PGGAN (Progressive Growing of GANs) 학습 과정

PGGAN의 학습 과정은 점진적으로 네트워크를 확장해가며 이미지의 해상도를 증가시키는 독특한 접근 방식을 취한다. 이 과정에서 중요한 역할을 하는 것은 'toRGB’와 ‘fromRGB’ 레이어이다.

제너레이터의 toRGB 레이어

  • 제너레이터는 저해상도(예: 4x4)에서 시작하여 이미지를 생성한다.
  • 각 단계에서, 제너레이터는 ‘toRGB’ 레이어를 사용하여 생성된 이미지를 3채널의 RGB 형태로 변환한다.
  • 이를 통해 제너레이터는 각 확장 단계에서 새로운 해상도의 이미지를 생성할 수 있다.

디스크리미네이터의 fromRGB 레이어

  • 디스크리미네이터는 높은 해상도의 이미지를 입력받아 시작한다.
  • ‘fromRGB’ 레이어를 통해 입력 이미지를 디스크리미네이터 네트워크의 첫 레이어에 맞는 채널 수로 변환한다.
  • 이렇게 변환된 이미지는 디스크리미네이터의 나머지 네트워크로 전달되어 진위 여부를 판단한다.

Pasted image 20240108165401.png

네트워크 확장

  • 학습 초기에는 레이어 하나로 이루어진 간단한 네트워크로 시작한다.
  • 학습이 진행됨에 따라 점진적으로 네트워크에 레이어를 추가하여 해상도를 높여간다.
  • 이러한 점진적 확장은 제너레이터와 디스크리미네이터 모두에 적용되며, 이 과정을 통해 세밀한 디테일을 가진 고해상도 이미지를 생성할 수 있게 된다.

PGGAN의 학습 방식은 점진적이고 체계적인 접근을 통해 고품질의 이미지 생성을 가능하게 하며, 이는 전통적인 GAN 모델들과 비교했을 때 뛰어난 성능과 안정성을 제공한다. 이 모델은 특히 복잡한 이미지 생성 작업에 적합하며, 뛰어난 시각적 결과물을 생성할 수 있다.


이 글은 옵시디언 프로그램을 통해 티스토리에 게시되었습니다.

728x90
반응형