skinOptions.hljs
Denoisiong Diffusion Probabilistic Models (2) DDPM Loss Function
·
공부정리/Computer Vision
해당 게시물은 아래의 유튜브 영상을 정리한 글입니다. https://www.youtube.com/watch?v=_JQSMhqXw-4 VAE와 Diffusion의 구조 비교 VAE는 하나의 latent variable을 흭득 Diffusion은 Makcov Chain을 통해서 여러개의 latent variables을 흭득 => 두 구조는 latent variabled의 수가 다르다는 것으로 차이점이 나옴 이러한 차이는 Loss를 구성하는 데에도 결정적인 차이가 됨 VAE와 Diffsuion의 유사점 두 모델 모두 Reconstruction 과 Regularizaion 으로 Loss를 형성 하게됨 Diffusion에서의 차이점 많은 Latent Variable을 만들어내는 Makov Chain이 있음 여기서..
Denoisiong Diffusion Probabilistic Models (1) Diffusion model's Forward & Reverse Process
·
공부정리/Computer Vision
해당 게시물은 아래의 유튜브 영상을 정리한 글입니다. https://www.youtube.com/watch?v=_JQSMhqXw-4 Introduction Markov Chain Markov 성질을 갖는 이산 확률 과정 Markov 성질: “특정 상태의 확률(t+1)은 오직 현재(t)에 상태에 의존한다” 이산확률 과정: 이산적인 시간(0초,1초,2초, …) 속에서 확률적 현상 Nomalizing Flow 심층 신경망 기반 확률적 생성 모형 중 하나 잠재 변수(z) 기반 확률적 생성 모형으로서, 잠재변수(Z)흭득에 ‘변수 변환’ 공식을 활용 변수변환 공식 OverView of generative models 반복적인 변화(iterative transformation)를 활용한다는 점에서 Flow-based..
[GAN] Style Transfer - AdaIN
·
공부정리/Computer Vision
Style Transfer 기법 - AdaIN 스타일 전송 기법 중 하나인 AdaIN(Adaptive Instance Normalization)은 딥러닝의 정규화 기법을 활용하여 스타일을 전송한다. 이 기법은 인스턴스 정규화(Instance Normalization) 레이어를 확장한 형태로, 스타일 전송에 효과적이다. Adaptive Instance Nomalization AdaIN은 각 채널의 평균과 분산 값을 정규화한다. 이 과정에서 각 채널의 특성을 표준화하여 스타일 전송에 적합한 형태로 만든다. 평균과 분산의 조정 평균과 분산은 0과 1로 표준화된 값으로 변환된다. 이후, 이 값들을 곱하고 더하는 과정을 통해 주어진 입력에 대한 활성화 맵(activation map)을 조정한다. 이는 각 채널 내..
[GAN] GAN 모델 안정화를 위한 기법 - PGGAN
·
공부정리/Computer Vision
DCGAN은 고해상도의 이미지를 생성하기 위해 제안되었지만, 그렇게 고해상도를 만들어내지 못했음 Progressive GAN 주요 기여 저해상도의 이미지부터 시작하여 위의 사진처럼 layer를 추가해가면서 고해상도에 도달하게 하는 구조 1024X1024 해상도의 고해상도 이미지를 생성가능하게 한 GAN 모델 PGGAN (Progressive Growing of GANs) 학습 과정 PGGAN의 학습 과정은 점진적으로 네트워크를 확장해가며 이미지의 해상도를 증가시키는 독특한 접근 방식을 취한다. 이 과정에서 중요한 역할을 하는 것은 'toRGB’와 ‘fromRGB’ 레이어이다. 제너레이터의 toRGB 레이어 제너레이터는 저해상도(예: 4x4)에서 시작하여 이미지를 생성한다. 각 단계에서, 제너레이터는 ‘t..
[GAN] GAN 모델 안정화를 위한 기법 - DCGAN
·
공부정리/Computer Vision
# [GAN] GAN 모델 안정화를 위한 기법 - DCGAN 인식 모델에서 주로 사용하는 CNN을 사용하면 이미지에서 사용되는 다양한 패턴들을 잘 추출하고 사용할 수 있다. DCGAN Main contributions 거의 대부분의 상황에서 안정적으로 학습이 가능한 GAN인 DCGAN을 제시한다. 학습이 된 판별기(이하 D)가 이미지 분류에서 다른 비지도 알고리즘들과 비교했을때 대등한 성능을 보인다. DCGAN이 학습한 filter들을 visualize하고, 특정 filter가 특정 object를 생성하는 역할을 한다는것을 알아냈다. DCGAN이 벡터 산술 연산이 가능한 성질을 갖는다. Semantic quality를 갖는다. 출처: https://memesoo99.tistory.com/32?catego..
[GAN] GAN 모델 안정화를 위한 기법 - LSGAN
·
공부정리/Computer Vision
GAN 모델 안정화를 위한 기법 -LSGAN LSGAN LSGAN의 손실함수 LSGAN(Least Squares Generative Adversarial Networks)의 핵심 요소 중 하나는 그것의 손실함수이다. LSGAN은 전통적인 GAN의 교차 엔트로피 손실함수(Cross-Entropy Loss) 대신 최소제곱 손실함수(Least Squares Loss)를 사용한다. 이 손실함수는 GAN의 학습 안정성을 향상시키고 mode-collapsing 문제를 줄이는 데 중요한 역할을 한다 LSGAN의 손실함수 정의 생성자(G)의 손실함수: 생성자는 판별자가 생성된 데이터를 진짜로 분류하도록 속이려고 한다. 생성자의 손실은 판별자의 출력이 실제 데이터와 얼마나 가까운지를 측정한다. 판별자(D)의 손실함수: ..
[GAN] GAN이란?
·
공부정리/Computer Vision
Generative Adversarial Networks(GANs) 1강 - GAN이란 무엇인가? 문제 복잡하고 고차원인 학습 분포로부터 데이터를 샘플링을 하고자 하나, 이를 직접적으로 하는 것이 불가능 해결책 쉽게 데이터를 샘플링하는 것이 가능한 간단한 분포를 이용(random noise와 같은 것) 이 간단한 분포를 학습 분포로 변형(transformation) 하는 법을 학습 Q. 이러한 복잡한 변형을 표현하려면 어떤 것을 사용해야할까? -> 정답은 Neural network!!! 입력 이미지를 따르는 정규 분포로 Z를 흭득함 -> 그것으로 학습 Neural Network 문제 하지만 각 Sample Z가 어떤 이미지로 매핑 되는지 알 수 없음 학습 이미지를 복원하는 것으로는 학습 불가능 해결책 d..
[GAN] VAE(Variational Auto-Encoder)
·
공부정리/Computer Vision
VAE 목표: Input image X를 잘 설명하는 feature를 추출하여 Latent vector z에 담고, 이 Latent vector z를 통해 X와 유사하지만 완전히 새로운 데이터를 생성하는 것 각 feature가 가우시안 분포를 따른다고 가정하고 latent z는각 feature의 평균과 분산값을 나타냄 수식을 약간 곁들여 이를 표현하면 아래와 같이 나타낼 수 있다. p(z): latent vector z의 확률밀도함수. 가우시안 분포를 따른다고 가정 p(x|z): 주어진 z에서 특정 x가 나올 조건부 확률에 대한 확률밀도함수 θ: 모델의 파라미터 VAE의 구조 Input image X를 Encoder에 통과시켜 Latent vector z를 구하고, Latent vector z를 다시 D..
[GAN] 확률 밀도의 추정과 샘플링
·
공부정리/Computer Vision
확률 분포(Probability distribution)의 추정 (estimation) 주사위를 굴렸을 때 각각의 수를 얻는 확률은 어떻게 될까? 이미지를 학습할 때 확률 변수 x는 64x64x3와 같은 차원을 갖는 고차원 벡터로 표현될 수 있다. 아래 예를 들어 얼굴을 그리기 위해 눈, 코, 입 등의 feature를 Latent vector z에 담고, 그 z를 이용해 그럴듯한 한국인의 얼굴을 그려내야 한다. 이러한 생성 모델에서는 확률 분포가 실제 존재하는 확률 분포와 얼마나 가까이 추정하였는지에 따라 달라질 수 있다. latent vector x3은 금발 여성의 눈 모양의 평균 및 분산, 한국인 코 길이의 평균 및 분산, 한국인 머리카락 길이의 평균 및 분산 등등의 정보를 담고 있다고 생각할 수 있..
라즈베리파이 3 카메라 연결
·
OS/Rasberry pi
터미널에서 libcamera 테스트 코드로 작동을 확인합니다. $ libcamera-hello ERROR: *** no cameras available *** 위처럼 에러가 발생하는 경우는 최신 업데이트가 필요합니다. $ sudo apt-get update $ sudo apt-get upgrade 업데이트가 모두 완료되면 재부팅 $ sudo reboot ​ 재부팅 후 다시 libcamera 테스트 코드를 입력하면된다. $ libcamera-hello -t 0 ** 안될 시 ** $ sudo raspi-config Interface Options > Legacy Camera > No 재부팅 후 libcamera 테스트 코드 입력 잘 작동하는 모습을 볼 수 있다
[Ubuntu] 첫 시작 GUI 로그인화면 마우스, 키보드 안됨
·
OS/Ubuntu
우선 키보드, 마우스 문제인지 확인하기위해 잘되는 곳에 꽂고 테스트 -> 잘된다. 원격 접속으로 해당 모듈을 입력 sudo apt-get install xserver-xorg-input-all 입력 해준 뒤에 재시작을 한다. sudo reboot 다시 재시작하면 잘 연결 됨을 볼 수 있다!!
[Paper review] A multimodal transformer to fuse images and metadata for skindisease classification
·
Paper
보호되어 있는 글입니다.