이미지 생성(Image Generation) 소개

구글 클라우드 Generative AI learning path - Introduction to Image Generation

2023.08.16Woogie.kim

Introduction to image generation

alt Text

alt Text

가변 자동 인코더(Variational Autoencoders - VAEs)

생성 적대적 모델(Generative Adversarial models - GANs)

두 개의 신경 네트워크를 서로 연결
하나의 신경망인 생성기(generator)는 이미지를 만들고 다른 신경망인 판별기(discriminator)는 이미지가 진짜인지 가짜인지 예측한다.
시간이 지나면서 판별기(discriminator)는 점점 더 진짜와 가짜를 구별하는 데 능숙해지고, 생성기(generator)는 점점 더 진짜처럼 보이는 가짜를 만드는 데 능숙해진다.

자동회귀 모델(Autoregressive Models)

alt Text

alt Text

조건 없는 확산 모델(Unconditioned diffusion models)

조건 확산 모델(Conditioned generation models)

alt Text

핵심 아이디어는 반복적인 정방향 확산 과정(iterative forward diffusion process)을 통해 데이터 분포의 구조를 체계적이고 천천히 파괴하는 것으로 실제로 이미지에 반복적으로 노이즈를 추가한다.
그런 다음 데이터의 구조를 복원하는 역확산 프로세스(reverse diffusion process)를 학습하여 데이터의 매우 유연하고 다루기 쉬운 생성 모델을 생성한다.
즉, 이미지에 노이즈를 반복적으로 추가하고 이미지의 노이즈를 제거하는 방법을 학습하여 새로운 이미지를 생성하는 모델을 훈련시킬 수 있다.

alt Text

alt Text

alt Text

alt Text

alt Text

이를 통해 이미지를 생성하는 방법이 위 슬라이드이다.
순수한 노이즈를 노이즈 제거 모델(Denoising Model)에 전송해 예측된 노이즈를 추출하고 초기 이미지에서 이를 제거한다
위 과정을 계속해서 반복하면 생성된 이미지를 볼 수 있을 것
또 다른 방법은 실제 이미지 데이터 확산(real data distribution of images)을 학습하고 그로부터 샘플링하여 새로운 이미지를 만들어 내는 방식

alt Text

지난 몇 년 동안 이 분야에서 많은 발전이 있었다.
이미지 생성을 위한 Vertex AI의 흥미로운 신기술 중 많은 것들이 확산 모델(diffusion models)로 뒷받침되지만, 이미지를 더 빠르고 더 세밀하게 컨트롤해 생성하기 위해 많은 작업이 수행되었다.
우리는 또한 확산 모델의 힘을 LLM의 힘과 결합하거나 텍스트 프롬프트에서 상황인식 사실적 이미지(context aware photorealistic images)를 만들 수 있는 큰 언어 모델을 결합하는 멋진 결과를 보았다.
이것의 좋은 예는 구글 research의 Imagen이다. 이 세션에서 설명한 것보다 조금 더 복잡하지만 핵심은 LLM과 확산 기반 모델의 구성이다.