콘텐츠로 이동

문제 해설 - 07. 확률분포와 최적화

이 페이지는 07. 확률분포와 최적화 단계의 연습문제 해설을 모아 둔 페이지입니다. - 정답만 보는 대신 어떤 정의와 원리를 써야 하는지까지 함께 적었습니다. - 손으로 먼저 풀어 본 뒤 해설을 읽고, 막힌 지점을 표시하며 복기하는 용도로 씁니다.

32. 신경망, 계산그래프, backprop

문제 1

  • 문제: 신경망을 합성함수라고 부르는 이유를 설명하라.
  • 해설: 각 층이 하나의 함수이고, 전체 모델은 이 함수들을 연속해서 적용한 합성함수이기 때문이다.

문제 2

  • 문제: 계산그래프의 역할을 설명하라.
  • 해설: 연산 순서와 중간값, 기울기 흐름을 구조화해 forward와 backward 계산을 가능하게 한다.

문제 3

  • 문제: backprop이 효율적인 이유를 설명하라.
  • 해설: 중간 미분 결과를 재사용하며 출력 하나에 대한 많은 파라미터 기울기를 한 번의 backward pass로 계산할 수 있기 때문이다.

문제 4

  • 문제: 연쇄법칙이 역전파에서 왜 핵심인가?
  • 해설: 합성함수 전체의 미분을 각 단계 미분의 곱으로 나눠 계산하게 해 주기 때문이다.

33. 초기화, 정규화, residual, optimization tricks

문제 1

  • 문제: 좋은 초기화가 왜 필요한지 설명하라.
  • 해설: 초기부터 기울기가 지나치게 작거나 커지지 않게 해 안정적인 학습을 시작하게 해 주기 때문이다.

문제 2

  • 문제: BatchNorm과 LayerNorm의 큰 차이를 설명하라.
  • 해설: BatchNorm은 배치 축 통계를 사용하고, LayerNorm은 각 샘플의 특징 차원 통계를 사용한다.

문제 3

  • 문제: Residual connection이 기울기 흐름을 어떻게 돕는가?
  • 해설: identity path를 제공해 기울기가 깊은 층을 지나도 직접 전달될 수 있게 하기 때문이다.

문제 4

  • 문제: optimization trick이 단순 요령이 아닌 이유를 설명하라.
  • 해설: 깊은 모델의 수치적 안정성과 기울기 흐름 문제를 해결하기 위한 구조적 장치이기 때문이다.

34. self-supervised learning과 표현학습

문제 1

  • 문제: self-supervised learning의 핵심 아이디어를 설명하라.
  • 해설: 외부 라벨 없이 데이터 안에서 학습 신호를 만들어 표현을 학습하는 것이다.

문제 2

  • 문제: 표현학습이 중요한 이유를 설명하라.
  • 해설: 좋은 표현이 있으면 다양한 다운스트림 작업에서 적은 데이터와 간단한 모델로도 좋은 성능을 낼 수 있기 때문이다.

문제 3

  • 문제: contrastive learning은 어떤 쌍을 이용해 학습하는가?
  • 해설: 가까워져야 하는 positive pair와 멀어져야 하는 negative pair를 이용한다.

문제 4

  • 문제: masked prediction과 contrastive learning의 차이를 설명하라.
  • 해설: masked prediction은 일부를 가리고 맞히며 구조를 배우고, contrastive learning은 유사/비유사 쌍의 거리를 조절하며 표현을 배운다.

35. variational inference, ELBO, VAE

문제 1

  • 문제: variational inference의 핵심 아이디어를 설명하라.
  • 해설: 복잡한 posterior를 계산하기 쉬운 분포로 근사해 추론하는 것이다.

문제 2

  • 문제: ELBO의 두 주요 역할을 설명하라.
  • 해설: 데이터를 잘 재구성하게 하고, 근사 posterior가 prior와 너무 멀어지지 않도록 조절한다.

문제 3

  • 문제: reparameterization trick이 왜 필요한가?
  • 해설: 샘플링 연산을 미분 가능한 형태로 바꿔 encoder 파라미터에 기울기를 전달하기 위해서다.

문제 4

  • 문제: VAE가 잠재공간 학습과 연결되는 이유를 설명하라.
  • 해설: 입력을 연속적인 잠재분포로 압축하고 다시 복원하도록 학습하기 때문에 의미 있는 잠재공간이 형성된다.

36. 확률과정, score matching, diffusion

문제 1

  • 문제: 확률과정을 한 문장으로 설명하라.
  • 해설: 시간에 따라 확률적으로 상태가 변하는 과정이다.

문제 2

  • 문제: score가 무엇인지 설명하라.
  • 해설: 분포의 로그밀도에 대한 기울기로, 밀도가 증가하는 방향을 알려 준다.

문제 3

  • 문제: forward diffusion의 목적을 설명하라.
  • 해설: 복잡한 데이터분포를 점차 노이즈 분포로 보내 쉽게 다룰 수 있게 하는 것이다.

문제 4

  • 문제: reverse process가 생성과 연결되는 이유를 설명하라.
  • 해설: 노이즈 상태에서 시작해 데이터가 있을 법한 방향으로 되돌아가며 새로운 샘플을 만들기 때문이다.

이 해설 페이지를 읽는 법

  1. 먼저 각 문제에 대해 정의를 떠올려 보고, 식이 필요하면 직접 다시 써 봅니다.
  2. 그다음 해설을 읽으며 내가 놓친 정의, 방향, 가정이 무엇이었는지 표시합니다.
  3. 특히 35, 36강 문제는 식을 기호로 외우기보다 "무엇을 근사하는가", "어느 방향으로 움직이는가"를 문장으로 다시 설명해 보는 것이 중요합니다.

마지막 점검

  • 32강에서는 forward와 backward의 역할을 분리해 설명할 수 있어야 합니다.
  • 33강에서는 안정화 기법이 모두 신호와 gradient 흐름 문제를 다룬다는 점을 보여야 합니다.
  • 34강에서는 라벨 없이 학습 신호를 만드는 원리를 말할 수 있어야 합니다.
  • 35강에서는 posterior, 근사 posterior, ELBO의 관계를 한 흐름으로 설명할 수 있어야 합니다.
  • 36강에서는 diffusion이 왜 "노이즈에서 되돌아오기" 문제인지 설명할 수 있어야 합니다.