문제 해설 - 07. 확률분포와 최적화
이 페이지는 07. 확률분포와 최적화 단계의 연습문제 해설을 모아 둔 페이지입니다.
- 정답만 보는 대신 어떤 정의와 원리를 써야 하는지까지 함께 적었습니다.
- 손으로 먼저 풀어 본 뒤 해설을 읽고, 막힌 지점을 표시하며 복기하는 용도로 씁니다.
32. 신경망, 계산그래프, backprop
문제 1
- 문제: 신경망을 합성함수라고 부르는 이유를 설명하라.
- 해설: 각 층이 하나의 함수이고, 전체 모델은 이 함수들을 연속해서 적용한 합성함수이기 때문이다.
문제 2
- 문제: 계산그래프의 역할을 설명하라.
- 해설: 연산 순서와 중간값, 기울기 흐름을 구조화해 forward와 backward 계산을 가능하게 한다.
문제 3
- 문제: backprop이 효율적인 이유를 설명하라.
- 해설: 중간 미분 결과를 재사용하며 출력 하나에 대한 많은 파라미터 기울기를 한 번의 backward pass로 계산할 수 있기 때문이다.
문제 4
- 문제: 연쇄법칙이 역전파에서 왜 핵심인가?
- 해설: 합성함수 전체의 미분을 각 단계 미분의 곱으로 나눠 계산하게 해 주기 때문이다.
33. 초기화, 정규화, residual, optimization tricks
문제 1
- 문제: 좋은 초기화가 왜 필요한지 설명하라.
- 해설: 초기부터 기울기가 지나치게 작거나 커지지 않게 해 안정적인 학습을 시작하게 해 주기 때문이다.
문제 2
- 문제: BatchNorm과 LayerNorm의 큰 차이를 설명하라.
- 해설: BatchNorm은 배치 축 통계를 사용하고, LayerNorm은 각 샘플의 특징 차원 통계를 사용한다.
문제 3
- 문제: Residual connection이 기울기 흐름을 어떻게 돕는가?
- 해설: identity path를 제공해 기울기가 깊은 층을 지나도 직접 전달될 수 있게 하기 때문이다.
문제 4
- 문제: optimization trick이 단순 요령이 아닌 이유를 설명하라.
- 해설: 깊은 모델의 수치적 안정성과 기울기 흐름 문제를 해결하기 위한 구조적 장치이기 때문이다.
34. self-supervised learning과 표현학습
문제 1
- 문제: self-supervised learning의 핵심 아이디어를 설명하라.
- 해설: 외부 라벨 없이 데이터 안에서 학습 신호를 만들어 표현을 학습하는 것이다.
문제 2
- 문제: 표현학습이 중요한 이유를 설명하라.
- 해설: 좋은 표현이 있으면 다양한 다운스트림 작업에서 적은 데이터와 간단한 모델로도 좋은 성능을 낼 수 있기 때문이다.
문제 3
- 문제: contrastive learning은 어떤 쌍을 이용해 학습하는가?
- 해설: 가까워져야 하는 positive pair와 멀어져야 하는 negative pair를 이용한다.
문제 4
- 문제: masked prediction과 contrastive learning의 차이를 설명하라.
- 해설: masked prediction은 일부를 가리고 맞히며 구조를 배우고, contrastive learning은 유사/비유사 쌍의 거리를 조절하며 표현을 배운다.
35. variational inference, ELBO, VAE
문제 1
- 문제: variational inference의 핵심 아이디어를 설명하라.
- 해설: 복잡한 posterior를 계산하기 쉬운 분포로 근사해 추론하는 것이다.
문제 2
- 문제: ELBO의 두 주요 역할을 설명하라.
- 해설: 데이터를 잘 재구성하게 하고, 근사 posterior가 prior와 너무 멀어지지 않도록 조절한다.
문제 3
- 문제: reparameterization trick이 왜 필요한가?
- 해설: 샘플링 연산을 미분 가능한 형태로 바꿔 encoder 파라미터에 기울기를 전달하기 위해서다.
문제 4
- 문제: VAE가 잠재공간 학습과 연결되는 이유를 설명하라.
- 해설: 입력을 연속적인 잠재분포로 압축하고 다시 복원하도록 학습하기 때문에 의미 있는 잠재공간이 형성된다.
36. 확률과정, score matching, diffusion
문제 1
- 문제: 확률과정을 한 문장으로 설명하라.
- 해설: 시간에 따라 확률적으로 상태가 변하는 과정이다.
문제 2
- 문제: score가 무엇인지 설명하라.
- 해설: 분포의 로그밀도에 대한 기울기로, 밀도가 증가하는 방향을 알려 준다.
문제 3
- 문제: forward diffusion의 목적을 설명하라.
- 해설: 복잡한 데이터분포를 점차 노이즈 분포로 보내 쉽게 다룰 수 있게 하는 것이다.
문제 4
- 문제: reverse process가 생성과 연결되는 이유를 설명하라.
- 해설: 노이즈 상태에서 시작해 데이터가 있을 법한 방향으로 되돌아가며 새로운 샘플을 만들기 때문이다.
이 해설 페이지를 읽는 법
- 먼저 각 문제에 대해 정의를 떠올려 보고, 식이 필요하면 직접 다시 써 봅니다.
- 그다음 해설을 읽으며 내가 놓친 정의, 방향, 가정이 무엇이었는지 표시합니다.
- 특히 35, 36강 문제는 식을 기호로 외우기보다 "무엇을 근사하는가", "어느 방향으로 움직이는가"를 문장으로 다시 설명해 보는 것이 중요합니다.
마지막 점검
- 32강에서는 forward와 backward의 역할을 분리해 설명할 수 있어야 합니다.
- 33강에서는 안정화 기법이 모두 신호와 gradient 흐름 문제를 다룬다는 점을 보여야 합니다.
- 34강에서는 라벨 없이 학습 신호를 만드는 원리를 말할 수 있어야 합니다.
- 35강에서는 posterior, 근사 posterior, ELBO의 관계를 한 흐름으로 설명할 수 있어야 합니다.
- 36강에서는 diffusion이 왜 "노이즈에서 되돌아오기" 문제인지 설명할 수 있어야 합니다.