콘텐츠로 이동

문제 해설 - 05. 최적화와 정보이론

이 페이지는 05. 최적화와 정보이론 단계의 모든 연습문제 해설을 모아 둔 페이지입니다. - 정답만 보는 대신 어떤 정의와 원리를 써야 하는지까지 함께 적었습니다. - 손으로 먼저 풀어 본 뒤 해설을 읽고, 막힌 지점을 표시하며 복기하는 용도로 씁니다.

22. 볼록성, 제약최적화, 라그랑주

문제 1

  • 문제: 볼록함수의 장점을 한 문장으로 설명하라.
  • 해설: 지역 최적해가 전역 최적해가 되어 최적화가 쉬워진다.

문제 2

  • 문제: 제약최적화가 무엇인지 설명하라.
  • 해설: 주어진 제약조건을 만족하는 해들 중에서 목적함수를 가장 좋게 만드는 해를 찾는 문제다.

문제 3

  • 문제: 라그랑주 승수는 어떤 역할을 하는가?
  • 해설: 제약조건을 목적함수에 결합해 동시에 고려할 수 있게 한다.

문제 4

  • 문제: 왜 확률벡터에는 합이 1이라는 제약이 붙는가?
  • 해설: 모든 사건 확률을 합치면 전체 가능성 1이 되어야 하기 때문이다.

23. 경사하강법, 모멘텀, Adam

문제 1

  • 문제: 경사하강법에서 왜 기울기의 반대 방향으로 이동하는가?
  • 해설: 기울기가 증가 방향을 가리키기 때문에 반대 방향으로 가야 함수값이 줄어들기 때문이다.

문제 2

  • 문제: 모멘텀이 필요한 이유를 설명하라.
  • 해설: 이전 이동 방향을 누적해 불안정한 지그재그를 줄이고 더 빠르게 목적점으로 가게 하기 때문이다.

문제 3

  • 문제: Adam이 SGD보다 유리한 상황을 한 가지 설명하라.
  • 해설: 파라미터별 gradient 크기가 매우 다를 때 Adam은 각 파라미터에 맞게 스텝 크기를 조절해 더 안정적일 수 있다.

문제 4

  • 문제: 학습률이 너무 작을 때의 문제를 설명하라.
  • 해설: 손실이 거의 줄지 않고 학습이 매우 느려진다.

24. 수치선형대수와 자동미분

문제 1

  • 문제: 자동미분과 수치미분의 차이를 설명하라.
  • 해설: 수치미분은 작은 차분으로 근사하지만 자동미분은 연산 규칙을 따라 정확한 도함수를 계산한다.

문제 2

  • 문제: reverse mode가 딥러닝에 잘 맞는 이유를 설명하라.
  • 해설: 출력 스칼라 하나에 대해 많은 파라미터 gradient를 효율적으로 구할 수 있기 때문이다.

문제 3

  • 문제: 유한정밀도가 왜 문제를 만들 수 있는가?
  • 해설: 매우 크거나 작은 수 계산에서 반올림 오차와 overflow/underflow가 생길 수 있기 때문이다.

문제 4

  • 문제: 계산그래프가 필요한 이유를 설명하라.
  • 해설: 복잡한 연산을 작은 단계로 나눠 저장하고, forward 값과 backward gradient를 체계적으로 전달할 수 있기 때문이다.

25. 엔트로피, cross-entropy, KL divergence

문제 1

  • 문제: 엔트로피가 큰 분포의 특징을 설명하라.
  • 해설: 확률이 여러 결과에 고르게 퍼져 있어 불확실성이 크다.

문제 2

  • 문제: cross-entropy가 분류 손실로 적합한 이유를 설명하라.
  • 해설: 정답 클래스 확률을 높일수록 손실이 줄고, 잘못된 확신에는 큰 패널티를 주기 때문이다.

문제 3

  • 문제: KL divergence가 0이라는 뜻은 무엇인가?
  • 해설: 두 분포가 완전히 같다는 뜻이다.

문제 4

  • 문제: 언어모델의 next-token training을 정보이론으로 설명하라.
  • 해설: 정답 토큰 분포와 모델 분포 사이 cross-entropy를 줄여 정답에 대한 평균 코드 길이를 최소화하는 과정으로 볼 수 있다.

26. 일반화, 정규화, bias-variance

문제 1

  • 문제: 일반화가 무엇인지 설명하라.
  • 해설: 보지 못한 새로운 데이터에서도 모델이 잘 작동하는 성질이다.

문제 2

  • 문제: 과적합이 왜 문제인가?
  • 해설: 훈련셋에서만 좋아 보이고 실제 배포 환경에서는 성능이 떨어질 수 있기 때문이다.

문제 3

  • 문제: bias-variance trade-off를 한 문장으로 설명하라.
  • 해설: 모델을 단순하게 하면 bias가 커지고 복잡하게 하면 variance가 커질 수 있어 둘 사이 균형을 맞춰야 한다는 뜻이다.

문제 4

  • 문제: 정규화가 도움이 되는 이유를 설명하라.
  • 해설: 모델 복잡도를 조절해 과적합을 줄이고 일반화 성능을 높일 수 있기 때문이다.

사용법

  • 먼저 문제를 풀고 답을 적은 뒤 해설을 본다.
  • 해설을 읽을 때는 어떤 정의를 먼저 떠올려야 하는지 표시한다.
  • 틀린 문제는 다시 풀어 보고, 같은 유형을 다음 강의 전에 한 번 더 복습한다.