콘텐츠로 이동

이 단계는 모델이 무엇을 목표로 학습하고, 그 목표를 향해 실제로 어떻게 움직이는지 배우는 단계입니다. 확률과 통계로 불확실성을 읽었다면, 이제는 손실을 만들고 그 손실을 줄이는 과정을 차례대로 이해합니다.

이 단계에서 배우는 것

  • 손실은 "모델이 얼마나 틀렸는가"를 숫자로 나타낸 것입니다.
  • 최적화는 그 손실을 줄이는 방향을 찾는 과정입니다.
  • 분포를 비교하는 정보이론 도구를 알아야 cross-entropy 같은 손실을 제대로 읽을 수 있습니다.
  • 일반화와 정규화는 학습이 훈련 데이터 밖에서도 통하도록 만드는 장치입니다.

먼저 알고 갈 말

  • 손실: 예측이 얼마나 틀렸는지 재는 숫자입니다.
  • 최적화: 손실을 더 작게 만드는 해를 찾는 과정입니다.
  • 파라미터: 모델이 학습으로 바꾸는 숫자들입니다.
  • 분포: 확률이 여러 결과에 배분된 방식입니다.

이 단계를 읽는 순서

  1. 먼저 어떤 최적화 문제가 다루기 쉬운지, 즉 볼록성과 제약조건의 의미를 봅니다.
  2. 그다음 손실을 줄이기 위해 파라미터를 실제로 움직이는 경사하강법을 배웁니다.
  3. 이어서 컴퓨터가 기울기를 어떻게 안정적으로 계산하는지 이해합니다.
  4. 그다음 엔트로피와 cross-entropy로 분포 차이를 읽습니다.
  5. 마지막으로 훈련 데이터에서는 잘 맞지만 새 데이터에서는 틀리는 이유를 봅니다.

각 강의가 맡는 역할

  • 22. 볼록성, 제약최적화, 라그랑주: 최적화 문제의 구조를 먼저 이해합니다.
  • 23. 경사하강법, 모멘텀, Adam: 손실을 줄이는 실제 업데이트 규칙을 배웁니다.
  • 24. 수치선형대수와 자동미분: 계산 안정성과 기울기 계산 절차를 봅니다.
  • 25. 엔트로피, cross-entropy, KL divergence: 분포의 불확실성과 차이를 재는 기준을 배웁니다.
  • 26. 일반화, 정규화, bias-variance: 학습이 새 데이터에서도 통하려면 무엇이 필요한지 봅니다.

이 단계를 마치면 할 수 있는 것

  • 손실, 기울기, 업데이트가 어떻게 이어지는지 설명할 수 있습니다.
  • 왜 분류 문제에서 cross-entropy가 자주 쓰이는지 말할 수 있습니다.
  • 정규화와 일반화가 왜 필요한지 설명할 수 있습니다.

문제 해설과 강의 목록

  • 이 단계의 연습문제 해설은 아래 페이지에 모아 두었습니다.

22. 볼록성, 제약최적화, 라그랑주 23. 경사하강법, 모멘텀, Adam 24. 수치선형대수와 자동미분 25. 엔트로피, cross-entropy, KL divergence 26. 일반화, 정규화, bias-variance 문제 해설 - 05. 최적화와 정보이론