확률분포를 배울 때는 모수가 주어졌을 때 어떤 데이터가 나올지를 생각했습니다. 통계적 추정은 그 반대 방향으로 갑니다. 이제는 데이터를 보고, 이 데이터를 만들어 낸 숨은 모수가 무엇이었는지를 거꾸로 추론해야 합니다. MLE, MAP, 베이즈는 이 거꾸로 추론하는 문제를 서로 다른 깊이로 다루는 방법입니다.

먼저 알아둘 말

모수: 분포의 모양을 결정하는 숨은 숫자다.
추정: 관측한 데이터로부터 모수를 짐작하는 일이다.
likelihood: 어떤 모수를 가정했을 때 지금 같은 데이터가 얼마나 자연스러운지를 보는 함수다.
MLE: likelihood를 가장 크게 만드는 모수를 고르는 방법이다.
사전분포: 데이터를 보기 전에 모수에 대해 가지고 있는 믿음이다.
MAP: 데이터와 사전분포를 함께 반영해 가장 그럴듯한 모수를 고르는 방법이다.
사후분포: 데이터를 본 뒤 모수에 대한 믿음이 갱신된 결과다.

이 강의에서 답할 질문

통계적 추정은 정확히 무엇을 거꾸로 추론하는 과정일까?
likelihood는 확률과 무엇이 다를까?
MLE, MAP, 베이즈는 같은 문제를 어떻게 다르게 푸는가?

먼저 떠올릴 장면

동전을 여러 번 던졌더니 앞면이 7번 나왔다면, 우리는 동전의 앞면 확률이 얼마였는지 알고 싶어진다.
데이터가 충분히 많다면 관측 비율만으로도 추정이 가능해 보인다.
하지만 데이터가 적다면 기존 지식이나 상식도 함께 쓰고 싶어진다.

이 차이에서 MLE, MAP, 베이즈의 구분이 나옵니다.

생각의 순서

먼저 모수와 데이터의 관계를 다시 본다.
그다음 likelihood가 확률과 어떻게 다른지 구분한다.
그 위에 MLE를 세운다.
이어서 사전정보를 더한 MAP를 본다.
마지막으로 점 하나가 아니라 분포 전체를 남기는 베이즈 관점까지 간다.

본문

1. 통계적 추정은 데이터에서 모수로 거꾸로 가는 일이다

확률모형을 세울 때는 보통 모수를 먼저 안다고 가정합니다. 예를 들어 베르누이분포에서는 성공확률 p가 모수입니다. 그러면 이 p를 바탕으로 성공과 실패가 어떤 비율로 나올지를 말할 수 있습니다.

그런데 실제 문제에서는 반대로 p를 모릅니다. 대신 성공과 실패가 여러 번 관측된 데이터만 손에 있습니다. 이때 우리가 묻는 질문은 다음과 같습니다.

어떤 p를 가정하면 지금 본 데이터가 가장 자연스러울까?

이 질문이 바로 추정 문제입니다. 즉 통계적 추정은 모수 -> 데이터라는 확률모형의 방향을 거꾸로 사용해 데이터 -> 모수를 추론하는 과정입니다.

2. likelihood는 확률과 방향이 다르다

확률과 likelihood는 같은 식을 써도 보는 방향이 다릅니다.

확률은 모수가 주어졌을 때 데이터가 얼마나 가능한지를 본다.
likelihood는 데이터가 주어졌을 때 어떤 모수가 더 그럴듯한지를 비교한다.

예를 들어 동전을 10번 던져 앞면이 7번 나왔다고 합시다. 성공확률이 p인 베르누이 모형을 쓰면, 이 데이터가 나올 가능성을 p의 함수로 다음처럼 쓸 수 있습니다.

$$ L(p) = p^7(1-p)^3 $$

여기서 7과 3은 이미 관측된 데이터로 고정되어 있습니다. 변하는 것은 p뿐입니다. 따라서 이 식은 p가 바뀔 때 지금 데이터가 얼마나 잘 설명되는가를 보여 주는 함수입니다.

이 점이 중요합니다. likelihood는 모수 후보들을 비교하는 도구이지, p 자체가 확률변수라는 뜻은 아닙니다. 아직은 단지 "어떤 p가 더 그럴듯한가"를 재는 기준일 뿐입니다.

3. MLE는 데이터를 가장 잘 설명하는 모수를 고른다

MLE는 maximum likelihood estimation의 줄임말입니다. 뜻 그대로 likelihood를 가장 크게 만드는 모수를 고르는 방법입니다.

$$ \hat{\theta}{\mathrm{MLE}} = \arg\max L(\theta) $$

베르누이 예에서는 p에 대해 likelihood가 가장 커지는 지점을 찾으면 됩니다. 결과적으로 관측된 성공 비율이 MLE가 됩니다.

$$ \hat{p}_{\mathrm{MLE}} = \frac{k}{n} $$

여기서 k는 성공 횟수이고 n은 전체 시행 횟수입니다.

이 결과가 자연스러운 이유는 분명합니다. 데이터에서 성공이 70퍼센트 나왔다면, 현재 데이터를 가장 잘 설명하는 모수도 성공확률 0.7 근처라고 보는 것이 가장 직접적이기 때문입니다.

MLE의 장점은 단순하고 계산이 쉽다는 점입니다. 하지만 데이터가 적을 때는 관측 결과를 너무 곧이곧대로 따라가서 불안정한 추정이 나올 수 있습니다.

4. MAP는 데이터에 사전정보를 더한다

이제 데이터만 보지 말고, 데이터를 보기 전부터 알고 있던 정보도 반영해 봅시다. 예를 들어 어떤 동전이 완전히 이상한 동전일 가능성은 낮고, 보통은 공정한 동전 근처일 것이라고 믿을 수 있습니다.

이런 믿음을 사전분포로 표현합니다. 그리고 데이터에서 온 likelihood와 결합합니다. 데이터를 본 뒤의 믿음은 사후분포가 됩니다.

$$ p(\theta \mid D) \propto p(D \mid \theta)p(\theta) $$

MAP는 이 사후분포를 가장 크게 만드는 모수를 고릅니다.

$$ \hat{\theta}{\mathrm{MAP}} = \arg\max p(\theta \mid D) $$

즉 MAP는 "데이터도 잘 설명하고, 원래부터 말이 되던 모수"를 함께 찾는 방법입니다.

데이터가 충분히 많으면 likelihood의 영향이 커져서 MAP와 MLE가 비슷해질 수 있습니다. 반대로 데이터가 적으면 사전분포의 영향이 더 크게 들어와서, 극단적인 추정을 완화해 주는 역할을 합니다.

5. 베이즈 관점은 답 하나가 아니라 분포 전체를 남긴다

MLE와 MAP는 최종적으로 모수 하나를 고릅니다. 이런 방식을 점 추정이라고 합니다.

하지만 베이즈 관점은 여기서 멈추지 않습니다. 사후분포 전체를 유지합니다. 즉 "가장 좋은 답 하나"만 남기는 것이 아니라, 어떤 모수들이 얼마나 가능성이 있는지를 분포 형태로 남겨 둡니다.

이 관점의 장점은 불확실성을 함께 다룰 수 있다는 점입니다.

데이터가 적으면 사후분포가 넓게 퍼질 수 있다.
데이터가 많아지면 사후분포가 점점 좁아질 수 있다.

따라서 베이즈 추론은 답만 주는 것이 아니라, 그 답을 얼마나 확신할 수 있는지도 함께 말해 줍니다.

6. 세 방법의 차이를 한 번에 정리하자

같은 데이터를 두고 세 방법은 다음처럼 요약할 수 있습니다.

MLE: 데이터만 보고 가장 잘 맞는 모수를 고른다.
MAP: 데이터와 사전정보를 함께 보고 가장 그럴듯한 모수를 고른다.
베이즈: 모수 하나를 고르기보다, 데이터 이후의 믿음 전체를 사후분포로 유지한다.

셋은 완전히 따로 노는 개념이 아니라 같은 추정 문제를 점점 더 풍부하게 다루는 연속선 위에 있습니다.

7. AI에서는 왜 중요한가

AI와 머신러닝에서는 이 세 관점이 모두 쓰입니다.

MLE는 많은 확률모형과 분류모형의 기본 학습 원리로 등장합니다.
MAP는 정규화와 prior를 포함한 추정으로 연결됩니다.
베이즈 관점은 불확실성 추정, 베이지안 신경망, 사후추론으로 이어집니다.

결국 학습이란 관측한 데이터를 가장 잘 설명하는 매개변수를 찾는 과정이므로, 추정 이론은 머신러닝의 핵심 언어입니다.

예제

MLE 계산하기 문제: 동전을 10번 던져 앞면이 7번 나왔다. MLE 관점에서 앞면 확률을 추정하라. 풀이: MLE는 관측된 성공 비율을 택한다.

$$ \hat{p}_{\mathrm{MLE}} = \frac{7}{10} = 0.7 $$

해설: 현재 데이터를 가장 잘 설명하는 값은 관측된 빈도와 같은 확률이다.

MAP가 필요한 이유 설명하기 문제: 동전을 1번 던졌더니 앞면이 1번 나왔다. 이때 MLE와 MAP는 어떤 차이를 보일 수 있는가? 풀이: MLE는 성공 비율만 보면 1이 된다. 하지만 MAP는 동전이 보통 공정할 것이라는 사전정보를 넣으면 1보다 작은 값으로 추정할 수 있다. 해설: 데이터가 적을수록 사전정보가 추정을 안정시키는 역할을 한다.
베이즈 추론 읽기 문제: 베이즈 관점이 점 하나 대신 분포 전체를 남긴다는 말의 뜻을 설명하라. 풀이: 하나의 모수값만 고르는 대신, 가능한 여러 모수값에 대해 각각 어느 정도 가능성이 있는지를 사후분포로 유지한다.

$$ p(\theta \mid D) \propto p(D \mid \theta)p(\theta) $$

해설: 베이즈 추론은 답 하나뿐 아니라 그 답의 불확실성까지 함께 표현한다.

스스로 점검

연습 문제

통계적 추정이 왜 확률문제의 방향을 거꾸로 사용하는 것인지 설명하라.
likelihood와 확률의 차이를 말로 설명하라.
데이터가 적을 때 MAP가 MLE보다 안정적일 수 있는 이유를 설명하라.
베이즈 관점이 사후분포를 유지하는 이유를 설명하라.

복습 질문

추정 문제에서 우리가 찾고 싶은 것은 무엇인가?
MLE는 어떤 기준으로 모수를 고르는가?
MAP는 MLE에 무엇을 더한 것인가?
베이즈 관점은 왜 불확실성까지 다룰 수 있는가?

체크포인트

모수, likelihood, 추정의 관계를 설명할 수 있다.
MLE와 MAP의 차이를 구분할 수 있다.
사전분포와 사후분포의 의미를 설명할 수 있다.
점 추정과 분포 추정의 차이를 말할 수 있다.