17강에서는 가능한 결과를 세고, 사건의 비율로 확률을 정의했습니다. 그런데 실제 문제에서는 사건만으로는 부족한 경우가 많습니다. 우리는 결과 하나하나보다 그 결과를 숫자로 바꾼 값을 다루고 싶습니다. 예를 들어 성공 횟수, 대기 시간, 시험 점수, 잡음 크기처럼 말입니다. 이렇게 무작위 결과를 숫자로 바꾸는 규칙이 확률변수이고, 그 숫자들이 어떻게 퍼져 있는지를 정리한 것이 분포입니다.

먼저 알아둘 말

확률변수: 무작위 결과를 숫자로 바꾸는 규칙이다.
분포: 확률변수가 어떤 값을 얼마나 자주 가지는지 정리한 것이다.
확률질량함수: 이산확률변수에서 각 값에 직접 붙는 확률이다.
확률밀도함수: 연속확률변수에서 구간 확률을 만들어 내는 밀도 함수다.
이산분포: 셀 수 있는 값들에 확률이 붙는 분포다.
연속분포: 구간 위에 확률이 퍼져 있는 분포다.
베르누이분포: 성공/실패 두 값만 가지는 분포다.
이항분포: 같은 성공확률의 독립 시행을 여러 번 했을 때 성공 횟수의 분포다.
정규분포: 평균 주변에 종 모양으로 퍼지는 대표적인 연속분포다.

이 강의에서 답할 질문

왜 결과를 숫자로 바꾸는 확률변수가 필요한가?
분포는 무엇을 요약해 주는가?
이산분포와 연속분포는 어떻게 다른가?
베르누이분포와 이항분포는 어떤 관계를 가지는가?
정규분포는 왜 실제 데이터에서 자주 등장하는가?

먼저 떠올릴 장면

동전 던지기 결과를 앞면/뒷면이라고 말하는 대신 1과 0으로 바꾸면 계산이 쉬워집니다.
서버 요청 수처럼 셀 수 있는 양도 있고, 대기시간처럼 연속적으로 변하는 양도 있습니다.
시험 점수나 측정 오차처럼 여러 작은 영향이 합쳐진 값은 종 모양으로 퍼지는 경우가 많습니다.

생각의 순서

먼저 확률변수가 왜 필요한지 봅니다.
그다음 분포가 확률변수의 모양을 어떻게 요약하는지 봅니다.
이어서 이산분포와 연속분포를 구분합니다.
그다음 대표적인 이산분포와 연속분포를 연결합니다.
마지막으로 분포가 현실 상황을 어떻게 번역하는지 봅니다.

본문

동전을 던지면 결과는 앞면 또는 뒷면입니다. 하지만 계산을 하려면 글자보다 숫자가 편할 때가 많습니다. 앞면이면 1, 뒷면이면 0이라고 두면 성공 횟수나 평균 같은 계산으로 자연스럽게 넘어갈 수 있습니다.

이처럼 확률변수는 무작위 결과를 숫자로 바꾸는 규칙입니다. 중요한 점은 결과 그 자체가 아니라, 결과를 어떤 숫자로 읽을 것인가를 정한다는 것입니다.

예를 들어 주사위를 던질 때 그냥 눈을 그대로 숫자로 읽을 수도 있고, 짝수면 1, 홀수면 0처럼 새로 정의할 수도 있습니다. 같은 실험이라도 확률변수를 어떻게 두느냐에 따라 우리가 보는 정보가 달라집니다.

확률변수를 정하면 이제 그 값들이 어떻게 퍼져 있는지 보고 싶어집니다. 이것이 분포입니다. 분포는 이 값이 얼마나 자주 나오는가, 값들이 어디에 몰려 있는가, 어떤 값이 더 흔한가를 정리한 것입니다.

분포는 크게 이산분포와 연속분포로 나눕니다.

이산분포는 값을 하나씩 셀 수 있습니다. 예를 들어 동전 던지기의 결과, 성공 횟수, 고장 횟수는 하나하나 셀 수 있습니다. 이런 경우에는 각 값에 직접 확률을 붙일 수 있습니다.

가장 기본적인 예가 베르누이분포입니다. 성공이면 1, 실패면 0인 확률변수

$$ X $$

가 있고 성공확률이

$$ p $$

라면

$$ P(X=1)=p, \qquad P(X=0)=1-p $$

입니다.

즉 베르누이분포는 성공/실패처럼 두 결과만 있는 가장 단순한 확률 모델입니다.

이제 같은 실험을 여러 번 반복해 봅시다. 성공확률이 같은 실험을 독립적으로

$$ n $$

번 반복하고 성공 횟수를

$$ X $$

라고 두면, 이

$$ X $$

는 이항분포를 따릅니다.

$$ X\sim \operatorname{Binomial}(n,p) $$

여기서 중요한 구조는 같은 성공확률, 독립 반복, 성공 횟수입니다. 즉 이항분포는 베르누이 시행을 여러 번 모아 놓은 분포라고 볼 수 있습니다.

반면 연속분포는 값을 하나씩 셀 수 없습니다. 시간, 길이, 온도처럼 연속적으로 변하는 양이 그렇습니다. 이 경우에는 한 점의 확률보다 구간의 확률이 의미를 가집니다. 그래서 확률질량함수 대신 확률밀도함수를 씁니다.

대표적인 연속분포가 정규분포입니다. 평균

$$ \mu $$

를 중심으로 좌우 대칭인 종 모양을 가지며, 퍼짐의 정도는 분산

$$ \sigma^2 $$

로 나타냅니다.

정규분포가 중요한 이유는 현실에서 많은 값이 이 모양에 가까워지기 쉽기 때문입니다. 여러 작은 영향이 독립적으로 더해지면 전체 결과가 평균 주변에 몰리고, 극단값은 드물어지는 경향이 있습니다. 시험 점수, 측정 오차, 센서 노이즈 같은 것이 대표적입니다.

또 드문 사건이 일정한 비율로 일어나는 상황에서는 포아송분포도 자주 나옵니다. 단위 시간당 요청 수, 사고 횟수, 도착 횟수 같은 문제입니다. 즉 분포는 단순한 공식 모음이 아니라, 현실의 무작위 상황을 수학적 모양으로 분류한 사전입니다.

결국 확률변수는 무작위 결과를 계산 가능한 숫자로 바꾸어 주고, 분포는 그 숫자들이 어떻게 퍼져 있는지를 보여 줍니다. 이후 기대값, 분산, 통계추정은 모두 이 분포 위에서 이야기됩니다.

예제

베르누이분포 쓰기 문제: 앞면이 나올 확률이

$$ 0.7 $$

인 동전을 한 번 던질 때, 앞면을 1, 뒷면을 0으로 두는 확률변수

$$ X $$

의 분포를 써라.

풀이:

$$ P(X=1)=0.7, \qquad P(X=0)=0.3 $$

해설: 결과를 숫자로 바꾸면 성공/실패 문제를 바로 계산할 수 있다. 이것이 확률변수의 장점이다.

이항분포 연결하기 문제: 성공확률이

$$ 0.6 $$

인 실험을 5번 반복할 때 성공 횟수는 어떤 분포를 따르는가?

풀이:

$$ X\sim \operatorname{Binomial}(5,0.6) $$

해설: 같은 실험을 독립적으로 반복하고 성공 횟수를 세는 구조이므로 이항분포다. 베르누이 시행이 여러 번 모인 경우라고 볼 수 있다.

연속분포 해석하기 문제: 정규분포가 왜 연속분포라고 불리는지 설명하라.

풀이: 값을 하나씩 세는 것이 아니라, 구간의 확률을 밀도로 적분해서 구하기 때문이다.

해설: 연속분포에서는 특정 한 점의 확률보다 어떤 구간에 얼마나 퍼져 있는지가 중요하다.

스스로 점검

확률변수가 왜 필요한지 설명할 수 있는가?
분포가 무엇을 요약하는지 말할 수 있는가?
이산분포와 연속분포의 차이를 설명할 수 있는가?
베르누이분포와 이항분포의 관계를 설명할 수 있는가?
정규분포가 실제 데이터에서 왜 자주 등장하는지 말할 수 있는가?