확률분포를 배웠다면 이제 한 단계 더 나아가야 합니다. 분포 전체를 매번 그림으로 그리지 않고도, 그 분포가 어디를 중심으로 모이는지, 얼마나 퍼져 있는지, 두 변수가 함께 움직이는지를 짧게 요약해야 하기 때문입니다. 기대값, 분산, 공분산은 바로 그 요약 언어입니다.

먼저 알아둘 말

기대값: 확률변수가 장기적으로 어느 값 근처에 중심을 두는지를 나타내는 값이다.
분산: 값들이 기대값 주변에서 얼마나 퍼져 있는지를 나타내는 값이다.
표준편차: 분산에 제곱근을 취해 원래 단위로 되돌린 값이다.
공분산: 두 확률변수가 함께 커지거나 함께 작아지는 경향을 나타내는 값이다.
상관계수: 공분산을 각 변수의 크기에 맞춰 표준화한 값이다.

이 강의에서 답할 질문

기대값은 왜 가장 자주 나오는 값과 다를 수 있을까?
분산은 왜 퍼짐을 설명하는 데 제곱을 사용할까?
공분산은 두 변수의 관계를 어떻게 수로 바꿀까?

먼저 떠올릴 장면

시험 점수표를 볼 때 우리는 먼저 평균을 본다.
그런데 평균이 같아도 어떤 반은 점수가 비슷하고, 어떤 반은 점수 차이가 크게 난다.
또 공부시간과 점수처럼 같이 움직이는 두 양도 있고, 거의 관련이 없는 두 양도 있다.

이 세 질문에 각각 답하는 값이 기대값, 분산, 공분산입니다.

생각의 순서

먼저 기대값으로 중심을 잡는다.
그다음 분산으로 퍼짐의 크기를 본다.
마지막으로 공분산으로 두 변수의 함께 움직임을 본다.

본문

1. 기대값은 분포의 중심을 요약한다

산술평균은 여러 수의 중심을 한 숫자로 요약합니다. 확률변수에서도 같은 생각을 씁니다. 다만 모든 값이 똑같이 자주 나오지 않으므로, 각 값에 그 값이 나올 확률만큼 가중치를 주어 평균을 냅니다.

이산확률변수 X의 기대값은 다음과 같습니다.

$$ E[X] = \sum_x xP(X=x) $$

이 식은 "값 곱하기 그 값이 나올 가능성"을 모두 더한 것입니다. 따라서 기대값은 한 번의 결과가 아니라, 같은 실험을 아주 많이 반복했을 때 평균이 어디로 가까워지는지를 나타냅니다.

기대값은 가장 자주 나오는 값과 다를 수 있습니다. 예를 들어 극단적으로 큰 값이 아주 작은 확률로 섞여 있으면, 평균은 그 큰 값의 영향을 받아 오른쪽으로 끌려갑니다. 그래서 기대값은 가장 흔한 값이 아니라 확률을 고려한 중심이라고 이해해야 합니다.

2. 분산은 중심에서 얼마나 퍼져 있는지를 본다

기대값만으로는 분포를 충분히 설명할 수 없습니다. 평균이 같은 두 분포라도 하나는 값들이 평균 근처에 모여 있고, 다른 하나는 넓게 퍼져 있을 수 있기 때문입니다.

퍼짐을 보려면 각 값이 평균에서 얼마나 떨어져 있는지 살펴봐야 합니다. 가장 먼저 떠오르는 양은

$$ X - E[X] $$

입니다. 하지만 이것을 그대로 평균 내면, 평균보다 큰 값에서 나온 양수와 평균보다 작은 값에서 나온 음수가 서로 지워집니다. 그래서 퍼짐이 있는데도 평균 차이가 0이 되어 버립니다.

이 문제를 피하려고 차이를 제곱합니다. 그러면 음수도 양수로 바뀌고, 멀리 떨어진 값은 더 크게 반영됩니다. 이렇게 정의한 값이 분산입니다.

$$ \operatorname{Var}(X) = E[(X - E[X])^2] $$

분산이 크면 값들이 중심에서 멀리 흩어져 있다는 뜻이고, 분산이 작으면 값들이 중심 근처에 모여 있다는 뜻입니다.

분산은 제곱 단위를 가지므로 해석이 불편할 수 있습니다. 예를 들어 점수의 분산은 "점수의 제곱" 단위를 가집니다. 그래서 보통 분산의 제곱근인 표준편차도 함께 봅니다.

$$ \sigma = \sqrt{\operatorname{Var}(X)} $$

표준편차는 원래 단위로 퍼짐을 말해 주므로 직관적으로 읽기 쉽습니다.

3. 공분산은 두 변수가 함께 움직이는지를 본다

이제 시선을 한 변수에서 두 변수로 넓혀 보겠습니다. 공부시간 X와 시험점수 Y가 있다고 합시다. 우리는 이 둘이 서로 관련이 있는지 알고 싶습니다.

핵심 생각은 간단합니다. 두 변수가 각각 자기 평균보다 큰지 작은지를 함께 보면 됩니다.

X에서 기대값을 뺀 값이 양수면 X는 자기 평균보다 큰 상태다.
Y에서 기대값을 뺀 값이 양수면 Y는 자기 평균보다 큰 상태다.

둘 다 평균보다 크거나 둘 다 평균보다 작으면 두 차이의 곱은 양수입니다. 하나는 평균보다 크고 다른 하나는 평균보다 작으면 곱은 음수입니다. 이 곱을 평균 낸 값이 공분산입니다.

$$ \operatorname{Cov}(X,Y) = E[(X - E[X])(Y - E[Y])] $$

공분산의 부호는 다음처럼 읽습니다.

공분산이 양수이면 두 변수가 대체로 함께 커지거나 함께 작아진다.
공분산이 음수이면 한 변수가 커질 때 다른 변수는 작아지는 경향이 있다.
공분산이 0에 가까우면 선형적인 함께 움직임이 약하다고 본다.

다만 공분산의 크기는 단위에 영향을 받습니다. 점수와 시간으로 계산한 공분산과, 점수와 분으로 계산한 공분산은 숫자 크기가 달라질 수 있습니다. 그래서 비교가 필요할 때는 표준화한 상관계수를 씁니다. 하지만 공분산의 본질은 먼저 이해해야 합니다. 두 변수가 같은 방향으로 흔들리는가를 숫자로 만든 것입니다.

4. 기대값, 분산, 공분산은 함께 읽어야 한다

세 값은 서로 다른 질문에 답합니다.

기대값은 중심이 어디인가를 묻는다.
분산은 얼마나 퍼져 있는가를 묻는다.
공분산은 둘이 함께 움직이는가를 묻는다.

같은 평균을 가진 두 데이터라도 분산이 다를 수 있고, 같은 평균과 같은 분산을 가져도 두 변수의 관계는 공분산에 따라 달라질 수 있습니다. 그래서 실제 데이터 분석에서는 이 셋을 같이 봐야 분포의 모양을 더 잘 이해할 수 있습니다.

5. AI에서는 어디에 쓰일까

AI와 데이터 분석에서는 이 통계량들이 계속 등장합니다.

평균과 분산은 정규화에서 쓰입니다.
공분산은 변수들 사이의 함께 움직임을 요약할 때 쓰입니다.
PCA는 공분산 구조를 이용해 데이터가 가장 크게 퍼지는 방향을 찾습니다.
확률모형에서는 기대값이 예측의 중심값 역할을 자주 합니다.

결국 기대값, 분산, 공분산은 복잡한 데이터 구름을 몇 개의 숫자로 압축해서 읽게 해 주는 가장 기본적인 도구입니다.

예제

기대값 계산하기 문제: 동전을 한 번 던져 앞면이면 1, 뒷면이면 0인 확률변수 X가 있다. 앞면이 나올 확률이 0.7일 때 기대값을 구하라. 풀이: 각 값에 그 값이 나올 확률을 곱해 더한다.

$$ E[X] = 1 \cdot 0.7 + 0 \cdot 0.3 = 0.7 $$

해설: 기대값은 한 번의 결과가 아니라, 이 실험을 많이 반복했을 때 평균 성공값이 어디로 가는지를 나타낸다.

분산에서 제곱이 필요한 이유 설명하기 문제: 평균에서의 차이를 그냥 더하지 않고 제곱해서 더하는 이유를 설명하라. 풀이: 평균보다 큰 값에서 나온 양수와 평균보다 작은 값에서 나온 음수를 그대로 더하면 서로 상쇄된다. 제곱하면 모두 양수가 되어 퍼짐의 크기를 제대로 반영할 수 있다. 해설: 분산은 중심에서 얼마나 떨어져 있는지를 재는 값이므로, 부호보다 거리의 크기가 중요하다.
공분산의 부호 해석하기 문제: 공부시간이 길수록 시험점수가 높아지는 경향이 있다면 공분산의 부호는 대체로 무엇인가? 풀이: 공부시간이 평균보다 크면 점수도 평균보다 큰 경우가 많고, 공부시간이 평균보다 작으면 점수도 평균보다 작은 경우가 많다. 따라서 두 차이의 곱이 양수인 경우가 많아진다.

$$ (X - E[X])(Y - E[Y]) > 0 $$

해설: 공분산이 양수라는 것은 두 변수가 같은 방향으로 움직이는 경향이 있다는 뜻이다.

스스로 점검

연습 문제

기대값과 산술평균이 어떤 점에서 닮았고 어떤 점에서 다른지 설명하라.
분산이 큰 데이터와 작은 데이터의 차이를 말로 설명하라.
공분산이 양수, 음수, 0에 가까울 때를 각각 예를 들어 설명하라.
정규화나 PCA에서 평균, 분산, 공분산이 왜 필요한지 설명하라.

복습 질문

기대값은 분포의 어떤 면을 요약하는가?
분산은 왜 평균에서의 차이를 제곱해서 계산하는가?
공분산은 두 변수가 함께 움직이는지를 어떻게 표현하는가?

체크포인트

기대값, 분산, 공분산의 뜻을 각각 설명할 수 있다.
기대값이 가장 자주 나오는 값과 다를 수 있다는 점을 이해한다.
분산이 퍼짐의 크기를 나타내는 이유를 설명할 수 있다.
공분산의 부호를 보고 두 변수의 관계를 해석할 수 있다.