데이터를 모았다고 해서 바로 결론을 내릴 수는 없습니다. 관측된 차이가 진짜 효과 때문인지, 아니면 우연한 흔들림 때문에 잠깐 나타난 것인지 구분해야 하기 때문입니다. 가설검정, 신뢰구간, 실험설계는 이 구분을 위한 세 가지 핵심 언어입니다.

먼저 알아둘 말

귀무가설: 기본적으로 유지해 보는 기준 가설이다.
대립가설: 우리가 관심을 가지는 다른 설명이다.
검정통계량: 데이터에서 계산한 요약값으로, 귀무가설과 얼마나 어긋나는지 재는 값이다.
p-value: 귀무가설이 맞다고 가정했을 때 지금처럼 극단적인 결과가 나올 정도를 나타내는 값이다.
유의수준: 어느 정도 작으면 귀무가설을 기각할지 미리 정한 기준이다.
신뢰구간: 모수가 있을 법한 범위를 데이터로 추정한 구간이다.
실험설계: 비교가 공정해지도록 데이터를 수집하는 방식 자체를 계획하는 일이다.

이 강의에서 답할 질문

왜 가설검정은 무언가를 증명하는 절차가 아니라 기각 여부를 판단하는 절차일까?
p-value는 정확히 무엇을 뜻하고, 무엇을 뜻하지 않을까?
왜 좋은 통계 해석보다 먼저 좋은 실험설계가 필요할까?

먼저 떠올릴 장면

새 약을 먹은 집단과 안 먹은 집단의 평균 차이가 보인다.
새 추천 알고리즘을 쓴 사용자 집단이 기존 알고리즘 집단보다 클릭률이 높아 보인다.
그런데 이런 차이가 정말 효과 때문인지, 우연히 그렇게 관측된 것인지 바로 단정할 수는 없다.

이때 우리는 "차이가 없다"는 기본 가정부터 세우고, 지금 데이터가 그 가정과 얼마나 맞지 않는지를 살펴봅니다.

생각의 순서

먼저 왜 귀무가설부터 세우는지 본다.
그다음 검정통계량과 p-value가 어떻게 이어지는지 본다.
이어서 신뢰구간이 왜 점 하나보다 더 많은 정보를 주는지 본다.
마지막으로 실험설계가 왜 전체 결론의 품질을 좌우하는지 본다.

본문

1. 가설검정은 기본 가정을 흔드는 절차다

가설검정은 어떤 주장을 완전히 증명하는 방식이 아닙니다. 오히려 먼저 보수적인 기본 가정을 세우고, 지금 데이터가 그 가정과 너무 어긋나는지를 보는 방식입니다.

예를 들어 새 모델과 기존 모델의 성능 차이가 없다고 가정할 수 있습니다. 이것이 귀무가설입니다. 그리고 새 모델이 더 좋다는 주장을 대립가설로 둡니다.

왜 이렇게 하느냐면, 통계는 관측 데이터에 우연한 흔들림이 섞여 있다는 사실을 항상 전제로 하기 때문입니다. 조금 차이가 보였다고 해서 곧바로 "진짜 효과가 있다"고 말하면 과장된 결론을 내릴 위험이 큽니다. 그래서 먼저 "원래 차이가 없다"고 두고, 그 가정 아래에서 지금 결과가 얼마나 이상한지를 따집니다.

즉 가설검정은 대립가설을 증명하는 도구가 아니라, 귀무가설을 유지하기 어렵다고 판단하는 절차입니다.

2. 검정통계량은 데이터의 차이를 숫자로 요약한다

실제 데이터는 복잡합니다. 평균 차이, 비율 차이, 분산 차이처럼 다양한 정보가 섞여 있습니다. 그래서 검정에서는 먼저 데이터를 하나의 숫자로 요약합니다. 이 값이 검정통계량입니다.

예를 들어 두 집단 평균의 차이를 볼 수도 있고, 두 비율의 차이를 볼 수도 있습니다. 중요한 것은 다음입니다.

귀무가설이 맞으면 검정통계량은 보통 너무 크지 않다.
귀무가설과 어긋나는 데이터일수록 검정통계량이 더 극단적인 값이 된다.

이렇게 데이터를 숫자로 요약해 놓아야, "지금 결과가 흔한 편인가 드문 편인가"를 계산할 수 있습니다.

3. p-value는 귀무가설 아래에서의 희귀성이다

p-value는 가장 자주 오해되는 개념입니다. 뜻을 정확히 잡아야 합니다.

p-value는 귀무가설이 참이라고 가정했을 때, 지금처럼 극단적이거나 그보다 더 극단적인 결과가 나올 정도를 나타내는 값입니다.

예를 들어 p-value가

$$ 0.01 $$

이라면, 귀무가설이 맞다는 가정 아래에서 지금 같은 결과가 꽤 드문 편이라는 뜻입니다.

그래서 p-value가 유의수준보다 작으면 귀무가설을 기각합니다. 예를 들어 유의수준이

$$ 0.05 $$

라면,

$$ p\text{-value} < 0.05 $$

일 때 "귀무가설을 그대로 유지하기 어렵다"고 판단합니다.

하지만 p-value는 다음 뜻이 아닙니다.

귀무가설이 참일 확률
대립가설이 맞을 확률
효과의 크기

이 점을 분명히 해야 합니다. p-value는 어디까지나 귀무가설 아래에서 데이터가 얼마나 드문가를 말할 뿐입니다.

4. 신뢰구간은 점 하나 대신 범위를 준다

가설검정은 기각 여부를 말해 주지만, 그 차이가 어느 정도 크고 얼마나 불확실한지는 충분히 보여 주지 못할 수 있습니다. 그래서 신뢰구간이 중요합니다.

신뢰구간은 모수가 있을 법한 범위를 제시합니다. 예를 들어 평균 차이에 대한 95퍼센트 신뢰구간이 있다면, 같은 절차로 표본을 많이 반복해서 뽑을 때 만들어진 구간들 중 약 95퍼센트가 참모수를 포함하게 된다는 뜻입니다.

핵심은 신뢰구간이 불확실성을 함께 보여 준다는 점입니다.

구간이 좁으면 추정이 비교적 정밀하다.
구간이 넓으면 아직 불확실성이 크다.

따라서 점추정값 하나만 보는 것보다 훨씬 많은 정보를 줍니다. 어떤 차이가 통계적으로 의미 있어 보여도, 구간이 너무 넓다면 실제 해석은 조심해야 합니다.

5. 실험설계가 나쁘면 검정도 무너진다

여기서 가장 중요한 사실이 나옵니다. 통계 검정은 실험설계가 제대로 되어 있을 때만 믿을 수 있습니다.

예를 들어 다음 문제가 있으면 결론이 쉽게 왜곡됩니다.

무작위 배정이 없다.
두 집단의 조건이 다르다.
표본 수가 너무 적다.
교란변수를 통제하지 못했다.
평가셋이 누수되었다.

이런 상황에서는 p-value를 아무리 정교하게 계산해도 비교 자체가 공정하지 않습니다. 즉 계산의 문제가 아니라 데이터 수집 방식의 문제입니다.

AI 실험에서도 똑같습니다. 학습 데이터가 다르거나, 랜덤 시드가 통제되지 않거나, 평가셋이 다르게 구성되면 모델 비교 결과는 신뢰하기 어렵습니다.

6. 세 개념은 함께 봐야 한다

가설검정, 신뢰구간, 실험설계는 따로 떨어진 주제가 아닙니다.

실험설계는 공정한 비교의 기반을 만든다.
가설검정은 우연한 흔들림인지 판단한다.
신뢰구간은 효과 크기와 불확실성을 함께 보여 준다.

좋은 결론은 이 셋이 함께 있을 때만 나옵니다. 설계가 좋지 않으면 검정도 무너지고, 검정만 보고 구간을 보지 않으면 해석이 거칠어집니다.

7. AI에서는 어떻게 쓰일까

AI와 서비스 실험에서는 이 개념들이 매우 자주 쓰입니다.

A/B 테스트에서 두 모델이나 두 UI의 차이를 비교한다.
오프라인 실험에서 성능 향상이 우연인지 확인한다.
신뢰구간으로 개선 폭의 불확실성을 함께 본다.
실험설계로 데이터 누수, 사용자 편향, 집단 불균형을 막는다.

결국 좋은 모델을 만드는 일은 단순히 점수를 높이는 것이 아니라, 그 점수 차이가 정말 믿을 만한 차이인지 확인하는 일까지 포함합니다.

예제

p-value 해석하기 문제: p-value가 0.01이라면 어떤 뜻인가? 풀이: 귀무가설이 참이라고 가정했을 때 지금처럼 극단적인 결과가 나올 정도가 약 1퍼센트라는 뜻이다.

$$ p\text{-value} = 0.01 $$

해설: 귀무가설이 참일 확률이 1퍼센트라는 뜻은 아니다.

신뢰구간이 필요한 이유 설명하기 문제: 왜 평균 차이의 점추정값만 보고 결론을 내리면 위험할 수 있는가? 풀이: 점 하나만 보면 불확실성의 크기를 볼 수 없다. 신뢰구간이 넓으면 추정이 아직 불안정할 수 있다. 해설: 구간 정보가 있어야 효과 크기와 정밀도를 함께 읽을 수 있다.
실험설계의 중요성 읽기 문제: A/B 테스트에서 무작위 배정이 왜 중요한가? 풀이: 두 집단의 차이가 원래 집단 특성 차이인지, 실제 처리 효과인지 구분하려면 출발 조건을 최대한 같게 만들어야 하기 때문이다. 해설: 설계가 잘못되면 이후의 검정 계산은 정확해도 결론은 왜곡될 수 있다.

스스로 점검

연습 문제

가설검정이 왜 대립가설의 증명이 아니라 귀무가설의 기각 여부 판단인지 설명하라.
p-value가 의미하는 것과 의미하지 않는 것을 각각 말하라.
신뢰구간이 점추정보다 더 많은 정보를 준다는 뜻을 설명하라.
실험설계가 나쁘면 왜 통계적 결론도 믿기 어려운지 설명하라.

복습 질문

귀무가설과 대립가설은 각각 어떤 역할을 하는가?
p-value는 어떤 희귀성을 나타내는가?
신뢰구간은 불확실성을 어떻게 드러내는가?
좋은 실험설계가 왜 선행되어야 하는가?

체크포인트

귀무가설, 대립가설, p-value의 뜻을 설명할 수 있다.
p-value에 대한 흔한 오해를 구분할 수 있다.
신뢰구간의 역할을 말할 수 있다.
실험설계가 통계 해석의 기반이라는 점을 이해한다.