콘텐츠로 이동

선형회귀는 연속값을 예측할 때는 자연스럽지만, 분류 문제에서는 곧바로 쓰기 어렵습니다. 이유는 간단합니다. 분류에서는 출력이 단순한 점수 하나가 아니라 확률처럼 해석되어야 하기 때문입니다. 로지스틱 회귀는 선형점수를 확률로 바꾸는 가장 기본적인 분류 모델이고, 지수족은 이런 모델이 왜 통계적으로 자연스러운지를 보여 주는 더 큰 틀입니다.

먼저 알아둘 말

  • 로지스틱 회귀: 입력의 선형결합을 시그모이드 함수로 변환해 클래스 확률을 예측하는 모델이다.
  • 시그모이드: 모든 실수를 0과 1 사이 값으로 바꾸는 함수다.
  • 오즈: 어떤 사건이 일어날 확률과 일어나지 않을 확률의 비다.
  • logit: 오즈에 로그를 취한 값이다.
  • 지수족: 여러 확률분포를 공통된 지수 함수 형태로 묶어 보는 틀이다.

이 강의에서 답할 질문

  • 왜 분류 문제에서는 선형점수만으로는 부족할까?
  • 시그모이드는 선형결합을 어떻게 확률로 바꿀까?
  • 로지스틱 회귀가 베르누이분포와 자연스럽게 연결되는 이유는 무엇일까?

먼저 떠올릴 장면

  • 이메일이 스팸인지 아닌지를 예측할 때, 단순히 점수가 아니라 "스팸일 확률"이 필요할 수 있다.
  • 어떤 입력은 양성 클래스일 가능성이 매우 높고, 어떤 입력은 거의 없으며, 어떤 입력은 반반일 수 있다.
  • 서로 다른 확률분포들이 겉으로는 달라 보여도 비슷한 수학 구조를 가질 수 있다.

즉 이 강의의 핵심은 "선형점수"를 "확률적 해석"으로 바꾸는 것입니다.

생각의 순서

  • 먼저 왜 선형회귀를 분류에 그대로 쓰기 어려운지 본다.
  • 그다음 시그모이드와 로지스틱 회귀를 본다.
  • 이어서 logit 해석을 본다.
  • 마지막으로 로지스틱 회귀가 지수족 안에서 어떻게 이해되는지 본다.

본문

1. 분류 문제에서는 출력이 확률처럼 읽혀야 한다

선형회귀는 다음처럼 예측합니다.

$$ \hat{y} = w^T x + b $$

이 식은 연속값을 예측할 때는 괜찮습니다. 하지만 이진 분류에서는 문제가 있습니다. 오른쪽 값은 아무 실수나 될 수 있는데, 확률은

$$ 0 $$

$$ 1 $$

사이에 있어야 하기 때문입니다.

즉 분류에서는 단순히 점수를 만드는 것만으로는 부족합니다. 그 점수를 확률처럼 읽을 수 있는 값으로 바꾸는 과정이 필요합니다.

2. 로지스틱 회귀는 먼저 선형점수를 만든다

로지스틱 회귀도 출발은 선형회귀와 비슷합니다. 먼저 입력으로부터 선형점수를 계산합니다.

$$ z = w^T x + b $$

이 값은 아직 확률이 아닙니다. 다만 분류의 신호로 해석할 수는 있습니다.

  • z가 크면 양성 클래스 쪽 신호가 강하다.
  • z가 작으면 음성 클래스 쪽 신호가 강하다.
  • z가 0에 가까우면 둘 사이가 애매하다.

이제 이 선형점수를 확률 범위로 옮겨야 합니다.

3. 시그모이드는 실수를 확률 구간으로 보낸다

시그모이드 함수는 다음과 같습니다.

$$ \sigma(z) = \frac{1}{1 + e^{-z}} $$

이 함수는 아무 실수나 입력받아 항상 0과 1 사이 값을 출력합니다. 그래서 확률로 해석하기 좋습니다.

로지스틱 회귀에서는 양성 클래스 확률을 이렇게 둡니다.

$$ P(y=1 \mid x) = \sigma(w^T x + b) $$

이 식의 의미는 직관적입니다.

  • 선형점수가 매우 크면 확률은 1에 가까워진다.
  • 선형점수가 매우 작으면 확률은 0에 가까워진다.
  • 선형점수가 0이면 확률은 0.5가 된다.

즉 로지스틱 회귀는 선형 경계를 유지하면서도 출력을 확률로 읽을 수 있게 만든 모델입니다.

4. logit을 쓰면 선형구조가 더 또렷하게 보인다

로지스틱 회귀의 중요한 해석은 확률 자체보다 오즈를 보는 것입니다.

오즈는 다음처럼 씁니다.

$$ \frac{p}{1-p} $$

여기서 p는 양성 클래스 확률입니다.

이 오즈에 로그를 취한 값이 logit입니다.

$$ \log \frac{p}{1-p} $$

로지스틱 회귀에서는 이 값이 선형결합과 같아집니다.

$$ \log \frac{p}{1-p} = w^T x + b $$

이 식은 매우 중요합니다. 확률 자체는 비선형이지만, logit 공간에서는 입력의 선형함수로 표현된다는 뜻이기 때문입니다. 그래서 로지스틱 회귀는 확률모형이면서도 선형모형의 해석력을 어느 정도 유지합니다.

5. 로지스틱 회귀는 베르누이분포와 연결된다

이진 분류의 출력은 0 아니면 1입니다. 따라서 각 데이터의 출력은 베르누이분포로 모델링할 수 있습니다.

즉 어떤 입력 x가 주어졌을 때

$$ y \in {0,1} $$

이고, 그 확률은

$$ P(y=1 \mid x) = p $$

처럼 생각할 수 있습니다.

로지스틱 회귀는 바로 이 p를 입력 x의 함수로 만든 것입니다. 즉 "입력에 따라 달라지는 베르누이 성공확률"을 모델링하는 방식이라고 볼 수 있습니다.

그래서 로지스틱 회귀는 단순한 분류 알고리즘이 아니라, 확률모형과 선형모형이 만나는 아주 중요한 사례입니다.

6. 지수족은 여러 분포의 공통 구조를 보여 준다

지수족은 많은 확률분포를 하나의 공통 형태로 묶어 줍니다. 일반적인 형태는 다음과 같습니다.

$$ p(x \mid \eta) = h(x)\exp\big(\eta^T T(x) - A(\eta)\big) $$

겉보기에는 추상적이지만, 핵심은 이렇습니다.

  • 여러 분포가 서로 완전히 다른 것처럼 보여도
  • 사실은 공통된 수학 구조를 공유할 수 있다

베르누이분포, 포아송분포, 가우시안분포 등이 이 틀 안에서 이해됩니다. 그래서 개별 분포를 따로 외우기보다, 큰 구조를 이해하면 모델링과 추정 원리를 더 통일적으로 볼 수 있습니다.

7. 로지스틱 회귀는 지수족 위의 자연스러운 사례다

로지스틱 회귀가 중요한 이유 중 하나는, 출력이 베르누이분포이고 베르누이분포가 지수족에 속하기 때문입니다.

즉 로지스틱 회귀는 그냥 우연히 잘 작동하는 함수 조합이 아니라, 지수족 분포와 선형예측자를 연결한 통계적으로 자연스러운 모델입니다.

그래서 이 강의는 뒤의 일반화선형모형, 확률적 분류, 신경망 출력층 해석으로 자연스럽게 이어집니다.

8. AI에서는 왜 중요한가

로지스틱 회귀는 단순한 이진분류 모델이지만, 현대 AI를 이해하는 데 여러 중요한 힌트를 줍니다.

  • 선형점수에서 확률 출력을 만드는 구조
  • 분류에서 로그손실이 자연스럽게 나오는 구조
  • 확률모형과 최적화가 결합되는 구조

신경망의 마지막 출력층이 시그모이드나 소프트맥스를 쓰는 이유를 이해할 때도, 로지스틱 회귀는 가장 기본적인 기준점이 됩니다.

예제

  1. 시그모이드 값 읽기 문제: 선형점수가

$$ z = 0 $$

일 때 시그모이드 값은 얼마인가? 풀이:

$$ \sigma(0) = \frac{1}{1+e^0} = \frac{1}{2} $$

해설: 경계에 있는 점은 양성 클래스와 음성 클래스가 반반으로 해석된다.

  1. 선형점수와 확률 해석하기 문제: 선형점수 z가 매우 크면 양성 클래스 확률은 어떻게 되는가? 풀이: 시그모이드 값이 1에 가까워진다. 해설: 큰 양수 점수는 양성 클래스 쪽으로 강한 신호를 준다는 뜻이다.

  2. 지수족의 역할 설명하기 문제: 지수족이 왜 유용한가? 풀이: 서로 다른 분포를 하나의 공통 수학 형태로 묶어 모델링과 추정 원리를 통일적으로 설명할 수 있기 때문이다. 해설: 개별 분포를 각각 외우기보다, 공통 구조를 통해 더 큰 그림을 볼 수 있다.

스스로 점검

연습 문제

  1. 선형회귀를 분류 문제에 그대로 쓰기 어려운 이유를 설명하라.
  2. 시그모이드 함수가 왜 필요한지 설명하라.
  3. logit이 선형결합과 연결된다는 말의 의미를 설명하라.
  4. 베르누이분포와 로지스틱 회귀의 관계를 설명하라.

복습 질문

  1. 로지스틱 회귀는 어떤 문제를 풀기 위해 등장하는가?
  2. 선형점수는 어떻게 확률로 바뀌는가?
  3. 지수족은 어떤 공통 구조를 제공하는가?

체크포인트

  1. 로지스틱 회귀의 기본 식을 읽을 수 있다.
  2. 시그모이드와 확률 출력의 관계를 이해한다.
  3. logit의 의미를 설명할 수 있다.
  4. 로지스틱 회귀가 베르누이분포와 지수족에 연결된다는 점을 이해한다.