현실 데이터는 겉으로는 매우 고차원처럼 보이지만, 실제로는 몇 개의 중요한 변화축으로 요약되는 경우가 많습니다. 얼굴 이미지는 픽셀 수가 엄청나지만 실제 변화는 밝기, 표정, 방향 같은 몇 가지 요인으로 설명될 수 있습니다. PCA는 이 중요한 축을 찾는 가장 기본적인 차원축소 방법이고, 잠재공간은 데이터를 더 단순한 숨은 좌표계로 표현하려는 더 넓은 생각입니다.

먼저 알아둘 말

차원축소: 데이터를 더 적은 수의 축으로 요약하는 과정이다.
주성분: 데이터 분산이 가장 큰 방향이다.
PCA: 분산을 최대한 보존하는 축을 찾아 데이터를 낮은 차원으로 옮기는 방법이다.
투영: 데이터를 어떤 축 위로 내리는 연산이다.
잠재공간: 관측 데이터 뒤에 있다고 가정하는 더 단순한 숨은 표현 공간이다.

이 강의에서 답할 질문

왜 많은 데이터는 차원을 줄여도 핵심 구조가 남을 수 있을까?
PCA는 어떤 기준으로 좋은 축을 고를까?
잠재공간이라는 생각은 왜 표현학습과 생성모델에 중요한가?

먼저 떠올릴 장면

얼굴 이미지는 픽셀이 많지만 실제로는 몇 가지 공통 변화만 크게 일어날 수 있다.
시험 점수 여러 과목도 전체 능력과 몇 개의 세부 능력 축으로 정리할 수 있을지 모른다.
고차원 데이터를 2차원이나 3차원으로 줄이면 시각화와 분석이 쉬워진다.

즉 이 강의의 핵심은 "겉보기 차원"과 "실제 중요한 차원"이 다를 수 있다는 점입니다.

생각의 순서

먼저 왜 차원을 줄일 수 있는지 직관부터 본다.
그다음 PCA가 어떤 방향을 중요하다고 보는지 본다.
이어서 공분산행렬과 주성분의 연결을 본다.
마지막으로 잠재공간 개념으로 확장한다.

본문

1. 데이터는 종종 몇 개의 중요한 방향에 모여 있다

데이터가 고차원에 있다는 말은 좌표축이 많다는 뜻이지, 실제 정보가 그 축들을 다 똑같이 쓰고 있다는 뜻은 아닙니다.

예를 들어 3차원 공간의 점들이 사실상 한 평면 근처에만 몰려 있다면, 완전한 3차원 데이터처럼 보여도 실질적으로는 2차원 구조에 가깝습니다. 마찬가지로 아주 높은 차원의 데이터도 실제로는 몇 개의 중요한 방향으로만 크게 변할 수 있습니다.

이럴 때 차원축소가 가능해집니다. 핵심은 중요하지 않은 방향을 버리고도, 중요한 구조를 최대한 남기는 것입니다.

2. PCA는 가장 많이 변하는 방향을 찾는다

PCA의 기본 생각은 단순합니다. 데이터가 가장 넓게 퍼져 있는 방향이 가장 많은 정보를 담고 있을 가능성이 크다고 보는 것입니다.

왜 그럴까요? 한 방향으로 데이터가 거의 변하지 않는다면 그 축은 구분에 큰 도움이 되지 않을 수 있습니다. 반대로 어떤 방향으로 데이터가 크게 퍼져 있다면, 그 축이 데이터의 중요한 차이를 담고 있을 가능성이 큽니다.

그래서 PCA는 분산이 가장 큰 방향부터 찾습니다. 이 첫 번째 방향이 첫 번째 주성분입니다.

그다음에는 첫 번째 주성분과 겹치지 않으면서, 남은 분산을 가장 많이 설명하는 두 번째 방향을 찾습니다. 이런 식으로 중요한 축들을 차례대로 고릅니다.

3. 평균 중심화가 먼저 필요한 이유

PCA를 하기 전에 보통 데이터를 평균 중심화합니다. 즉 각 변수에서 평균을 빼서 데이터의 중심이 원점 근처로 오게 만듭니다.

이 과정이 필요한 이유는 PCA가 "분산"을 보기 때문입니다. 평균이 크게 치우쳐 있으면, 데이터의 실제 퍼짐보다 위치 정보가 더 크게 보일 수 있습니다. 평균 중심화를 하면 "어디에 있느냐"보다 "어떻게 퍼져 있느냐"에 집중할 수 있습니다.

즉 PCA는 중심화된 데이터의 변화 방향을 보는 방법입니다.

4. 공분산행렬은 어떤 방향으로 함께 변하는지를 담는다

데이터를 평균 중심화한 뒤 공분산행렬을 만들면, 변수들이 어떤 방향으로 함께 변하는지 정리할 수 있습니다.

공분산행렬의 고유벡터를 구하면 주성분 방향이 나오고, 그에 대응하는 고유값은 그 방향의 분산 크기를 나타냅니다.

$$ \Sigma v = \lambda v $$

여기서

$$ \Sigma $$

는 공분산행렬이고,

$$ v $$

는 방향이며,

$$ \lambda $$

는 그 방향의 분산 크기입니다.

즉 큰 고유값을 가진 방향일수록 데이터가 많이 퍼져 있는 중요한 방향입니다.

5. PCA는 투영을 통해 차원을 줄인다

중요한 주성분 몇 개를 찾았다면, 원래 데이터를 그 축들 위로 투영할 수 있습니다. 이렇게 하면 원래보다 더 낮은 차원의 좌표로 데이터를 표현할 수 있습니다.

이 과정에서 일부 정보는 잃게 됩니다. 하지만 분산이 작은 방향을 버린다면, 핵심 구조는 비교적 잘 남길 수 있습니다.

그래서 PCA는 다음과 같은 목적에 자주 쓰입니다.

시각화
노이즈 제거
데이터 압축
후속 학습 전의 표현 단순화

즉 PCA는 "모든 정보를 보존하는 것"이 아니라, "중요한 정보를 최대한 보존하면서 단순하게 만드는 것"에 가깝습니다.

6. 잠재공간은 PCA를 더 일반화한 생각이다

잠재공간은 관측 데이터 뒤에 더 단순한 숨은 좌표가 있다고 보는 생각입니다. 즉 우리가 보는 복잡한 데이터 x 뒤에, 더 간단한 표현 z가 있다고 가정하는 것입니다.

이때 z는 사람이 직접 관측하는 값이 아니라, 데이터를 설명하기 위해 도입하는 숨은 표현입니다.

PCA는 이 잠재공간 개념의 가장 선형적인 형태라고 볼 수 있습니다.

관측 데이터는 고차원이다.
중요한 구조는 더 적은 차원에 있다.
그 적은 차원의 좌표로 데이터를 다시 표현할 수 있다.

즉 PCA는 "숨은 좌표로 옮긴다"는 생각을 가장 단순한 방식으로 구현한 예입니다.

7. 표현학습과 생성모델로 왜 이어질까

잠재공간 개념은 이후의 오토인코더, VAE, 생성모델로 이어집니다. 이런 모델들은 복잡한 이미지, 텍스트, 음성 데이터를 더 낮고 구조적인 공간에 담으려 합니다.

그 이유는 분명합니다.

더 단순한 공간에서 구조를 보기 쉽다.
생성이나 보간이 쉬워질 수 있다.
중요한 요인을 분리해서 다루기 쉬워질 수 있다.

즉 잠재공간은 단지 차원을 줄이는 기술이 아니라, 데이터를 더 잘 이해하고 조작하기 위한 표현학습의 핵심 아이디어입니다.

8. AI에서는 왜 중요한가

PCA는 매우 오래된 방법이지만, AI에서 여전히 중요한 기준점입니다.

차원축소가 무엇인지 가장 명확하게 보여 준다.
공분산, 고유벡터, 투영 개념이 한 번에 연결된다.
잠재공간 학습의 가장 기본적인 예를 제공한다.

그래서 PCA를 이해하면 이후의 복잡한 표현학습 모델을 읽을 때도 "무엇을 보존하고, 무엇을 버리며, 어떤 숨은 좌표를 배우는가"를 더 명확하게 볼 수 있습니다.

예제

첫 번째 주성분의 의미 설명하기 문제: 첫 번째 주성분은 무엇을 뜻하는가? 풀이: 데이터가 가장 크게 퍼져 있는 방향이다. 해설: 가장 많은 변화를 설명하는 축이라고 볼 수 있다.
차원축소의 직관 설명하기 문제: 왜 첫 두 개 주성분만 남겨도 데이터 구조를 꽤 잘 볼 수 있는 경우가 있는가? 풀이: 중요한 변화가 몇 개의 큰 분산 방향에 집중되어 있다면, 나머지 작은 분산 방향을 버려도 핵심 구조는 크게 유지될 수 있기 때문이다. 해설: PCA는 모든 축을 동등하게 보지 않고, 정보가 많이 담긴 축을 우선시한다.
잠재공간의 의미 설명하기 문제: 잠재공간은 무엇을 위한 개념인가? 풀이: 복잡한 관측 데이터를 더 단순하고 구조적인 숨은 좌표로 표현하기 위한 개념이다. 해설: 표현학습과 생성모델의 핵심 아이디어가 바로 이 잠재공간에 있다.

스스로 점검

연습 문제

왜 고차원 데이터라도 차원을 줄일 수 있는지 설명하라.
PCA가 분산을 기준으로 축을 고르는 이유를 설명하라.
공분산행렬의 고유벡터가 왜 주성분과 연결되는지 설명하라.
PCA와 잠재공간 개념이 어떻게 이어지는지 설명하라.

복습 질문

PCA는 무엇을 최대한 보존하려 하는가?
주성분은 어떻게 정해지는가?
잠재공간은 관측공간과 어떻게 다른가?

체크포인트

PCA의 기본 직관을 설명할 수 있다.
공분산행렬, 고유벡터, 주성분의 연결을 이해한다.
차원축소와 투영의 의미를 설명할 수 있다.
PCA를 잠재공간 학습의 출발점으로 볼 수 있다.