9강에서 행렬을 공간을 바꾸는 규칙으로 읽었습니다. 이제 한 걸음 더 가면, 변환된 벡터들이 서로 얼마나 비슷한 방향을 보는지, 어떤 방향 성분만 남기고 싶은지, 정확히 맞는 해가 없을 때 무엇을 가장 좋은 해로 볼지 결정해야 합니다. 10강은 그 언어를 다룹니다. 직교성과 투영은 방향을 분리하는 방법이고, 최소제곱은 완벽한 해가 없을 때 가장 덜 틀린 해를 고르는 방법입니다.

먼저 알아둘 말

내적: 두 벡터가 얼마나 같은 방향을 보는지 재는 계산이다.
직교: 두 벡터가 서로 수직이라서 방향 성분을 공유하지 않는 상태다.
노름: 벡터의 길이다.
투영: 한 벡터를 다른 방향 위로 내려 찍어 그 방향 성분만 남기는 연산이다.
잔차: 예측값과 실제값 사이에 남는 오차 벡터다.
최소제곱: 잔차의 제곱합이 가장 작아지도록 해를 고르는 방법이다.
정규방정식: 최소제곱 해가 만족하는 방정식이다.

이 강의에서 답할 질문

내적은 왜 단순한 곱셈 규칙이 아니라 방향의 언어인가?
직교하다는 말은 왜 서로 영향을 주지 않는다는 뜻이 되는가?
투영은 왜 그림자처럼 설명하는가?
연립방정식이 정확히 안 풀릴 때 왜 최소제곱을 쓰는가?
최소제곱에서 왜

$$ A^TAx=A^Tb $$

가 나오는가?

먼저 떠올릴 장면

손전등을 한 방향에서 비추면 물체의 그림자는 그 방향 성분만 남습니다.
점들이 직선 위에 딱 놓이지 않더라도, 우리는 가장 잘 맞는 직선을 그리고 싶습니다.
데이터 분석에서는 정확한 해보다 오차가 가장 작은 해가 더 현실적인 경우가 많습니다.

생각의 순서

먼저 내적이 왜 방향의 언어인지 봅니다.
그다음 직교가 왜 서로 섞이지 않는 방향을 뜻하는지 봅니다.
이어서 투영이 한 방향 성분만 뽑아내는 계산임을 봅니다.
그다음 정확한 해가 없을 때 잔차를 최소화하는 최소제곱으로 넘어갑니다.
마지막으로 정규방정식과 선형회귀까지 연결합니다.

본문

벡터를 다룰 때는 단순히 좌표만 아는 것으로 충분하지 않습니다. 두 벡터가 비슷한 방향인지, 완전히 다른 방향인지, 어느 벡터가 어느 방향 성분을 얼마나 가지고 있는지도 알아야 합니다. 그때 쓰는 계산이 내적입니다.

2차원 벡터

$$ u= \begin{bmatrix} u_1 \ u_2 \end{bmatrix}, \qquad v= \begin{bmatrix} v_1 \ v_2 \end{bmatrix} $$

의 내적은

$$ u \cdot v = u_1v_1 + u_2v_2 $$

입니다.

겉으로 보면 좌표끼리 곱해서 더하는 계산처럼 보이지만, 뜻은 더 깊습니다. 같은 방향을 보는 성분은 내적을 크게 만들고, 반대 방향 성분은 내적을 작게 만듭니다. 그래서 내적은 두 벡터가 얼마나 같은 방향을 보는지를 재는 계산이라고 말합니다.

예를 들어

$$ \begin{bmatrix} 1 \ 0 \end{bmatrix} \cdot \begin{bmatrix} 5 \ 0 \end{bmatrix} =5 $$

이므로 완전히 같은 방향입니다. 반대로

$$ \begin{bmatrix} 1 \ 0 \end{bmatrix} \cdot \begin{bmatrix} 0 \ 3 \end{bmatrix} =0 $$

이면 첫 번째 벡터가 두 번째 벡터 방향 성분을 전혀 가지지 않는다는 뜻입니다.

그래서 내적이 0인 두 벡터를 직교한다고 합니다.

$$ u \cdot v = 0 $$

직교는 단순히 직각이다에서 끝나지 않습니다. 더 중요한 뜻은 서로의 방향 성분을 섞지 않는다는 점입니다. 그래서 직교한 방향들은 독립적으로 다룰 수 있습니다. x축과 y축을 따로 생각할 수 있는 것도 이 성질 덕분입니다.

이제 한 벡터가 다른 벡터 방향을 얼마나 가지고 있는지 알고 싶어집니다. 바로 이때 투영을 씁니다. 벡터

$$ v $$

를 벡터

$$ u $$

방향으로 정사영하면

$$ \operatorname{proj}_u(v)=\frac{v\cdot u}{u\cdot u}u $$

가 됩니다.

이 식을 천천히 읽으면 어렵지 않습니다.

분자

$$ v \cdot u $$

는 v가 u 방향을 얼마나 보고 있는지를 재는 값입니다.

분모

$$ u \cdot u $$

는 기준 벡터

$$ u $$

의 길이 정보를 담고 있습니다.

마지막으로

$$ u $$

를 곱해 다시 그 방향의 벡터로 만들어 줍니다.

즉 투영은 원래 벡터에서 보고 싶은 방향 성분만 남기는 계산입니다. 그래서 그림자라는 비유가 잘 맞습니다.

투영을 하고 나면 원래 벡터는 두 부분으로 나뉩니다.

$$ v=\operatorname{proj}_u(v)+r $$

여기서

$$ r $$

은 남은 부분이고,

$$ r \cdot u = 0 $$

을 만족합니다. 즉 잔여 벡터는 기준 방향

$$ u $$

와 직교합니다.

이제 이 생각을 연립방정식으로 옮겨 봅시다.

$$ Ax=b $$

라는 식은 보통 행렬 A의 열벡터들을 잘 섞어서 b를 정확히 만들 수 있는가를 묻는 문제입니다. 하지만 실제 데이터에서는 노이즈가 있어서

$$ b $$

가 열공간 위에 정확히 놓이지 않는 경우가 많습니다. 그러면 정확한 해가 없습니다.

이때 포기하는 대신, 가장 가까운 해를 찾습니다. 즉

$$ Ax $$

가

$$ b $$

에 최대한 가깝도록 만드는

$$ x $$

를 고릅니다.

이를 최소제곱 문제라고 하고 다음과 같이 씁니다.

$$ \min_x |Ax-b|^2 $$

왜 제곱을 쓰는가도 이유가 있습니다.

오차의 부호가 서로 상쇄되지 않게 하려고
큰 오차를 더 크게 벌주려고
미분하기 좋은 형태로 만들려고

즉 최소제곱은 단순한 계산 요령이 아니라, 오차를 안정적으로 측정하는 방법입니다.

기하적으로 보면, 우리는

$$ b $$

를 행렬

$$ A $$

의 열공간 위로 투영하고 있습니다. 최소제곱 해에서 예측값

$$ Ax $$

는 열공간 안에 있고, 오차 벡터

$$ r=b-Ax $$

는 열공간 전체에 직교합니다.

이 말은 특히 열공간의 각 열벡터와도 직교한다는 뜻이므로

$$ A^T(b-Ax)=0 $$

을 얻습니다.

이 식을 정리하면

$$ A^TAx=A^Tb $$

가 됩니다. 이것이 정규방정식입니다.

여기서 중요한 것은 식 자체보다 왜 이런 식이 나오는가입니다. 최소제곱 해는 잔차를 더 줄일 수 없는 점이고, 따라서 잔차가 열공간 방향으로는 더 이상 남아 있지 않아야 합니다. 그래서 잔차는 열공간과 직교합니다.

선형회귀는 바로 이 아이디어를 사용합니다. 점들이 하나의 직선 위에 완벽히 놓이지 않아도, 잔차 제곱합이 가장 작은 직선을 찾는 것이 선형회귀입니다. 결국 직교성과 투영은 기하 문제에만 쓰이는 개념이 아니라, 예측 모델을 만드는 실제 계산 원리입니다.

예제

같은 방향 성분이 없는지 확인하기 문제: 다음 두 벡터가 직교하는지 확인하라.

$$ u= \begin{bmatrix} 1 \ 2 \end{bmatrix}, \qquad v= \begin{bmatrix} 2 \ -1 \end{bmatrix} $$

풀이:

$$ u \cdot v = 1 \cdot 2 + 2 \cdot (-1) = 0 $$

해설: 내적이 0이면 두 벡터는 서로의 방향 성분을 갖지 않는다. 그래서 두 벡터는 직교한다.

한 방향 성분만 남기기 문제: 벡터

$$ v= \begin{bmatrix} 3 \ 1 \end{bmatrix} $$

를

$$ u= \begin{bmatrix} 1 \ 0 \end{bmatrix} $$

방향으로 정사영하라.

풀이:

$$ \operatorname{proj}_u(v)=\frac{v\cdot u}{u\cdot u}u =\frac{3}{1} \begin{bmatrix} 1 \ 0 \end{bmatrix} = \begin{bmatrix} 3 \ 0 \end{bmatrix} $$

해설: 원래 벡터에서 x축 방향 성분만 남고 y축 방향 성분은 사라졌다. 이것이 투영의 뜻이다.

최소제곱을 왜 푸는지 읽기 문제: 데이터 점들이 한 직선 위에 정확히 놓이지 않을 때 왜

$$ \min_x |Ax-b|^2 $$

를 푸는가?

풀이: 정확한 해

$$ Ax=b $$

가 없으므로, 예측값

$$ Ax $$

가 실제값

$$ b $$

에 가장 가깝도록 하는 해를 골라야 한다. 그래서 잔차

$$ b-Ax $$

의 길이 제곱을 최소화한다.

해설: 최소제곱은 정답이 없는 상황에서 가장 덜 틀린 답을 고르는 기준이다. 선형회귀와 데이터 피팅이 바로 이 생각을 사용한다.

스스로 점검

내적이 왜 방향의 언어인지 한 문장으로 설명할 수 있는가?
투영이 왜 그림자라는 비유로 설명되는지 이해했는가?
최소제곱에서 잔차가 왜 열공간과 직교해야 하는지 설명할 수 있는가?
정규방정식

$$ A^TAx=A^Tb $$

가 어떤 맥락에서 나오는지 말할 수 있는가?