콘텐츠로 이동

12강에서는 한 점에서의 변화율을 미분으로 읽었고, 13강에서는 여러 변수 함수도 작은 범위에서는 선형처럼 보인다는 것을 보았습니다. 15강은 그 생각을 더 밀고 갑니다. 복잡한 함수도 한 점 근처에서는 단순한 다항식으로 꽤 잘 흉내 낼 수 있습니다. 그 도구가 Taylor 전개입니다. 핵심은 함수를 완전히 바꾸는 것이 아니라, 전개점 근처에서 가장 다루기 쉬운 모양으로 번역하는 것입니다.

먼저 알아둘 말

  • 근사: 정확히 같지는 않지만 충분히 비슷하게 대신하는 것이다.
  • 전개점: 근사를 펼치는 기준점이다.
  • Taylor 전개: 함수의 값과 도함수들을 이용해 함수 근처를 다항식으로 나타내는 방법이다.
  • 1차 근사: 접선만 이용한 근사다.
  • 2차 근사: 곡률까지 반영한 근사다.
  • 오차항: 근사값과 실제 함수값 사이에 남는 차이다.
  • Hessian: 다변수 함수에서 2차 미분 정보를 모은 대상이다.

이 강의에서 답할 질문

  • 왜 한 점 근처에서는 복잡한 함수도 단순한 다항식으로 볼 수 있는가?
  • 1차 Taylor 근사는 왜 접선 근사라고 부르는가?
  • 2차 Taylor 근사는 1차 근사보다 무엇을 더 알려 주는가?
  • 전개점에서 멀어질수록 왜 근사가 나빠질 수 있는가?
  • Taylor 전개는 최적화와 수치계산에서 왜 유용한가?

먼저 떠올릴 장면

  • 곡선 도로도 아주 가까이서 보면 잠깐은 직선처럼 보입니다.
  • 언덕 한 점 근처에서는 현재 높이와 경사만 알면 주변 지형을 대충 설명할 수 있고, 굽은 정도까지 알면 더 정확해집니다.
  • 복잡한 손실함수도 현재 파라미터 주변에서는 더 단순한 식으로 바꾸어 볼 수 있습니다.

생각의 순서

  1. 먼저 가장 단순한 근사인 접선 근사를 봅니다.
  2. 그다음 곡률을 넣은 2차 근사를 봅니다.
  3. 이어서 일반적인 Taylor 전개 모양을 읽습니다.
  4. 그다음 왜 전개점 근처에서만 잘 맞는지 봅니다.
  5. 마지막으로 최적화와 수치계산에서 왜 중요한지 연결합니다.

본문

함수는 전체 구간에서는 복잡할 수 있습니다. 하지만 어떤 한 점 근처만 좁게 보면, 생각보다 단순한 식으로 잘 흉내 낼 수 있습니다. 가장 단순한 근사는 접선입니다.

함수

$$ f(x) $$

를 전개점

$$ a $$

근처에서 1차로 근사하면

$$ f(x)\approx f(a)+f'(a)(x-a) $$

입니다.

이 식은 외울 대상이 아니라 뜻으로 읽어야 합니다.

먼저

$$ f(a) $$

는 기준점에서의 높이입니다.

다음으로

$$ f'(a) $$

는 그 점에서의 기울기입니다.

마지막으로

$$ x-a $$

는 전개점에서 얼마나 떨어졌는지를 나타냅니다.

즉 1차 Taylor 근사는 현재 높이 + 기울기 × 이동량입니다. 그래서 접선 근사라고 부릅니다. 전개점 근처에서는 곡선이 잠깐 직선처럼 보이기 때문입니다.

하지만 실제 함수는 직선이 아니라 보통 굽어 있습니다. 그래서 접선만으로는 부족할 수 있습니다. 이때 곡률 정보까지 넣은 2차 Taylor 근사를 씁니다.

$$ f(x)\approx f(a)+f'(a)(x-a)+\frac{f''(a)}{2}(x-a)^2 $$

여기서

$$ f''(a) $$

는 함수가 얼마나 굽는지를 말해 줍니다. 따라서

  • 1차 근사는 기울기까지만 반영한 직선 근사
  • 2차 근사는 굽은 정도까지 반영한 포물선 근사

라고 읽을 수 있습니다.

예를 들어

$$ f(x)=x^2 $$

$$ a=1 $$

근처에서 1차로 근사해 봅시다.

$$ f(1)=1, \qquad f'(x)=2x, \qquad f'(1)=2 $$

이므로

$$ f(x)\approx 1+2(x-1) $$

입니다.

이 말은

$$ x=1 $$

근처에서는 원래 곡선

$$ x^2 $$

를 접선으로 대신해도 꽤 괜찮다는 뜻입니다.

또 다른 예로

$$ e^x $$

$$ a=0 $$

근처에서 2차까지 전개하면

$$ e^x \approx 1+x+\frac{x^2}{2} $$

가 됩니다.

이 식은 아주 중요합니다. 지수함수처럼 복잡해 보이는 함수도 원점 근처에서는 단순한 다항식처럼 계산할 수 있음을 보여 주기 때문입니다.

Taylor 전개의 일반적인 모습은

$$ f(x)\approx f(a)+f'(a)(x-a)+\frac{f''(a)}{2!}(x-a)^2+\frac{f^{(3)}(a)}{3!}(x-a)^3+\cdots $$

처럼 이어집니다.

즉 함수의 값, 기울기, 곡률, 그보다 더 높은 차수의 변화 정보까지 차례로 더해 가며 점점 더 정확한 근사를 만듭니다.

그런데 왜 항상 잘 맞는 것은 아닐까요. 이유는 이 근사가 전개점 근처에서 만들어졌기 때문입니다. 전개점에서 멀어질수록 높은 차수의 영향이 커지고, 잘라 버린 항들의 오차도 커집니다. 그래서 Taylor 전개는 전역적인 설명보다 국소적인 설명에 강합니다.

이 점이 오히려 장점이기도 합니다. 최적화는 항상 현재 점 근처에서 다음 한 걸음을 결정합니다. 그래서 로컬 근사가 매우 중요합니다. 1차 Taylor 근사는 gradient 기반 방법과 연결되고, 2차 Taylor 근사는 Hessian을 이용한 Newton류 방법과 연결됩니다.

다변수 함수에서도 생각은 같습니다. gradient는 1차 정보, Hessian은 2차 정보를 담습니다. 즉 Taylor 전개는 함수를 현재 점 근처에서 얼마나 단순하게 읽을 수 있는가를 보여 주는 기본 틀입니다.

결국 Taylor 전개는 복잡한 함수를 버리는 방법이 아니라, 지금 보고 있는 점 근처에서 가장 유용한 언어로 번역하는 방법입니다.

예제

  1. 1차 Taylor 근사 만들기 문제: 함수

$$ f(x)=x^2 $$

$$ a=1 $$

근처에서 1차로 근사하라.

풀이:

$$ f(1)=1, \qquad f'(x)=2x, \qquad f'(1)=2 $$

이므로

$$ f(x)\approx 1+2(x-1) $$

해설: 전개점

$$ x=1 $$

근처에서는 원래 곡선을 접선으로 바꾸어 읽는 것이다.

  1. 2차 Taylor 근사 만들기 문제: 함수

$$ e^x $$

$$ a=0 $$

근처에서 2차까지 전개하라.

풀이:

$$ f(0)=1, \qquad f'(0)=1, \qquad f''(0)=1 $$

이므로

$$ e^x \approx 1+x+\frac{x^2}{2} $$

해설: 상수항은 높이, 1차항은 기울기, 2차항은 곡률을 반영한다.

  1. 왜 전개점 근처에서만 잘 맞는지 설명하기 문제: Taylor 근사가 왜 전개점에서 멀어질수록 나빠질 수 있는가?

풀이: 근사식은 전개점에서의 도함수 정보만 사용해 만든 로컬 모델이기 때문이다. 멀어질수록 잘라 낸 높은 차수 항들의 영향이 커진다.

해설: Taylor 전개는 전역적인 복사본이 아니라, 현재 점 근처의 확대 지도라고 생각하면 된다.

스스로 점검

  1. 1차 Taylor 근사가 왜 접선 근사인지 설명할 수 있는가?
  2. 2차 Taylor 근사에서 두 번째 미분이 어떤 정보를 담는지 설명할 수 있는가?
  3. 전개점이 왜 중요한지 말할 수 있는가?
  4. Taylor 전개가 왜 전개점 근처에서만 잘 맞는지 설명할 수 있는가?
  5. 1차 정보와 2차 정보가 최적화에서 어떻게 다르게 쓰이는지 말할 수 있는가?