최적화 문제는 모두 같은 난이도를 가지지 않습니다. 어떤 함수는 바닥이 하나인 그릇처럼 생겨서 해를 찾기 쉽고, 어떤 함수는 울퉁불퉁해서 어디가 진짜 최저점인지 파악하기 어렵습니다. 볼록성은 이 문제의 모양을 구분하는 언어이고, 제약최적화와 라그랑주 승수법은 "아무 점이나"가 아니라 "조건을 만족하는 점들 중에서" 가장 좋은 점을 찾는 언어입니다.
먼저 알아둘 말
- 최적화: 어떤 목적함수를 가장 작게 하거나 가장 크게 만드는 문제다.
- 볼록집합: 집합 안의 두 점을 이은 선분이 항상 집합 안에 남는 집합이다.
- 볼록함수: 함수 그래프가 그릇처럼 생겨 지역최소가 전역최소가 되도록 하는 함수다.
- 제약조건: 해가 반드시 만족해야 하는 조건이다.
- 제약최적화: 제약조건을 만족하는 범위 안에서 최적점을 찾는 문제다.
- 라그랑주 승수: 목적함수와 제약조건을 하나의 식으로 묶기 위해 도입하는 보조 변수다.
이 강의에서 답할 질문
- 왜 볼록한 문제는 상대적으로 풀기 쉬울까?
- 제약이 붙으면 왜 최적화 문제의 성격이 달라질까?
- 라그랑주 승수법은 제약을 어떻게 계산 안으로 끌어올까?
먼저 떠올릴 장면
- 둥근 그릇 바닥에 구슬을 놓으면 결국 한 바닥점으로 굴러간다.
- 반대로 울퉁불퉁한 산지형에서는 구슬이 중간 웅덩이에 멈출 수 있다.
- 예산 제한, 자원 제한, 확률합이 1이어야 한다는 조건은 모두 자연스러운 제약이다.
즉 최적화는 단순히 미분계수를 0으로 만드는 계산이 아니라, 문제의 모양과 허용된 범위를 함께 보는 일입니다.
생각의 순서
- 먼저 문제의 모양을 구분하는 볼록성부터 본다.
- 그다음 조건이 붙으면 무엇이 달라지는지 본다.
- 마지막으로 라그랑주 승수법이 왜 작동하는지 직관부터 잡는다.
본문
1. 문제의 모양이 최적화 난이도를 바꾼다
최적화에서 가장 중요한 질문 중 하나는 "이 함수가 어떤 모양인가?"입니다. 모양이 좋으면 해를 찾기 쉽고, 모양이 나쁘면 지역적으로만 좋아 보이는 점에 멈출 수 있습니다.
볼록성은 바로 이 모양을 정리하는 개념입니다. 먼저 볼록집합부터 생각해 봅시다. 어떤 집합 안의 두 점을 잡았을 때, 그 두 점을 잇는 선분 전체가 집합 안에 머물면 그 집합을 볼록집합이라고 합니다.
이 성질이 중요한 이유는 최적화가 중간 경로를 따라 움직일 때도 허용 영역을 벗어나지 않게 해 주기 때문입니다.
2. 볼록함수는 지역최소와 전역최소가 어긋나지 않는다
이제 함수 쪽으로 넘어가 봅시다. 함수가 볼록하다는 것은 두 점의 중간을 볼 때 함수값이 지나치게 아래로 꺼지지 않는다는 뜻입니다.
$$ f(tx + (1-t)y) \le t f(x) + (1-t) f(y) $$
여기서
$$ 0 \le t \le 1 $$
입니다.
이 식은 추상적으로 보이지만, 직관은 단순합니다. 함수 그래프 위의 두 점을 이은 선분이 그래프보다 아래에 놓인다는 뜻입니다. 그래서 그래프가 그릇처럼 생깁니다.
이 모양이 중요한 이유는 지역최소와 전역최소가 일치하기 때문입니다.
- 지역최소: 근처에서만 가장 작은 점
- 전역최소: 전체 영역에서 가장 작은 점
일반 함수에서는 지역최소가 많을 수 있습니다. 하지만 볼록함수에서는 한 번 아래쪽으로 내려간 점이 전체에서도 가장 낮은 점이 됩니다. 그래서 볼록문제는 "좋은 해를 찾았는데 사실 더 깊은 곳이 숨어 있었다"는 위험이 훨씬 작습니다.
3. 이차함수는 볼록성의 가장 쉬운 예다
가장 익숙한 예는 이차함수입니다.
$$ f(x) = x^2 $$
이 함수는 아래로 열린 그릇 모양입니다. 최솟값은
$$ x = 0 $$
에서 하나만 생깁니다. 근처에서 제일 낮은 점을 찾으면 전체에서도 가장 낮은 점입니다.
그래서 머신러닝에서 자주 쓰이는 제곱오차나 여러 볼록 손실함수는 해석과 계산이 상대적으로 단순합니다.
4. 제약이 생기면 움직일 수 있는 공간이 줄어든다
현실의 문제는 보통 아무 점이나 허용하지 않습니다. 예산이 정해져 있을 수 있고, 확률의 합은 1이어야 할 수 있고, 어떤 변수는 음수가 될 수 없을 수 있습니다.
예를 들어 다음 문제를 생각해 봅시다.
$$ f(x,y) = x^2 + y^2 $$
를 최소화하되,
$$ x + y = 1 $$
을 만족해야 합니다.
제약이 없다면 원점이 최솟값입니다. 하지만 지금은
$$ x + y = 1 $$
이라는 직선 위에서만 움직일 수 있습니다. 즉 최적점은 함수 자체만 보고 정해지지 않고, 허용된 영역과 함께 정해집니다.
이것이 제약최적화입니다. 문제는 더 이상 "전체 공간에서 가장 낮은 점"을 찾는 것이 아니라, "허용된 공간 안에서 가장 낮은 점"을 찾는 것으로 바뀝니다.
5. 라그랑주 승수법은 제약을 식 안으로 끌어온다
제약이 있는 문제를 푸는 대표적인 방법이 라그랑주 승수법입니다. 핵심 생각은 제약을 따로 관리하지 말고, 목적함수와 한 식 안에 묶어 버리자는 것입니다.
제약이
$$ g(x) = 0 $$
형태라면, 라그랑지안은 다음처럼 씁니다.
$$ \mathcal{L}(x,\lambda) = f(x) + \lambda g(x) $$
여기서 람다는 라그랑주 승수입니다. 이 값은 제약을 얼마나 강하게 반영해야 하는지를 조절하는 보조 변수로 볼 수 있습니다.
이제 우리는 원래 문제를 바로 푸는 대신, 라그랑지안을 기준으로 다음 조건을 함께 봅니다.
$$ \nabla_x \mathcal{L} = 0 $$
그리고
$$ g(x) = 0 $$
을 동시에 만족해야 합니다.
6. 라그랑주 승수법의 직관은 기울기의 균형이다
라그랑주 승수법을 공식으로만 외우면 쉽게 잊어버립니다. 직관은 이렇습니다.
최적점에서는 마음대로 움직일 수 없습니다. 제약조건 위에서만 움직일 수 있기 때문입니다. 따라서 목적함수를 더 줄이고 싶어도, 제약이 허용하는 방향으로는 더 이상 내려갈 수 없는 지점이 생깁니다.
이때 목적함수의 기울기와 제약조건의 기울기가 서로 맞물리게 됩니다. 즉 제약면이 이동을 막는 방향과 목적함수가 내려가려는 방향이 균형을 이루는 점에서 해가 정해집니다.
그래서 라그랑주 승수법은 단순한 계산 꼼수가 아니라, "허용된 방향 안에서는 더 좋아질 수 없는 상태"를 식으로 표현한 것입니다.
7. AI에서는 왜 중요한가
AI와 머신러닝에서도 이 개념은 계속 등장합니다.
- 볼록성은 최적화가 얼마나 안정적으로 풀리는지 이해하게 해 준다.
- 제약최적화는 확률의 합이 1이어야 하는 문제나 자원 제한 문제에서 등장한다.
- 라그랑주 승수법은 제약이 있는 학습문제, dual formulation, 정규화 해석으로 이어진다.
즉 이 강의는 단순히 수학적 형식만 배우는 것이 아니라, "문제의 모양"과 "허용된 범위"가 학습을 어떻게 바꾸는지를 이해하는 단계입니다.
예제
- 볼록함수의 의미 읽기 문제: 함수
$$ f(x) = x^2 $$
가 왜 볼록하다고 말할 수 있는가? 풀이: 그래프가 아래로 열린 그릇 모양이어서 바닥이 하나만 있다. 근처에서 가장 작은 점이 전체에서도 가장 작다. 해설: 볼록성의 핵심은 "좋아 보이는 지역해가 사실 전체 최저점과 어긋나지 않는다"는 점이다.
- 제약이 문제를 바꾸는 이유 설명하기 문제: 함수
$$ f(x,y) = x^2 + y^2 $$
를 최소화할 때, 제약
$$ x + y = 1 $$
이 붙으면 왜 해가 달라지는가? 풀이: 제약이 없으면 원점으로 갈 수 있지만, 제약이 있으면 직선 위에서만 움직일 수 있다. 따라서 허용된 점들 중 가장 작은 값을 찾아야 한다. 해설: 제약최적화는 목적함수만이 아니라 허용된 영역까지 함께 보는 문제다.
- 라그랑주 승수법의 역할 설명하기 문제: 라그랑주 승수법은 왜 유용한가? 풀이: 제약을 목적함수와 하나의 식으로 묶어서, 제약이 있는 문제를 미분 가능한 형태로 다루게 해 주기 때문이다.
$$ \mathcal{L}(x,\lambda) = f(x) + \lambda g(x) $$
해설: 제약을 식 안으로 넣으면 "제약을 만족하는 최적점"을 계산 조건으로 바꿔 다룰 수 있다.
스스로 점검
연습 문제
- 볼록함수에서 지역최소와 전역최소가 왜 일치하는지 설명하라.
- 볼록집합이 무엇인지 그림 없이 말로 설명하라.
- 제약최적화가 필요한 현실 문제를 하나 들라.
- 라그랑주 승수법이 제약을 어떻게 처리하는지 설명하라.
복습 질문
- 볼록성은 최적화 난이도와 어떻게 연결되는가?
- 제약이 붙으면 왜 최적화 문제의 성격이 달라지는가?
- 라그랑주 승수는 어떤 역할을 하는가?
체크포인트
- 볼록성의 직관을 설명할 수 있다.
- 제약최적화의 의미를 설명할 수 있다.
- 라그랑지안의 기본 식을 읽을 수 있다.
- 기울기의 균형이라는 라그랑주 승수법의 직관을 설명할 수 있다.