최신 AI 논문은 한 가지 수학만으로 읽히지 않는 경우가 많습니다. 분포를 옮기는 문제, 관계를 다루는 문제, 휘어진 공간을 다루는 문제, 모델 내부 회로를 해석하는 문제가 한 논문 안에 함께 등장하기도 합니다. 그래서 이 마지막 강의의 목표는 개별 기법을 전부 끝내는 것이 아니라, 새로운 주제를 읽을 때 어떤 질문 순서로 접근해야 하는지 몸에 익히는 것입니다.
먼저 알아둘 말
- optimal transport: 한 분포의 질량을 다른 분포로 옮기는 최소 비용 문제다.
- graph: 노드와 간선으로 관계를 표현하는 구조다.
- manifold: 국소적으로는 평평하지만 전체적으로는 휘어진 공간이다.
- mechanistic interpretability: 모델 내부 계산을 회로나 알고리즘처럼 이해하려는 연구다.
- appendix: 본문 뒤에 붙는 추가 유도, 실험 세부, 구현 조건이다.
- notation table: 논문에서 기호 의미를 한곳에 정리해 두는 표나 메모다.
- objective: 논문이 최소화하거나 최대화하려는 목표식이다.
- assumption: 논문이 성립하기 위해 미리 두는 가정이다.
이 강의에서 답할 질문
- 최신 논문에서 왜 서로 다른 수학 주제가 함께 나오는가?
- optimal transport, graph, manifold는 각각 어떤 상황에서 등장하는가?
- mechanistic interpretability는 어떤 질문을 던지는가?
- 낯선 논문을 읽을 때 어디서부터 읽어야 하는가?
먼저 떠올릴 장면
- 처음 보는 논문을 펼쳤는데 수식과 약어가 빽빽하게 나와 있습니다.
- 이때 수식을 한 줄씩 처음부터 끝까지 번역하려 들면 바로 막히기 쉽습니다.
- 대신 "이 논문은 무엇을 바꾸려 하는가, 데이터는 무엇인가, 손실은 어느 방향으로 움직이는가"를 먼저 잡아야 합니다.
생각의 순서
- 먼저 논문의 문제와 목표를 한 문장으로 요약합니다.
- 그다음 데이터 타입과 변수 종류를 분리해 적습니다.
- 등장한 수학 주제가 어떤 역할로 들어왔는지 확인합니다.
- 이후 objective와 가정이 무엇인지 봅니다.
- 마지막으로 appendix와 구현 조건까지 내려가 재현 가능성을 점검합니다.
본문
최신 논문을 읽을 때 가장 먼저 버려야 할 생각은 "모든 수식을 한 번에 완전히 이해해야 한다"는 압박입니다. 실제로는 먼저 논문이 무엇을 해결하려는지, 어떤 데이터와 어떤 목표식을 다루는지부터 잡는 편이 훨씬 중요합니다. 수학 도구는 그 목표를 달성하기 위해 중간에 선택된 장치일 뿐입니다.
그래서 첫 번째 질문은 항상 이것입니다. "이 논문은 무엇을 더 잘하게 만들려 하는가?" 생성 품질을 높이려는지, 도메인 차이를 줄이려는지, 그래프 관계를 쓰려는지, 모델 내부를 해석하려는지 먼저 한 문장으로 적어야 합니다. 이 문장을 못 적으면 뒤의 수식도 방향 없이 읽게 됩니다.
그다음은 데이터와 변수의 역할을 분리하는 단계입니다. 새로운 기호가 나오면 먼저 이것이 데이터인지, 파라미터인지, 분포인지, 손실 항인지 적습니다. 특히 입력이 벡터인지 그래프인지, 이미지인지 시퀀스인지부터 분명히 해야 수학 도구가 왜 선택되었는지 이해할 수 있습니다.
optimal transport는 두 분포를 얼마나 "잘 맞출 수 있는지"를 이동 비용 관점에서 보는 수학입니다. 예를 들어 생성모델이나 도메인 적응에서는 한 분포를 다른 분포에 가깝게 맞추는 문제가 자주 나타납니다. 핵심 식은 보통 다음처럼 적힙니다.
$$ W(P, Q) = \inf_{\pi \in \Pi(P, Q)} \mathbb{E}_{(x,y)\sim \pi}[c(x,y)] $$
처음 읽을 때는 이 식 전체를 외우기보다 "두 분포를 연결하는 여러 방법 중 평균 이동 비용이 가장 작은 것을 찾는다"는 뜻만 먼저 잡으면 충분합니다. 논문에서 optimal transport가 나오면 "이 논문은 어떤 두 분포를 맞추려 하는가?"를 먼저 물어야 합니다.
graph는 데이터가 독립된 점들의 집합이 아니라 관계망일 때 등장합니다. 사람과 사람의 연결, 분자 원자 간 결합, 웹 페이지 링크 구조처럼 "누가 누구와 연결되는가"가 중요할 때는 벡터만으로는 충분하지 않습니다. 이때 graph neural network 같은 구조가 필요해집니다. 논문에서 graph가 나오면 "노드가 무엇이고, 간선이 무엇이며, 관계 정보가 예측에 왜 중요한가?"를 먼저 써 보는 것이 좋습니다.
manifold는 고차원 데이터가 실제로는 더 낮은 차원의 구조 위에 놓여 있다는 생각입니다. 예를 들어 얼굴 이미지는 픽셀 차원으로 보면 매우 크지만, 실제 변화 요인은 조명, 자세, 표정처럼 훨씬 적을 수 있습니다. 논문에서 manifold가 등장하면 "이 데이터가 사실은 어떤 더 단순한 구조 위에 놓여 있다고 보는가?"를 먼저 질문해야 합니다.
mechanistic interpretability는 모델을 블랙박스로 두지 않고, 내부 뉴런과 attention head, 회로가 실제로 어떤 계산을 하는지 밝히려는 연구입니다. 이 분야의 질문은 보통 "이 모듈이 어떤 기능을 수행하는가?" 또는 "특정 출력이 내부 어떤 경로를 통해 나왔는가?"입니다. 성능 향상 자체보다 내부 메커니즘 설명에 더 가까운 연구라고 보면 됩니다.
이 네 주제는 서로 다르지만, 논문 독해에서의 접근법은 같습니다. 먼저 문제를 요약하고, 그다음 데이터와 변수의 역할을 적고, 그 뒤에 objective를 봅니다. objective에서는 무엇을 최소화하는지, 각 항이 무엇을 벌점 또는 보상하는지, 어떤 가정 위에서 식이 세워졌는지를 확인해야 합니다.
마지막으로 appendix와 구현 조건을 봐야 합니다. 본문만 읽으면 큰 아이디어는 이해할 수 있어도, 세부 유도, 하이퍼파라미터, 실험 설정, 데이터 전처리, 학습 안정화 조건은 놓치기 쉽습니다. 실제로 재현하거나 응용하려면 appendix 확인이 필수입니다.
즉 이 강의의 목표는 frontier topic을 전부 마스터하는 것이 아닙니다. 낯선 수학이 나와도 멈추지 않고, 문제 정의, 데이터 구조, 변수 역할, objective, 구현 조건의 순서로 읽어 내려갈 수 있게 만드는 것입니다. 최신 논문 독해력은 결국 지식의 양만이 아니라 읽는 순서의 문제이기도 합니다.
예제
-
손실식을 읽는 첫 질문 문제: 새로운 논문에서 긴 손실식이 나오면 무엇부터 확인해야 하는가? 풀이: 무엇을 최소화하거나 최대화하는지, 각 기호가 데이터인지 파라미터인지, 각 항이 어떤 역할을 하는지부터 본다. 해설: 식을 암기하기보다 역할로 해석해야 전체 구조를 잃지 않는다.
-
manifold가 등장하는 이유 문제: 데이터가 manifold 위에 있다고 말하는 이유는 무엇인가? 풀이: 겉보기 차원은 크지만 실제 변화 요인은 더 적다고 보기 때문이다. 해설: 고차원 관측 뒤에 더 단순한 구조가 있다는 가정을 표현하는 말이다.
-
appendix를 보는 이유 문제: 논문 본문만 읽고 끝내면 놓치기 쉬운 것은 무엇인가? 풀이: 세부 유도, 하이퍼파라미터, 실험 설정, 구현 조건을 놓치기 쉽다. 해설: 재현성과 실제 적용 가능성을 보려면 appendix 확인이 필수다.
스스로 점검
연습 문제
- optimal transport를 자연어로 설명하라.
- graph가 필요한 데이터의 예를 들어 보라.
- manifold라는 생각이 왜 유용한지 설명하라.
- mechanistic interpretability가 어떤 질문을 다루는지 설명하라.
- 새로운 논문을 읽을 때의 기본 순서를 정리하라.
복습 질문
- frontier topic 논문에서 가장 먼저 확인해야 하는 것은 무엇인가?
- 낯선 수식이 나왔을 때 어떤 역할 구분부터 해야 하는가?
- appendix를 왜 반드시 봐야 하는가?
체크포인트
- optimal transport, graph, manifold의 등장 맥락을 설명할 수 있다.
- mechanistic interpretability의 연구 질문을 이해한다.
- 논문 독해의 기본 순서를 말할 수 있다.
- 낯선 수식 앞에서 멈추지 않고 역할 중심으로 읽을 수 있다.