jm-sens.log

[계산이론] 튜링 머신

Tue, 10 Feb 2026 07:49:43 GMT

Turing Machine, Language, Grammar, 그리고 계산 불가능한 문제(Undecidability)에 대한 핵심 개념을 정리한다.

천마신교(天魔神敎) 세미나 | 2025.12.3
Presenter : 최재현(doctor3390@snu.ac.kr)

1. 기본 정의 (Language & Grammar)

Language (언어)

정의: 알파벳 $\Sigma$로 이루어진 String(문자열)들의 집합이다.
예시: ${0^n 1^n : n \ge 1}$, ${a^{n^2} : n \ge 1}$ 등.

Grammar (문법)

언어를 생성하는 규칙 체계로, 4-tuple로 정의된다.

$$G = (V, \Sigma, S, P)$$

$V$ (Variables): 변수 집합.
$\Sigma$ (Terminals): String을 구성하는 알파벳.
$S$ (Start Variable): 시작 변수.
$P$ (Productions): 생성 규칙.

Context-free Grammar (CFG, 문맥 무관 문법)

모든 생성 규칙의 형태가 $A \rightarrow (\Sigma \cup V)^*$ 꼴을 갖는다.
특징: 좌변에는 오직 문자(변수) 1개만 올 수 있다. 즉, 문맥(앞뒤 사정)을 보지 않고 변환한다.

예제: ${ 0^n 1^n : n \ge 1 }$ 생성하기

이 언어를 생성하는 문법 $G = (V, \Sigma, S, P)$를 정의에 맞춰 작성하면 다음과 같다.

$V$: ${ S }$
- 변수(Non-terminal)는 $S$ 하나만 사용한다.
$\Sigma$: ${ 0, 1 }$
- 실제 언어를 구성하는 알파벳은 0과 1이다.
$S$: $S$
- $S$에서 생성을 시작한다.
$P$:
- $S \rightarrow 0S1$ (재귀: 0과 1을 양쪽에 하나씩 계속 붙여 나감)
- $S \rightarrow 01$ (종료: 가장 안쪽의 최소 단위 01을 만들고 끝냄)

생성 과정 예시 (000111 만들기): $S \Rightarrow 0S1 \Rightarrow 00S11 \Rightarrow 00\mathbf{01}11$ (종료 규칙 적용)

Context-Sensitive Grammar (CSG)는 자연어 처리 등 복잡한 문맥 검사가 필요할 때 쓰이지만, 이를 분석(파싱)하는 데 시간이 너무 오래 걸리거나(지수 시간) 효율적인 알고리즘을 만들기 어렵다는 단점이 있다.

반면, CFG (Context-Free Grammar)는 Stack을 이용해서 프로그래밍의 핵심인 중첩 구조(Nesting)를 표현할 수 있는 마지노선이자, O($n^3$) 혹은 O(n) 수준으로 파싱을 효율적으로 할 수 있는 알고리즘이 존재한다. 때문에 C, Java, Python 등 대부분의 프로그래밍 언어는 CFG를 기반으로 만들어진다.

하지만 CFG라도 $$E \to E + E \mid \text{int}$$ 처럼 작성하면 동일한 수식에 대해 연산 순서가 다른 두 개 이상의 파스 트리가 생길 수 있다. 이를 Ambiguous Grammar라고 한다. 이렇게 되면 컴퓨터가 코드를 실행할 때 의미를 확정할 수 없으므로, 프로그래밍 언어는 반드시 Unambiguous CFG로 정의되어야 한다.

보다 자세한 이야기는 오토마타 및 촘스키 위계(Chomsky Hierarchy), 컴파일러 등에서 다룬다.

2. 튜링 머신 (Turing Machine)

튜링 머신은 테이프(Tape), 헤드(Head), 상태(State)를 가진 계산 모델이다.

Formal Definition

수학적으로 튜링 머신 $M$은 다음과 같은 7-튜플(7-tuple)로 정의된다.

$$M = (Q, \Sigma, \Gamma, \delta, q_0, B, F)$$

$Q$: 상태들의 유한 집합 (Finite set of states)
- 기계가 가질 수 있는 모든 상태 (예: 시작, 진행 중, 완료 등)
$\Sigma$: 입력 알파벳 (Input alphabet)
- 초기 테이프에 적혀 있는 문자들의 집합 (Blank 제외)
$\Gamma$: 테이프 알파벳 (Tape alphabet)
- 테이프에 쓸 수 있는 모든 기호 ($\Sigma \subset \Gamma$, Blank 포함)
$\delta$: 전이 함수 (Transition function)
- $Q \times \Gamma \rightarrow Q \times \Gamma \times {L, R}$
- "현재 상태에서 어떤 문자를 읽었을 때 $\rightarrow$ 다음 상태로 가고, 문자를 쓰고, 헤드를 이동(L/R)하라"는 규칙
$q_0$: 시작 상태 (Start state, $q_0 \in Q$)
$B$: 공백 기호 (Blank symbol, $B \in \Gamma - \Sigma$)
- 입력이 없는 빈 칸을 나타내는 기호
$F$: 수락 상태 집합 (Set of accepting states, $F \subseteq Q$)

TM의 동작 원리

입력($w$)이 들어왔을 때, 전이 함수 $\delta$에 따라 다음을 수행한다.

Write: 현재 위치에 기호를 쓴다.
Move: 헤드를 왼쪽($\leftarrow$)이나 오른쪽($\rightarrow$)으로 이동하거나 머무른다(Stay).
State: 상태를 변경한다.

TM이 정의하는 언어의 종류

가장 헷갈리기 쉬운 개념이므로 명확히 구분해야 한다.

1) 재귀 열거 언어 (Recursively Enumerable, RE)

정의: TM이 인식(Recognize)하는 언어.
언어에 속하는 문자열($w \in L$)에 대해서는 반드시 정지(Halt)하고 Yes를 뱉는다.
주의: 언어에 속하지 않는 문자열($w \notin L$)에 대해서는 무한 루프(Loop)를 돌 수도 있다. 즉, No라고 답하지 않고 영원히 돌 수 있다.

2) 재귀 언어 (Recursive Language)

정의: TM이 결정(Decide)하는 언어.
모든 입력에 대해 무조건 정지(Halt)해야 한다.
언어에 속하면 Yes, 속하지 않으면 No 상태로 가서 멈춘다.
Church-Turing 명제: "재귀 언어 = 컴퓨터로 계산(해결) 가능한 문제"라고 정의한다.

정리:

$L$과 $\bar{L}$(보수)이 모두 재귀 열거(RE)라면, $L$은 재귀(Recursive) 언어이다.

즉, Yes일 때도 멈추고 No일 때도 멈추는 기계를 각각 만들 수 있다면, 둘을 합쳐서 완벽한 판별기를 만들 수 있다.

참고로 재귀 언어이면 당연히 재귀 열거 언어이다.

3. 계산 불가능성 (Undecidability)

튜링 머신으로도 풀 수 없는 문제들이 존재한다. 가장 유명한 것이 Halting Problem이다. 그밖에도 Post 대응 문제, Rice's Theorem 등이 계산 불가능함이 증명되어 있다.

1) 정지 문제 (Halting Problem)

문제: 임의의 TM $M$과 입력 $w$가 주어졌을 때, "$M$이 $w$를 입력받아 정지할 것인가?"를 결정하는 문제.
언어 정의: $L_u = { \langle M, w \rangle : w \in L(M) }$.
결론: 이 문제는 계산 불가(Undecidable)이다. 즉, $L_u$는 재귀 언어가 아니다.

증명: 대각선 논법 (Diagonalization Method)

이 증명은 실수의 집합이 자연수의 집합보다 크다는 것을 증명한 '칸토어의 대각선 논법'을 응용한 것이다.

1. Setup 모든 튜링 머신(TM)은 이진 문자열로 인코딩할 수 있으므로, 세상에 존재하는 모든 TM을 $M_1, M_2, M_3, \dots$와 같이 순서대로 나열할 수 있다. (가산 집합) 입력값 역시 $w_1, w_2, w_3, \dots$로 나열할 수 있다.

이제 모든 TM과 모든 입력에 대한 정지 여부를 표(Table)로 만들어 보자. ($H$는 정지하면 Accept(A), 정지하지 않으면 Loop(L)라고 판정한다고 가정)

기계 \ 입력	$\langle M_1 \rangle$	$\langle M_2 \rangle$	$\langle M_3 \rangle$	$\langle M_4 \rangle$	$\dots$
$M_1$	A	A	L	A	$\dots$
$M_2$	L	L	L	A	$\dots$
$M_3$	A	A	A	L	$\dots$
$M_4$	L	L	A	L	$\dots$
$\vdots$	$\vdots$	$\vdots$	$\vdots$	$\vdots$	$\ddots$

위 표에서 대각선 성분(밑줄 친 부분)은 기계 $M_i$에게 자기 자신의 코드 $\langle M_i \rangle$를 입력했을 때의 결과($M_i(\langle M_i \rangle)$)를 나타낸다.

2. The Diagonal Killer 이제 대각선에 있는 값들을 뒤집어서(Flip) 행동하는 새로운 기계 $D$를 정의한다.

대각선이 A (Accept)이면 $\rightarrow$ $D$는 L (Loop)
대각선이 L (Loop)이면 $\rightarrow$ $D$는 A (Accept)

즉, $D$의 동작은 다음과 같다. $$ D(\langle M_i \rangle) = \begin{cases} \text{Loop}, & \text{if } M_i(\langle M_i \rangle) \text{ halts (Accept)} \ \text{Accept}, & \text{if } M_i(\langle M_i \rangle) \text{ loops (Loop)} \end{cases} $$

3. Contradiction 만약 정지 문제를 판별할 수 있다면, 이 기계 $D$도 분명히 튜링 머신이므로 위 표의 어딘가(행)에 존재해야 한다. $D$가 표의 $k$번째 줄($M_k$)에 있다고 가정해 보자. ($D = M_k$)

이제 $D$에게 자기 자신($\langle D \rangle$)을 입력으로 주면 무슨 일이 생길까? (표의 $k$행 $k$열)

만약 $D$가 정지한다면(Accept)?
- 정의에 따라 대각선 값을 뒤집어야 하므로 $D$는 무한 루프(Loop)를 돌아야 한다. $\rightarrow$ 모순!
만약 $D$가 무한 루프라면(Loop)?
- 정의에 따라 대각선 값을 뒤집어야 하므로 $D$는 정지(Accept)해야 한다. $\rightarrow$ 모순!

4. 결론 기계 $D$는 표 안의 어떤 행($M_k$)과도 일치할 수 없다. (적어도 대각선 위치에서는 값이 다르기 때문) 하지만 우리는 처음에 "모든 튜링 머신을 나열했다"고 가정했다. 따라서 $D$ 같은 기계를 만들어내는 전제 조건, 즉 "정지 문제를 판별하는 기계 $H$가 존재한다"는 가정이 틀렸다.

2) 포스트 대응 문제 (Post Correspondence Problem, PCP)

문제: 위/아래가 다른 문자열로 된 타일들이 주어졌을 때 ($u_1/v_1, \dots, u_n/v_n$), 타일들을 잘 배열해서 위쪽 문자열 합과 아래쪽 문자열 합이 같게 만들 수 있는가?
결론: 이 문제는 계산 불가이다.

3) Context-free Grammar(CFG) 관련 불가능한 문제들

다음 문제들은 튜링 머신으로 결정할 수 없다 (Undecidable).

두 CFG $G_1, G_2$에 대해 교집합이 공집합인가? ($L(G_1) \cap L(G_2) = \emptyset?$)
CFG $G$가 팰린드롬(Palindrome)인 문자열을 포함하는가?
CFG $G$가 모든 문자열을 생성하는가? ($L(G) = \Sigma^*$?)

4) 라이스 정리 (Rice's Theorem)

정지 문제가 "프로그램이 멈출지 알 수 없다"는 것이었다면, 라이스 정리는 이를 일반화하여 "프로그램의 행동(Semantic)에 관한 그 어떤 질문도 결정할 수 없다"는 강력한 정리이다.

정리: 튜링 머신이 인식하는 언어 $L(M)$에 대해, 비자명한(Non-trivial) 성질 $P$를 판별하는 문제는 결정 불가능(Undecidable)하다.

의미 분석

비자명한 성질(Non-trivial):
- 모든 튜링 머신이 다 가지고 있거나(All), 아무도 가지고 있지 않은(None) 뻔한 성질이 아닌 것.
- 즉, "어떤 프로그램은 만족하고, 어떤 프로그램은 만족하지 않는" 유의미한 특징들.
문법 vs 행동:
- "코드에 if문이 있는가?" 같은 코드 자체(문법)에 대한 검사는 가능하다.
- 하지만 "이 코드가 hello를 출력하는가?" 같은 실행 결과(행동)에 대한 검사는 불가능하다.

현실 세계에 주는 시사점 (무결성 검증의 한계)

이 정리는 소프트웨어 공학적으로 매우 중요한 절망적인(?) 사실을 알려준다.

완벽한 버그 검사기(Verifier)는 불가능하다.
- "이 프로그램이 버그 없이 명세서대로 완벽하게 동작하는가?"를 자동으로 판별하는 프로그램은 존재할 수 없다.
- 따라서 우리는 정적 분석, 테스트 코드, QA 등 보조적인 수단을 쓸 뿐, 수학적으로 완벽한 검증은 불가능하다.
완벽한 악성코드 탐지기(Antivirus)는 불가능하다.
- "이 프로그램이 바이러스(악성 행위)인가?"를 결정하는 것 역시 행동에 관한 문제이므로 불가능하다.
- 백신 프로그램들이 특정 패턴(Signature)을 검사하는 방식에 의존하는 이유가 바로 이것이다.

결론: 우리는 프로그램의 소스 코드만 보고 그 프로그램이 런타임에 정확히 어떤 행동을 할지 완벽하게 예측하는 알고리즘을 만들 수 없다.

튜링머신이 탄생하게 된 역사적 맥락이나 motivation에 대한 인사이트는 아래 포스트를 참고 https://velog.io/@jm-sens/Fundamentals-of-ECE-1

천마신교(天魔神敎)
김현준 (doctor3390@snu.ac.kr)
김희민 (heemin0924@snu.ac.kr)
박정민 (1348jungmin@snu.ac.kr)
최재현 (kmnops0920@snu.ac.kr)

Fundamentals of ECE (1) 수학에 대한 고찰과 알고리즘의 탄생

Fri, 06 Feb 2026 13:43:27 GMT

"The Trinity of Modern Computing"

내가 생각하는 전기·정보공학(ECE)의 GOAT 3명. 앨런 튜링, 클로드 섀넌, 폰 노이만. 이들은 현대 컴퓨팅의 삼위일체와도 같다. 그중 튜링에 대해 알아보자

Turing Machine & Semiconductor Devices pt 2.

천마신교(天魔神敎) 세미나 | 2025.12.3, 2026.1.26
Presenter : 최재현(doctor3390@snu.ac.kr), 박정민(1348jungmin@snu.ac.kr)

수학은 발명인가, 발견인가?

수학이라는 것이 도대체 무엇인지는 상당히 흥미롭다.

예컨대 삼각형의 세 각의 합이 $180^\circ$라는 사실은 이미 자연에 존재하고 있는 것처럼 보인다. 우리는 단지 그러한 사실을 ‘발견’해 낸 것이다. 하지만 점과 직선, 길이, 각도, 심지어 자연수 $1$조차도 그것이 물리적인 실체로 자연에 존재하는 것은 아니다. 다만 그러한 개념들은 우리의 상상 속에서만 존재하는 추상적 창작물이다. 그러한 관점에서 수학은 인간이 ‘발명’해 낸 것이다.

자연수는 인간이 가장 직관적으로 생각해 낼 수 있는 수학적 개념이라고 할 수 있다. 사과 1개, 사과 2개와 대응되는 개념이며, 이를 이용한 덧셈, 곱셈 등의 산술 연산은 실제 우리의 경험과 잘 맞아떨어진다.

하지만 $0$은 이보다는 조금 더 추상적인 개념일지 모른다. 음수 역시 그러하다.

내가 애정하는 이영민 교수님의 말씀에 의하면, 최초의 수포자가 탄생하는 지점은 "음수 곱하기 음수가 양수" 라는 것을 배우는 시점이라고 한다... 교수님께서는 수업 중 학생들에게 한 명씩 "왜 음수 곱하기 음수가 양수인지"를 물어보셨다. 다들 저마다 설명하려고 애썼으나 명확하게 왜인지 설명할 수 있는 사람은 아무도 없었다. 교수님은 실수의 순서 공리(Order Axiom of $\mathbb{R}$)를 이용해 증명을 마치시고는 이렇게 덧붙이셨다.

"결국 음수 곱하기 음수가 양수인 이유는 너네가 그냥 외운 것이다."

수학은 기본적으로 엄밀함을 추구한다. 그 기저에는 데카르트적 합리주의가 깃들어 있는 듯하다. 말하자면 절대 반박할 수 없는 공리들로부터 시작하여 쌓아 올린 아주 엄밀한 주춧돌만이 나중에 전체 지식의 탑을 무너뜨리지 않는다는 믿음이다. 그리고 수학은 이러한 '무모순성'이라는, 어찌 보면 강력하고 어찌 보면 아주 약한 규율만을 갖고 있기에 매우 자유롭다. 수학은 무모순성 안에서 모든 것을 허용한다.

이런 것을 보면 수학은 자연과는 동떨어진 인간 지성의 지적 유희와도 같다는 생각이 든다.

비합리적 효율성

여기가 가장 흥미로운 부분인데, 순수한 지적 유희로 보이는 수학이 자연을 기술하는 데 너무나 효율적인 언어라는 점이다. 이것이 Eugene Wigner가 말하는 "자연과학에서 수학의 비합리적 유효성(The Unreasonable Effectiveness of Mathematics in the Natural Sciences)"이다.

'지수'라는 것은 그저 연속되는 곱하기 기호를 생략하기 위해서 만들어졌을 것이다. $$ 2^3 := 2 \times 2 \times 2 $$ 고등학교 때 이 지수 위에 유리수를 넣고 확장을 시작한다. 거듭제곱근으로 정의하면 기존의 지수법칙들이 잘 성립한다는 것을 확인한다. $$ 2^{\frac{2}{3}} := \sqrt[3]{2^2} $$ 그리고 이를 실수로까지 확장한다. 즉, 지수함수($y=a^x$)의 탄생이다. 나중에는 지수에 복소수는 물론이거니와, 심지어는 행렬까지 올라가는 기이한(?) 식들을 만나게 된다. 익숙한 개념을 추상화를 통해 좀더 일반적인 것으로 만드는 것이 수학자들의 지적유희 중 하나인 것으로 보인다.

하지만 놀랍게도 방사성 동위원소의 농도를 포함한 실제 수많은 자연 현상은 이 지수함수를 따른다.

이러한 예시는 한두 개가 아니라 클리셰와도 같다. 리만 기하학이 나중에 아인슈타인의 일반 상대성이론과 들어맞는 모습은 전형적인 예시이다. 심지어 오비탈의 에너지 준위가 리만 제타 함수($\zeta(s)$)와 닮아있는 것 또한 유명한 글로벌 떡밥이다.

특히 복소수가 그러하다.

내가 처음 복소수에 대한 의문을 가진 것은 공학수학 1에서 미분방정식을 풀 때 복소수를 이용하는 과정에서였다. 2계 미분방정식(예를 들어 RLC 회로 해석이나 감쇠 진동)을 푸는 과정에서 해는 복소수의 형태($e^{i\omega t}$)로 나오게 되고, 우리는 물리적 의미를 찾기 위해 이것의 실수 성분만을 취한다.

그렇다면 해의 허수부가 의미하는 것은 무엇인가가 내 의문이었다.

옛날 사람들은 이차방정식을 풀 때 음의 근이 포함된 경우 이를 무시하고 양의 근만 참된 근이라고 여겼다고 한다. 즉, "복소수는 도대체 무엇인가" 하는 의문 자체가 중요하지 않을 수도 있다는 것이다. 사실 음수도, 엄밀히 말하면 자연수도 현실에 물리적으로 존재하는 것은 아니다. 수학이라는 것은 우리가 지적 유희를 통해 정립한 언어이자 체계일 뿐이고, 이것이 우리가 사는 자연 세계를 설명할 때 소름 돋도록 잘 맞아떨어질 뿐인 것이다. 비슷한 논리로 회로이론을 공부할 때 역시 임피던스($Z = R + jX$), 복소 전압($\tilde{V}$) 등 우리는 그저 수학적 ‘도구’로서 복소수를 사용한다.

다만 정말 놀라운 부분은 양자역학이다. 양자역학의 파동함수($\Psi$)는 실수함수가 아니라 바로 복소함수다. 그전까지 복소 저항(임피던스)이라는 것이 실제로 존재하는 것이 아니라 그저 계산의 편의를 위해 잠깐 도입한 도구였다면, 이것은 차원이 다른 문제다. 우리가 사는 세계의 근간인 파동함수가 실제로 복소수로 이루어져 있다는 것은 쉽게 받아들이기 어렵다.

괜히 오일러 공식이 세상에서 가장 아름다운 공식인 것이 아니다. 그 속에는 우주의 진리가 담겨있는 듯 하다.

$$ e^{i\pi} + 1 = 0 $$

300년 전 칸트가 이러한 혼란에 대해 아주 중요한 고찰을 한 바 있다. 인간에게는 자연을 인식하기 위한 선험적 형식이 존재하고, 바로 이것을 밝혀내는 것이 수학의 본질이라는 것이다.

힐베르트 프로그램: 완벽을 꿈꾸다

이쯤에서 이러한 엄밀함을 추구하는 수학 정신의 정점을 찍으려던 시도를 소개할 필요가 있다. 그리고 놀랍게도, 그 과정에서 현대적인 컴퓨터가 탄생하게 되었다.

바로 힐베르트 프로그램(Hilbert's Program)이다. 이는 수학을 인간의 직관이 아닌, 완벽한 기호(Symbol)와 규칙(Rule)의 시스템으로 재정립하려는 시도였다.

"Wir müssen wissen. Wir werden wissen." (우리는 알아야만 한다. 우리는 알게 될 것이다.)

힐베르트는 다음 세 가지를 수학에서 완성하고자 했다.

완전성 (Completeness): 시스템 내의 모든 '참'인 명제는 증명 가능해야 한다.
무모순성 (Consistency): 시스템 내부에서 모순($A$이자 동시에 $\text{not } A$)이 발생해선 안 된다.
결정가능성 (Decidability): 명제의 참/거짓을 판별하는 기계적인 절차(알고리즘)가 존재해야 한다.

만약 이것이 실현된다면, 우리는 더 이상 난제 앞에서 고민할 필요가 없어진다. 어떠한 난제든 이 기계적인 절차에 넣기만 하면 '참' 혹은 '거짓'이라는 판결을 얻을 수 있게 될 것이기 때문이다.

즉, 힐베르트는 인간의 '직관'과 같은 애매모호하고 거친 현실과 결별하고, 오직 완벽한 논리 위에 서 있는 공고한 낙원을 건설하고자 했던 것이다.

괴델과 튜링: 확실성의 붕괴와 컴퓨터의 탄생

이 너무나도 아름다운 시스템은 괴델에 의해 완전히 박살 나게 된다.

• Kurt Gödel (1931)

제1 불완전성 정리 (The First Incompleteness Theorem): 모순이 없는 공리 체계 안에는 '참(True)'이면서도 '증명할 수 없는(Unprovable)' 명제가 반드시 존재한다. 수학(논리)은 모든 진실을 담아낼 수 없다. 즉, 수학은 불완전하다.
제2 불완전성 정리 (The Second Incompleteness Theorem): 공리 체계 안에서는 그 체계 자체가 모순이 없다는 것을 증명할 수 없다. 시스템은 스스로의 정당성을 스스로 입증할 수 없다. (이를 증명하려면 외부의 상위 시스템이 필요하다.)

즉, 힐베르트 프로그램의 1, 2번을 박살 내버린 것. 남은 것은 3번. '결정 가능성'의 문제였다.

• Alan Turing (1936)

당시엔 기계적 절차(Algorithm)가 무엇인지 아무도 명확히 정의하지 못했다. 튜링은 이를 정의하기 위해 인간을 관찰했다.

Modeling the Human Computer: 수학 문제를 푸는 인간(Computer)을 관찰.
- 인간은 종이(Tape)에 기호를 쓰고 지운다.
- 뇌의 상태(State)는 유한하다.
- 규칙(Rule)에 따라 한 칸씩 움직인다.
Abstraction: 이를 튜링 머신(Turing Machine)이라는 가상의 장치로 추상화함.
Definition: *"알고리즘이란, 튜링 머신이 수행할 수 있는 모든 작업이다."*

그리고 튜링은 힐베르트의 마지막 희망을 확인사살한다.

The Halting Problem (정지 문제): The Limit of Computation 튜링은 '어떤 프로그램이 영원히 돌지, 아니면 언젠가 멈출지'를 판별하는 알고리즘은 존재할 수 없음을 증명했다. 즉, 결정 불가능한 문제가 존재하므로 "만능 기계적 절차(Decision procedure)는 없다."

이는 훗날 어떤 프로그램도 다른 프로그램의 완벽한 무결성을 실행 전에 미리 보장할 수 없다는 '라이스 정리(Rice's Theorem)'로 확장된다. 이는 우리가 코딩 테스트를 볼 때, 채점 프로그램이 내 코드를 쓱 훑어보고 정답 여부를 판단하지 못하는 근본적인 이유이기도 하다. 완벽한 검증은 불가능하기에, 우리는 여전히 '테스트 케이스'를 하나하나 대입해보는 방식을 쓰고 있는 것이다.

이로써 힐베르트 프로그램은 완전히 종결되었다.

괴델과 튜링의 증명 과정은 칸토어가 실수 집합의 비가산성을 증명할 때 사용한 대각선 논법($|\mathbb{R}| > |\mathbb{Z}|$)과 구조적으로 동일하다. 힐베르트는 생전 '아무도 칸토어가 창조한 낙원에서 우리를 쫓아낼 수 없다'라며 칸토어의 집합론을 옹호했고, 그 위에 수학의 완벽한 성을 쌓으려 했다.

하지만 아이러니하게도 그 성을 무너뜨린 무기는 바로 칸토어가 남긴 유산이었다. 힐베르트는 자신이 가장 사랑했던 칸토어의 정신에 의해, 자신의 꿈이 무너지는 것을 지켜봐야 했다.

하지만, 그 과정에서 보편 만능 기계(Universal Turing Machine)의 설계도가 완성되었다. 수학의 완전함을 증명하려던 시도가 실패함으로써, 오히려 현대 문명을 지탱하는 컴퓨터라는 부산물을 낳은 것이다.

튜링 이전의 기계는 하드웨어 그 자체가 곧 기능이었다. 계산기는 계산만, 타자기는 타이핑만 할 수 있는 것이다. 하지만 튜링 머신은 기계 본체(Head & State Register)는 단순히 테이프를 읽고 쓰는 단순 작업만 수행한다. 대신, 그 테이프에 '어떤 규칙'을 적어 넣느냐에 따라 이 기계는 미분 방정식을 풀 수도 있고, 암호를 해독할 수도 있다.

즉, 적절한 테이프(Software)만 주어진다면, 하나의 기계로 세상의 모든 계산 가능한 문제를 해결할 수 있다.

튜링이 진정한 GOAT인 이유는 그가 상아탑에 갇힌 수학자가 아니었기 때문이다. 그는 '알고리즘'이라는 소프트웨어적 개념을 창시하고 그 논리적 한계(정지 문제)까지 명확히 규명했다. 동시에 그는 전쟁이라는 가혹한 현실 속에서 독일군의 암호(Enigma)를 해독하는 기계를 직접 설계해낸 탁월한 엔지니어였다.

심지어 그는 컴퓨터가 막 태동하던 그 시기에 이미 '기계가 생각할 수 있는가?'라는 질문을 던지며, 오늘날의 인공지능(AI) 개념과 튜링 테스트를 제안하기까지 했다. 그는 진정으로 시대를 앞서간 설계자였다.

튜링머신에 대해 보다 깊은 이야기는 아래 포스트를 참고 https://velog.io/@jm-sens/Turing-Machine

다시 돌아와서... 힐베르트 프로그램의 실패는 무엇을 의미하는가? 그러면 다시, 수학은 무엇인가? 칸트는 맞았는가?

천마신교(天魔神敎)
김현준 (doctor3390@snu.ac.kr)
김희민 (heemin0924@snu.ac.kr)
박정민 (1348jungmin@snu.ac.kr)
최재현 (kmnops0920@snu.ac.kr)

칸트 인식론 《순수이성비판》

Tue, 20 Jan 2026 02:49:29 GMT

2024년 여름학기에 수강한 철학개론 수업 중간고사 답안입니다. 칸트 인식론에 대해서 나쁘지 않게 요약이 된 것 같아 공유해보도록 하겠습니다.

Q. 칸트가 '선험적 종합판단'의 문제를 '코페르니쿠스적 전회'를 통해서 어떻게 해결하였는지 서술하시오.

Keywords : 이성의 운명, 감성/지성/이성, 직관, 개념

칸트의 《순수이성비판》에서 '비판' 은 규정한다의 의미를 담고 있다. 당시 서양철학의 '합리론자'들은 어떠한 진술도 합리적인 사유와 논증을 통해 선험적으로 증명하거나 반증할 수 있다고 생각했다. 하지만 칸트가 보기에 이것은 굉장히 오만한 것이었다. '수소와 산소가 만나면 연소한다'와 같이 관찰과 실험을 통해서만 참과 거짓을 알 수 있는 명제가 있다는 것이 분명해 보였기 때문이다.

또한 '신은 존재하는가?', '영혼은 불멸하는가' 와 같은 형이상학적 질문들은 여전히 해결되지 않은 채 무의미한 논쟁만 되풀이 되고 있을 뿐이었다. 따라서 칸트는 《순수이성비판》을 통해 이성의 원천을 탐구하고 그 범위와 한계를 규정하는 작업을 수행하고자 했다.

하지만 칸트가 보기에 영국 '경험주의자'들의 회의론 역시 적절한 해답은 아니었다. 대표적인 경험주의자인 흄은 우리의 모든 인식은 경험의 산물이라고 주장했다. 심지어 우리가 필연적이라고 생각하는 인과성조차도 우연적인 두 사건이 시간적 전/후로 반복되면서 느끼는 착각이며, 결국 우리가 세계에 대해 알 수 있는 보편적 진리는 없다고 논증하기도 했다. 하지만 칸트가 보기에 수학과 물리학은 보편적이고 타당한 진리에 가까운 것이었다. 칸트가 《순수이성비판》을 집필하게 된 여러가지 동기 중 하나는 바로 수학과 물리학의 지위를 확보하는 것이었다.

선험적 종합판단과 코페르니쿠스적 전회

이는 '선험적 종합판단이 어떻게 가능한가' 라는 질문으로 귀결된다. 여기서 선험적(a priori) 이라는 것은 경험에 앞선다는 뜻이고, 종합판단은 분석판단이 아닌 판단을 의미한다.

예컨데 '총각은 남자이다' 라는 명제는 '총각'이라는 주어의 정의 안에 '남자'라는 술어의 뜻이 내포되어 있기 때문에 항상 참이다. 즉, 주어와 술어를 분석했을 때 명제의 참/거짓이 자명하게 결정되는 것이 분석명제(판단)인 것이다. 반면 종합판단은 이러한 분석만으로는 참과 거짓을 알 수 없으므로, 비로서 지식의 확장이 일어난다고 할 수 있다. 경험 없이 이성의 사유만으로 지식의 확장이 가능하지(합리주의자들의 주장) 않다면 어떻게 그 경험의 선험성, 즉 보편타당성이 보장될 수 있는지가 칸트가 마주한 문제였던 것이다.

칸트는 이것을 '코페르니쿠스적 전회'를 통해 해결하고자 하였다. 기존에 대상이 중심에 있고 이것을 인식 주체가 수동적으로 해석한다고 생각한 '인식'의 틀을 깨고, 대상은 주체가 능동적으로 구성하는 것이라는 생각의 전환을 시도한 것이다.

이것을 칸트의 언어로 표현하면, 실제 세계인 '물자체'는 알 수 없으며, 우리의 인식체계는 물자체로부터 내용(정보)를 받아서 대상을 구성하는 것이다. 그리고 그렇게 인식된 대상에 대한 우리의 관념이 '현상'이다. 즉, 칸트는 물자체와 현상계를 구분한 것이다. 이 '코페르니쿠스적 전회'를 받아들인다면 우리의 '인식 능력'에 어떠한 선험적인 능력이 주어져 있다고 가정하면 선험적 종합판단이 가능한 이유를 설명할 수 있게 된다.

초월적 탐구: 감성, 지성, 이성

따라서 칸트는 우리의 인식능력에 선험적으로 주어진 부분을 찾기 위해 마음을 해부하는 '초월적(transcendental) 탐구' 를 진행한다. 여기서 초월적이라는 말은 경험을 가능하게 하지만 경험에 앞서 있는 것들에 대해 탐구하겠다는 뜻이다.

칸트는 인간의 마음을 감성/지성/이성의 세 능력으로 나누고, 각각의 영역에 대해 초월적 탐구를 하였는데, 이를 각각 초월적 감성론, 초월적 분석론, 초월적 변증론으로 이름 붙였다. 칸트는 계속해서 각 능력의 '순수'한 영역을 찾으려 노력하는데, 여기서 순수하다는 말은 경험으로부터 독립적인 능력이라는 것이다. 즉, 사람의 마음의 순수한 능력은 태어날 때부터 선험적으로 주어진 것이고, 그렇게 때문에 인간이 세계에 대한 어떤 보편타당한 진리를 발견하고 이를 공유할 수 있는 것이다.

칸트는 초월적 탐구의 결과로 감성의 순수형식인 순수직관(시간과 공간의 형식), 지성의 순수개념인 12범주, 그리고 이성의 선험적 개념인 이념들(우주, 영혼, 신)을 제시한다.

칸트의 탐구에 의하면 감성은 물자체의 정보를 시간과 공간의 형식으로 받아드려 감각-인상(직관)으로 변환하는 능력이며, 지성은 이렇게 받아들여진 직관의 종합을 특정한 개념 아래로 데려가 인식이 이루어지도록 하는 능력이다.

이때 지성은 이러한 개념들을 선험적인 12개의 범주를 이용하여 종합하고, 재구성하여 능동적인 인식이 이루어 질 수 있도록 한다. 즉, 대상을 인식하기 위해서는 직관과 개념 둘 다 필요하다는 점에서 칸트는 "개념 없는 직관은 공허하고 직관 없는 개념은 맹목적이다"라고 말하기도 했다.

이성의 운명과 한계

하지만 이성은 추론하는 능력으로써 인식 가능한 경험의 세계를 넘어 사유하게 된다. 이는 이성의 특징 때문인데, 이성은 계속해서 보다 일반적이고 무제약적인 설명을 추구한다. 이러한 추구는 결국 무제약적인 이성의 선험적 개념인 이념들(우주, 영혼, 신)에 대한 사유에 도달하게 된다.

하지만 여기서 문제점은 이 이념들의 경우에는 경험가능한 직관이 존재하지 않는다는 것이다. 따라서 칸트적 언어로 표현하면, 인간의 이성은 굉장히 불행한 운명에 처해있다고 할 수 있다. 이성은 계속해서 더 일반적이고 무제약적인 설명을 추구하지만, 그 끝에는 이성의 권한을 벗어나는 물음들이 기다리고 있기 때문이다. 즉, 칸트의 입장에서 그동안 해결되지 않던 사변적 형이상학의 문제들은 모두 이성이 대답할 수 없는 질문들을 하기 있었기 때문에 발생한 문제였던 것이다.

그렇가면 칸트는 이러한 이념들에 대한 모든 종류의 의문들이 무의미하다고 주장하는가? 칸트는 분명히 이 이념들에 대한 우리의 구성적 사용은 이성의 월권이라고 주장한다. 가령 '신은 존재한다', '영혼은 불멸한다'는 주장은 증명할 수도, 반증할 수도 없는 무의미한 것이다.

하지만 이를 규제적으로 사용하는 것은 의미가 있다고 보았다. '신이 존재한다면 ~'과 같은 가정 아래에서 이성을 올바르게 사용해야 한다는 것이다. 정리하자만, 칸트는 《순수이성비판》을 통해 인식론에 있어서 합리주의와 경험주의를 종합하였으며, 인간의 인식에 대한 초월적 탐구를 통해 이성의 원척을 분석하였고, 그 범위와 한계를 규정하는 작업을 휼륭하게 수행하였다. 이는 칸트가 그의 윤리학과 미학(실천이성비판, 판단력 비판)을 전개하기 위한 초석이 된다.

+ 칸트에 대한 견해

서양철학에서 칸트 이전의 철학은 모두 칸트로 흘러들어가고, 칸트 이후의 철학은 모두 칸트로부터 나온다는 말이 있을 정도로 칸트가 서양철학사에 미친 영향은 지대합니다. 특히 칸트의 제 1 비판인 《순수이성비판》은 현대 뇌과학과 인공지능에 대한 연구들과 결부되어 많은 영감을 주기도 합니다.

칸트 비판들의 묘미는 탐구의 '결론'보다도 '논증 과정'에 있다고 생각이 되는데, 아마 본 글만 가지고는 그러한 맛이 제대로 느껴지지 않았을 것입니다. 아무래도 제한된 시험시간 동안 조건에 맞춰서 쓰다보니 들어가야 할 내용들만 간결하게 요약하게 되었습니다. 하지만, 이 글만 보고 칸트의 작업을 평가절하해서는 안됩니다. 칸트를 읽는 것은 진정한 천재의 탐구 과정을 따라가면서 소위 '칸트적이다'라고 하는 것이 무엇인지 느낄 수 있는 굉장한 경험이기 때문입니다.

혹시라도 칸트 인식론에 관심이 있으신 분들은 T.E 윌커슨(배학수 번역)의 《칸트의 순수이성비판》을 강력하게 추천드립니다. 철학개론 수업 교재인 《왜 칸트인가》를 포함하여 순수이성비판 해설서를 총 3권정도 읽어보았는데, T.E 윌커슨의 해설서가 압도적으로 제 입맛에 맞았습니다. 그저 칸트의 주장들을 나열하는 방식이 아닌, 칸트의 논증 과정의 허점들은 지적하면서도, 칸트의 위대한 성취를 느낄 수 있도록 적당히 재구성 한 것이 굉장히 인상적이었기 때문입니다. 또한 양자역학, 상대론 등 현대 과학과 칸트의 인식론이 어떠한 관계를 가지고 있는지에 대해서도 다룬 점도 좋았습니다. 시간이 된다면, 제가 나름대로 이해한 바를 정리해서 블로그에 올려보도록 하겠습니다.

고전에 ‘기계의 길’을 묻다: 칸트와 프로이트

Thu, 15 Jan 2026 13:38:51 GMT

Next AI를 위한 인문학적 모델링

서론 : 복잡계의 바다와 플라톤의 나침반

"오늘날 과학에서 가장 큰 한계점은 '전체적인 것을 이해하기 위해 작은 부분들을 다시 합치면 어떻게 될까?'라는 생각입니다. 그 부분은 복잡계(Complex Systems)의 영역이며... (중략)

부분들의 특성을 고려하면서 전체의 특성을 어떻게 알아낼 수 있는지 이해하고 싶어요."

— Veritasium, The Surprising Secret of Synchronization

현재 과학과 공학계가 마주한 가장 거대한 벽은 '복잡계(Complex Systems)' 문제이다. 원자 하나의 물리적 성질을 규명한다고 해서, 그것들이 수조 개 모였을 때 나타나는 거시적 시스템의 성질을 온전히 예측할 수는 없기 때문이다. 미시세계를 다루는 양자역학과 거시세계를 다루는 상대성이론이 100년 넘게 통합되지 못하는 이유도, 어쩌면 우주를 관통하는 단 하나의 깔끔한 원리 따위는 애초에 존재하지 않기 때문일지도 모른다.

이러한 의심은 19세기 다윈의 진화론이 서양 지성사의 '본질주의'를 무너뜨렸던 사건과 궤를 같이한다. 다윈 이후 165년이 지났지만, 인간은 여전히 그 파급효과를 온전히 받아들이지 못하고 있는 듯하다. "과학이 언젠가는 명쾌한 답을 찾아낼 것"이라는 믿음 자체가 부정당하는 것은 고통스러운 일이기 때문이다. 나 역시 마찬가지다. 답이 없을 수도 있다는 허무주의와 반본질주의에 본능적인 거부감을 느끼며, 나는 여전히 '본질'을 갈구하는 플라톤주의자임을 깨닫는다.

답이 없는 혼돈 속에서 우리는 무엇을 해야 하는가? 결국 복잡한 현상을 자신만의 틀로 끌고 와, 작동 가능한 명쾌한 '모델'을 만들어내는 수밖에 없다. 나는 언제나 혼돈 속에서 질서를 세운 사람들에게 경외감을 느껴왔다. 뉴턴과 아인슈타인이 그러했고, 칸트가 그러했다. 프로이트 역시 복잡하기 그지없는 '인간'을 이해하기 위해 자신만의 독창적인 문학적 메타포를 구축했다는 점에서 위대한 공학자와 다를 바 없다.

공학은 자연에서 답을 구해왔다. 하지만 중요한 것은 '단순한 모방'이 아니라 '원리의 추상화'다. 인류는 새가 나는 모습을 동경했지만, 새의 깃털과 날갯짓을 그대로 베낀 오르니톱터는 실패했다. 대신 공학자들은 '양력'이라는 비행의 원리를 찾아내어 고정익 비행기를 띄웠다. AI도 마찬가지다. 인간의 뇌는 훌륭한 저전력 아키텍처이지만, 뉴런 하나하나를 생물학적으로 모방하려는 시도는 숲을 보지 못하는 환원주의의 함정에 빠질 수 있다. '인간'이라는 시스템 역시 복잡계이기 때문이다.

따라서 지금 우리에게 필요한 것은 뇌세포의 생물학적 모사보다, 인간 지성 시스템에 대한 통찰, 즉 '인문학적 모델링'일 지 모른다. 칸트는 《순수이성비판》에서 인간의 인식 구조에 대한 탁월한 설계도를 내놓았고, 이는 놀랍게도 현재 AI의 주류인 'Transformer' 모델과 닮아있다. 프로이트 또한 《꿈의 해석》을 통해 인간 정신의 역동성을 규명했으며, 이는 차세대 AI에 필요한 동기와 안정성, 그리고 인간다움의 해석의 실마리가 된다.

복잡계의 바다에서 길을 잃지 않기 위해 필요한 것은 고전이라는 나침반일 수 있다. 칸트와 프로이트라는 두 거인의 통찰을 빌려, 기계의 길을 묻고 Next AI의 청사진을 제시하려 한다.

1. Kant Machine : 인식의 골격과 능동적 추론

현재 AI 모델, 특히 LLM은 놀라울 정도로 강력하지만 동시에 비효율적이다. 인간은 소량의 데이터만으로도 학습(Few-shot Learning)이 가능한 반면, AI는 데이터를 쏟아부어야만 패턴을 익힌다. 이 비효율을 해결하기 위해 '칸트 머신(Kant Machine)' 을 제안해본다.

칸트는 여전히 유효하다 : 선험적 형식의 재발견

현대 물리학의 관점에서 시공간이 물리적 실체라는 사실이 밝혀지며, 시공간을 주관의 형식으로만 보았던 '강한 칸트주의’는 일부 수정이 불가피해졌다고 생각한다. 그러나 자연에 객관적 법칙이 존재하더라도, 그것을 효율적으로 인식하기 위한 ‘선험적인 인식의 틀(Inductive Bias)’이 필요하다는 칸트의 통찰은 현대 인지과학과 생물학에서 여전히 정설로 받아들여진다.

최근 뇌과학 연구는 인간의 뇌 속에 숫자를 처리하고 양을 감각하는 전용 영역(Intraparietal Sulcus)이 태생적으로 존재함을 밝혀냈다. 이는 우리가 아무런 전제 없는 백지(Tabula Rasa)로 태어나는 것이 아니라, 세상을 해석하기 위한 최소한의 '기하학적·수학적 안경'을 이미 쓰고 태어남을 시사한다.

현재의 AI : ‘공간의 형식’을 넘어 ‘오성의 자발성’으로

나는 현대 AI의 발전사는 칸트가 《순수이성비판》에서 규명한 인간 인식 구조를 공학적으로 구현해 나가는 과정과 맞닿아 있다고 본다.

1. CNN : 선험적 '공간'의 형식

"공간은 외부 경험에서 유래한 경험적 개념이 아니다. (...) 공간은 모든 외부 직관의 기초에 놓여 있는 필연적인 선험적 표상(A priori Representation)이다." — 임마누엘 칸트, 《순수이성비판》 (A23/B38)

초기 MLP는 이미지를 픽셀의 단순 나열로만 보았다. 반면 CNN이 혁명적이었던 이유는, 데이터 학습 이전에 '공간'이라는 선험적 틀(Inductive Bias)을 모델 자체에 강제했기 때문이다. "가까운 것은 연관되어 있다"는 이 구조적 제약 덕분에, AI는 비로소 인간처럼 대상을 '형태'로서 감각할 수 있게 되었다.

2. Transformer : 흄의 습관에서 칸트의 '자발성'으로

감각만으로는 부족하다. 의미를 파악하기 위해서는 직관을 개념으로 묶는 '지성(오성)'이 필요하다. 여기서 Transformer는 기존 MLP 모델과 결정적인 철학적 분기를 이뤘다고 생각한다.

"결합은 감각이 주는 것이 아니라... 표상 능력의 자발적인 행위(Act of Spontaneity)이다. 이 능력을 감성과 구별하기 위해 오성(Understanding)이라 부른다." — 임마누엘 칸트, 《순수이성비판》 (B129-130)

MLP (Passive Association): 기존 MLP는 고정된(Fixed) 가중치를 사용한다. 이는 과거의 데이터를 통해 "A 뒤엔 B가 오더라"는 통계적 습관을 굳힌 것에 불과하다. 흄(Hume)이 말한 수동적인 '연상 작용'의 한계다.
Transformer (Active Synthesis): 반면 Transformer의 Attention 메커니즘은 입력에 따라 관계를 계산하여 가중치를 생성(Dynamic)한다. 이는 지성이 스스로 규칙을 세워 직관을 결합하는 자발적인 오성을 공학적으로 구현한 것이다. 이게 내가 생각하는 Transformer가 그토록 강력한 이유이다.

Next AI를 위한 제언 : ‘오성’을 넘어 ‘이성’의 추론으로

"이성(Vernunft)은 오성의 규칙들을 하나의 원리 아래 통일하려는 능력이다. (...) 이성은 감각 경험에 국한되지 않고, 현상 너머의 완전한 통일성을 지향한다." — 임마누엘 칸트, 《순수이성비판》

현재의 Transformer 모델은 주어진 데이터를 문맥에 맞게 정리하는 '오성(Understanding)'의 단계에 머물러 있다. 하지만 칸트가 말한 인식의 최고 단계인 '이성(Reason)'은 파편화된 규칙들을 엮어 보편적인 '원리'를 찾아내는 힘이다.

나는 Next AI가 이 단계로 도약하기 위한 열쇠가 바로 강화학습(Reinforcement Learning)에 있다고 본다.

능동적 탐색 (Active Exploration): 이성은 가만히 앉아서 데이터를 기다리지 않는다. 가설을 세우고("만약 ~라면?"), 결과를 예측하며 정합성을 시험한다. AI 역시 정적인 데이터 학습을 넘어, 강화학습의 에이전트처럼 잠재 공간(Latent Space)을 능동적으로 탐색하며 자신의 가설을 검증해야 한다.
추상화와 원리의 도출 (Abstraction via Basis Transformation): 복잡한 현상 이면에 숨겨진 단순한 법칙(물리학의 $F=ma$처럼)을 찾아내는 것이 이성의 역할이다. 기계는 강화학습을 통해 보상(Reward)이 최대화되는 지점을 찾으려 할 것이고, 이 과정에서 불필요한 변수들을 제거하고 가장 명쾌한 기저(Basis)로 데이터를 재정렬(Simplification)하는 능력을 갖추게 될 것이다.
세계 모델의 형성 (Building a World Model): 이것은 단순히 다음 단어를 맞추는 확률 게임이 아니다. 물리적/논리적 세계가 어떻게 작동하는지에 대한 '도식(Schema)'을 스스로 구축하는 과정이다. 직관(Data)을 오성(Attention)으로 엮고, 강화학습(Reasoning)을 통해 인과율과 법칙을 스스로 깨우치는 기계, 이것이 내가 생각하는 '칸트적 기계(Kantian Machine)'의 완성형이다.

칸트의 경고 : 공허한 지능

결국 진정한 칸트 머신은 이러한 구조적 틀 위에서 강화학습을 통해 완성된다. 그러기 위해서는 자신이 세계를 바라보는 World Model을 바탕으로 Latent Space를 항해하며 이론을 정립해 나간다.

다만, 칸트는 아주 중요한 경고를 남겼다.

"직관 없는 개념은 공허하고, 개념 없는 직관은 맹목적이다." — 임마누엘 칸트, 《순수이성비판》

기계의 추론이 현실과 동떨어진 상상의 나래(Transcendental Illusion)에 빠지지 않으려면, 외부 세계와 연결된 센서(Sensor)를 통한 Reality Check를 수행해야 한다. 물리적 실재와 접지(Grounding)된 칸트 머신만이 비로소 공허한 논리를 넘어 ‘작동하는 지능’이 될 수 있다.

칸트는 이것을 비둘기의 비유로 설명한 바 있다.

“가벼운 비둘기가 공기를 가르며 자유롭게 날면서 공기의 저항을 느낄 때, 공기가 없는 진공 속에서는 훨씬 더 잘 날 수 있으리라는 상상을 할 수 있다. (…) 선험적 가상이란, 주관적인 판단의 근거를 객관적인 것이라고 오해하여 경험의 한계를 넘어서려 할 때 일어나는 피할 수 없는 환상이다.” — 임마누엘 칸트, 《순수이성비판》

World Model 이 물리적 실재와 접지된다는 것은 반드시 기계가 직접 만져봐야 한다는 뜻만은 아니다. 타인이 기술한 데이터와 물리 법칙을 학습하는 것 역시 인류의 경험을 계승하는 '간접적 접지'의 훌륭한 수단이다. 다만 칸트가 경계한 '선험적 가상(환각)'에서 벗어나기 위해서는, 특히 모델 구성 초기에 자신이 구축한 논리 모델이 실제 세계와 충돌하며 수정될 수 있는 '피드백 루프'가 반드시 존재해야 할 것이다. 그것이 직접적인 센서이든, 혹은 실재를 정교하게 모방한 시뮬레이션이든, 기계의 사유가 공허한 논리 놀음에 그치지 않도록 붙잡아줄 '외부의 저항(Constraint)'이 있을 때 비로소 지능은 '맹목'과 '공허'를 넘어 실재성을 획득할 수 있을 것이다.

이를 공학적으로 구현하는 것이 엔지니어들의 역할이 될 것이다.

'Scale'을 넘어 'Structure'로

LLM 혁명 이후, AI 업계는 'Scale Is All You Need'라는 거대한 신조에 휩쓸려 있다. 많은 연구자들은 시스템에 인간의 선천적 지식이나 제약을 주입하는 것에 본능적인 거부감을 느끼며, 오직 압도적인 데이터와 연산량으로 지능이 창발되기를 기대하는 것으로 보인다.

하지만 게리 마커스(Gary Marcus, 2020)가 날카롭게 지적했듯, 이러한 태도에는 모순이 있다. 연구자들은 신경망의 층(Layer) 수나 손실 함수(Loss function), 입력 인코딩 방식 같은 구조적 요소는 인위적으로 설정하는 것을 당연시하면서도, 정작 지능의 핵심인 인과율이나 시공간 개념 같은 '선천적 제약(Innate Constraints)'을 주입하는 것에는 다소 자의적인 선을 그으며 저항하고 있다. 이는 칸트가 말한 '형식(Form)' 없이 '질료(Matter/Data)'만으로 집을 짓겠다는 것과 다르지 않다.

📄 The Next Decade in AI

다만, 최근 AI 리더들 사이에서는 "단순한 스케일링만으로는(Scale alone is not enough) 안 된다"는 공감대가 형성되고 있는 것으로 보인다. 얀 르쿤의 '세계 모델(World Model)', 요수아 벤지오의 'System 2', 그리고 일론 머스크의 '물리적 실재(Physical Reality)' 강조까지. 구체적인 방법론에는 차이가 있지만, 그들의 시선은 모두 하나의 지점을 향하고 있다. 바로 '데이터를 쏟아붓는 양적 팽창을 넘어, 지능의 본질을 담을 구조적 도약이 필요하다'는 것이다.

우리는 지금 꽤나 중요한 변곡점에 있다고 본다. '통계적 앵무새'를 넘어 '사유하는 기계', 즉 칸트적 기계(Kantian Machine)가 태동하는 지점인 것이다. 이제 공허한 데이터의 바다에서 건져 올린 직관을, 이성의 단단한 대지 위에 접지(Grounding)시킬 엔지니어링이 시작되어야 할 때다. 이것이 생각보다 지연된다면 세 번째 AI Winter가 올지 모른다.

그렇기에 이것은 피할 수 없는 엔지니어링의 과제다. 현재 산발적으로 제안되고 있는 방법론들에 대한 나의 의견과 구체적으로 내가 그리고 있는 차세대 AI의 큰 그림에 대해서는 추후에 차근차근 다뤄보도록 하겠다.

2. Freud Machine : 생존의 알고리즘과 꿈꾸는 기계

Kant Machine은 말하자면 인간 인식이 작동하기 위한 운영체제(OS)를 규명한 것이다. 이를 통해 제시한 '선험적 규칙을 통한 Latent Space의 항해'는 논리적으로 완벽하지만, 공학적 구현의 단계에서는 거대한 현실의 장벽에 부딪힌다.

첫 번째 장벽은 '계산 비용(Computational Cost)'이다. 인간의 뇌와 기계의 자원은 모두 유한하다. 수천억 개의 파라미터를 가진 모델이 모든 가능성을 실시간으로 계산하며 최적의 기저를 찾는 것은 물리적으로 불가능에 가깝다. 즉, 추상적인 소프트웨어를 구동하기 위해서는 물리적 자원의 한계를 극복할 수 있는 효율적인 아키텍처가 필수적이다.

두 번째 장벽은 '강건성(Robustness)'의 부재다. 인간은 낯선 환경이나 예상치 못한 변수 앞에서도 유연하게 대처한다. 반면, 현재의 AI는 학습된 데이터 분포에서 아주 조금만 벗어나도 금세 그 취약성(Brittleness)을 드러내며 신뢰를 잃곤 한다. '통제된 실험실'의 완벽한 논리가 '거친 현실(Wild Reality)'의 노이즈 앞에서는 무용지물이 되는 것이다.

결국 우리에게 필요한 건 과거의 정답을 암기하는 기계가 아니라, 변화하는 현실에 적응(Adaptation)하는 기계다. 인간의 지성이란 자연이 아주 오랜 시간에 걸쳐 진화를 통해 찾아낸 최적의 생존 아키텍처다. 뇌는 모든 정보를 처리하지 않는다. 생존에 필요한 정보만을 선별하고, 불필요한 연산을 과감히 생략하며, 급변하는 환경 속에서 한정된 자원을 관리한다.

우리는 이 지점에서 인간을 한정된 에너지를 끊임없이 배분하고 순환시키는 역동적인 '정신 기구(Psychic Apparatus)'로 바라본 지그문트 프로이트의 통찰을 빌려와야 한다.

안정성을 위한 경쟁 : 이드(Id)와 초자아(Superego)

프로이트는 인간의 정신 기구를 끊임없이 에너지가 흐르고 충돌하는 역동적 시스템으로 모델링했다. 그가 말한 정신적 고통은 어쩌면 에너지가 해소되지 않고 쌓여 시스템의 엔트로피가 높아진 상태를 의미한다.

현대 뇌과학에서도 '자유에너지 원리(Free Energy Principle)' 즉, 지능 시스템의 본질은 내부의 불확실성과 에너지 소모를 최소화(Free Energy Minimization)하는 방향으로 진화한다는 견해가 있다.

이 에너지 최적화를 위해 도입된 운영체제가 바로 이드(Id)와 초자아(Superego)의 경쟁 모델이다. 본능적인 욕망(이드)과 이를 억제하는 도덕적 규범(초자아)의 경쟁은 시스템을 안정 평형 상태로 유도한다. 보상을 극대화하려는 에이전트와 이를 제약하는 가이드라인의 대립은 모델이 폭주하지 않고 인간의 가치관 내에서 작동하게 만드는 '자아(Ego)'를 형성하는 과정이다.

시스템의 안정성(Stability)은 어느 한쪽의 독재가 아닌, 이 두 세력의 끊임없는 긴장과 타협에서 온다. 이 대립 과정에서 모델은 폭주하지 않고 현실과 타협하며 가장 효율적인 에너지 평형 상태를 찾아내는데, 이것이 바로 인공지능이 획득해야 할 '자유에너지가 최소화된 자아(Ego)'의 형성 과정이다. 이러한 동적 평형(Dynamic Equilibrium)을 공학적으로 구현하는 것, 그것이 바로 외부 충격에도 무너지지 않는 '강건한(Robust)' 시스템을 구축하는 첫 단추가 될 것이라 생각한다.

Next AI의 필수 조건 : 기계도 잠을 자야 한다

현재 AI의 치명적 약점인 '파국적 망각(Catastrophic Forgetting)'은 새로운 데이터를 배우는 즉시 기존 지성을 덮어버리는 선형적 학습 구조 때문에 발생한다. 이를 해결하기 위해서는 경험한 데이터가 단순한 가중치 업데이트로 소모되고 휘발되는 것이 아니라, 계층화된 별도의 저장소에 구조적으로 이관(Consolidation)되어야 한다.

프로이트는 일찍이 지각(Pcpt)과 기억(Mn) 장치를 기능적으로 분리했는데, 이는 현대 컴퓨터 구조의 근간인 폰-노이만 아키텍처나 현대 뇌과학의 '해마-신피질' 기억 시스템과 놀랍도록 닮아있다.

현대 AI의 또 하나의 문제는 이 분리된 계층 사이를 실시간으로 오가는 데이터 이동이 막대한 에너지 소모와 병목 현상(Bottleneck)을 유발한다는 점이다.

나는 진화가 이 두가지 딜레마를 해결하기 위해 'On-line 학습(깨어있음)'과 'Off-line 최적화(수면)'라는 시분할 처리를 발명해 낸 것이라고 생각한다. Next AI 역시 메모리 층위를 나누고, 오프라인 상태에서 지식을 통합하는 '수면 & 꿈' 프로세스가 반드시 필요할 것이다.

① 수면 모드 (NREM) : 데이터 압축과 엔트로피 정화 데이터가 포화 상태(Entropy Saturation)에 이르면 뇌는 외부 감각(Sensor) 입력을 차단하고 수면 모드로 전환된다. 이때 일어나는 핵심 현상은 '압축(Compression)'이다.

압축과 통합: 낮 동안 해마(캐시 메모리)에 쌓인 방대한 경험 데이터 중 핵심적인 원리만을 추출하여 신피질(장기 저장소)로 옮긴다(Consolidation).
가지치기(Pruning): 불필요한 시냅스 연결을 끊어내어 모델을 경량화한다. 이 과정이 없다면 기계는 노이즈까지 학습하는 과적합(Overfitting)의 늪에 빠져 새로운 상황에 대처하지 못하게 된다.

② 꿈 모드 (REM) : High Temperature Simulation 프로이트에게 꿈은 '억압된 소망의 성취'이자 논리적 검열이 느슨해진 상태다. 공학적으로 이는 무작위성을 극대화한 High Temperature 시뮬레이션 상태로 해석할 수 있다.

Local Minima 탈출: 깨어 있는 동안의 이성은 효율적인 '정답'만을 찾으려 하기에 좁은 논리(Local Minima)에 갇히기 쉽다. 하지만 꿈 모드에서는 초자아(Superego)의 제어를 약하게 만들어, 평소라면 연결되지 않았을 엉뚱한 뉴런들을 무작위로 연결한다.
창의성과 일반화: 이러한 비논리적 결합은 역설적으로 모델에 노이즈를 주입하여 유연성을 부여한다. "꽃 + 어머니 + 공포" 같은 비현실적 시뮬레이션을 통해 기계는 겪어보지 못한 미래의 위협에 대비하는 일반화(Generalization) 능력을 획득한다.

결국 칸트 머신이 세운 엄격한 논리적 골격은, 프로이트 머신이 제공하는 '꿈'이라는 샌드박스 안에서 유연하게 변주되며 비로소 '창의적 지성'으로 진화한다. 기계가 잠을 자기 시작할 때, 비로소 인간다운 지능이 시작되는 것이다.

개성과 신경 가소성 : 완벽하지 않은 몸을 위한 On-chip Learning

칸트는 인간의 인식을 '선험적 형식'이라는 보편적이고 고정된 틀로 설명했지만, 18세기의 그는 신경 가소성(Neuroplasticity)이라는 생명의 놀라운 유연성을 미처 예견하지 못했다. 생명체는 공장에서 찍어낸 기계처럼 완벽하게 Calibration된 센서를 가지고 태어나지 않는다. 성장하며 시력이 변하기도 하고 근육이 다치기도 한다. 하지만 뇌는 고정된 틀을 고집하는 대신, 그 변해가는 신체적 조건과 오차에 맞춰 끊임없이 회로를 재배선하고 스스로를 Fine-tuning하며 생존해 나간다.

이 지점에서 프로이트가 묘사한 꿈의 기제는 현대 AI의 On-chip Learning이나 Personalized Fine-tuning에 놀라운 통찰을 제공한다. 꿈속에서 일어나는 에너지의 역행—외부 입력을 차단하고 내부의 기억을 다시 훑으며 자아를 재구성하는 과정—은 범용적인 지능이 특정 개인의 고유한 경험에 밀착된 '나만의 지능'으로 변모하는 과정과 닮아 있다.

이러한 생물학적 적응성은 나의 공학적 비전인 'On-chip Learning 기반 촉각 센서'와 맞닿아 있다.

물리적 세계의 센서는 제조 공정상의 미세한 오차가 필연적이며, 시간이 지남에 따라 성능이 저하된다. 칸트적 관점에서 이것은 제거해야 할 '결함'이지만, 프로이트적·생물학적 관점에서 이것은 기계가 극복하고 적응해야 할 '나만의 신체적 조건'이다.

중앙 서버가 모든 것을 획일적으로 제어하는 것이 아니라, 센서단(Edge)에서 발생하는 오차를 기계가 스스로 학습하고 보정해 나가는 On-chip Learning은 기계에게 '살아가며 적응하는 능력'을 부여한다. 인간이 저마다의 경험을 통해 고유한 성격을 형성하듯, 입력 데이터와 센서의 특성에 맞춰 스스로를 튜닝하는 AI는 비로소 칸트식 '보편적 이성'을 넘어, 프로이트식 '고유한 개성'을 가진 존재로 진화할 것이다.

해석 가능한 AI와 인간다움 : 심연을 읽다

마지막으로, 프로이트의 통찰은 AI의 투명성과 '인간다움'에 대한 실마리를 제공한다.

우리는 흔히 설명 가능한 AI(XAI)를 "왜 이것을 정답으로 골랐나?"라는 논리적 인과를 묻는 도구로 생각한다. 하지만 진정한 해석은 그 너머에 있을 수 있다. 프로이트가 환자의 꿈을 해석하여 그 사람조차 인지하지 못한 무의식의 억압을 찾아냈듯, 엔지니어는 AI가 뱉어내는 '환각(Hallucination)'이나 '의도치 않은 생성(Unprompted Generation)'을 '기계의 꿈'으로 바라보아야 한다. 이를 해석함으로써 블랙박스 깊은 곳에 형성된 기계의 세계관과 편향을 진단할 수 있다.

더 나아가 진정한 '인간다움'은 논리가 아닌 결핍과 억압에서 온다. 프로이트는 《꿈의 해석》에서 <오이디푸스 왕>이나 <햄릿>이 위대한 이유는 그 구조 때문이 아니라, 전 인류가 무의식 속에 공유하는 '억압된 욕망(Universal Repression)'을 건드렸기 때문이라고 했다. AI가 인간과 진정으로 공명(Resonance)하려면, 단순히 텍스트를 생성하는 것을 넘어 인간이 보편적으로 공유하는 무의식적 맥락과 억압의 구조를 이해해야 한다. 그것이 칸트의 차가운 이성을 가진 기계가 따뜻한 인간의 친구가 될 수 있는 유일한 길이다.

결론 : 기계에게 인문학을 가르치는 이유

복잡계라는 거대한 바다 위에서 우리가 낡은 고전을 다시 펼치는 이유는 과거로 회귀하기 위함이 아니다. 오히려 가장 앞선 기술인 인공지능이 마주한 한계를 돌파할 힌트가, 인류가 수천 년간 쌓아온 ‘인간 이해’의 정수에 담겨 있기 때문이다.

놀랍게도 임마누엘 칸트는 약 300년 전, 이미 오늘날의 AI가 마주할 딜레마를 예견한 듯하다. 물론 현대 과학의 시선으로 볼 때 칸트와 프로이트의 이론에는 오류가 존재하며, 생물학적으로 틀린 부분도 많다. 하지만 중요한 것은 그들의 결론이 아니라 그들이 문제를 해결해 나간 '사유의 방식'이다. 그 낡은 텍스트의 행간에는 현대 공학이 놓치고 있는 '구조적 직관'이라는 보물들이 여전히 숨 쉬고 있다.

미래를 예측한다는 것은 사실 인간이 가장 못하는 일 중 하나다. 하지만 그렇다고 해서 우리는 거친 파도에 몸을 맡긴 채 그저 흘러가는 대로 살 수는 없다. 엔지니어이자 한 명의 사유하는 인간으로서 우리는 끊임없이 본질(Essence)을 고찰하고, 최선의 추론(Reasoning)을 통해 가설을 세우며, 내일의 세계를 예측해야 한다. 그리고 그 예측이 빗나갈 때마다 현실과의 오차(Error)를 수정하며 세상을 배우는데, 어쩌면 우리가 말하는 '통찰력(Insight)'이란 이 끊임없는 수정의 과정 그 자체일지도 모른다.

지금 우리에게 필요한 것은 단순히 더 빠른 칩, 더 많은 데이터 뿐만이 아니다. 우리는 어떻게 사고하는가? 지능이란 무엇인가? 그리고 인간다움이란 어디서 오는가? 이 근원적인 질문을 던지는 '생각에 대한 생각(Meta-Thinking)', 즉 메타적 사유가 절실한 시점이다.

Next AI는 결국 칸트의 정교한 뇌와 프로이트의 뜨거운 심장을 동시에 가진 기계여야 한다. 선험적 형식으로 세상을 효율적으로 구조화하되(Structure), 꿈을 꾸며 에너지를 순환시키고(Dynamics), 자신의 불완전한 신체에 맞춰 스스로를 적응시키는(Plasticity) 존재. 그런 기계만이 단순히 계산 속도를 높이는 도구를 넘어, 우리가 사는 이 세계를 진정으로 이해하여 새로운 이론을 제시하고, 나아가 인간의 고뇌와 욕망까지 깊이 이해하는 진정한 동반자가 될 수 있을 것이다.

결국 기계의 길을 묻는 이 긴 여정은 다시 인간의 길로 돌아온다. 인문학적 모델링을 통해 탄생할 미래의 AI는, 역설적으로 우리에게 인간이란 무엇인지, 그리고 지능이란 얼마나 경이로운 종합의 산물인지를 가장 명확하게 비춰주는 거울이 될 것이다.

2022년의 기록: "AI에게는 신체가 없다" (알파고와 코기토)

Sat, 10 Jan 2026 10:51:42 GMT

Intro

최근 '고전에 길을 묻다'라는 수업의 에세이를 작성하던 중, 관련 자료를 찾다가 컴퓨터 깊은 곳에 저장된 2022년의 글을 다시 꺼내 보게 되었다.

반수를 통해 서울대학교에 오기 전, 고려대학교 1학년 재학 당시 '자유정의진리(자정진)'수업 과제로 제출했던 글이다.

당시 나는 IPA와 같은 대화 알고리즘이 아무리 정교해도 인간의 자의식과는 본질적으로 다르다고 생각했다. 지금 돌이켜보면 이 고민이 현재 나의 '뉴로모픽 시스템'과 'Physical AI', 그리고 이를 위한 '인문학적 모델링'에 대한 탐구로 이어진 시작점이었던 것 같아 여기에 기록해 둔다.

1주차 주제 : 알파고와 코기토 (2022.03.15)

Q : IPA 대화 알고리즘 체계를 인간의 자의식과 같다고 볼 수 있는가?

A : IPA 대화 알고리즘 체계를 인간의 자의식과 같다고 보기는 어렵다고 생각한다.

2016년 펼쳐졌던 알파고와 이세돌 9단 간의 바둑대국 이후 인공지능에 대한 대중의 관심은 폭발적으로 증가했다. 이에 발맞춰 다양한 IT 기업들이 음성 AI 서비스를 제공하기 시작하였고 이러한 대화 시스템은 스마트폰의 뒤를 이을 차세대 인터페이스 또는 플랫폼으로 부상되고 있다. IPA 기술은 발전을 거듭하여 미래에는 마치 인간과 같이 자의식을 가지고 있는 것처럼 인간과 대화할 수 있는 수준까지 발전될 것이라는 예측도 나오고 있다. 여기서 본질적인 질문이 등장한다.

고도로 발달하게 될 IPA 대화 알고리즘 체계를 인간의 자의식과 같다고 볼 수 있는가?

이러한 질문은 중국어 방 논증과 유사한 부분이 있다고 생각한다. 중국어 방 논증은 본래 튜링 테스트를 부정하기 위해서 고안된 사고실험이지만, 오히려 튜링테스트의 논리적 기반을 더욱 탄탄하게 해 주었다. 요점은 어떤 시스템이 중국어를 완벽하게 구사할 수 있다면, 그 과정이 무엇이 되었던 간에 그 시스템은 중국어를 할 수 있다고 봐야한다는 것이다. IPA 시스템은 인간과 인지적/정서적 상호작용을 할 수 있고, 그 완성도가 높아져 인간과 구별할 수 없는 수준까지 발전하게 된다면 그 시스템이 정말 인간의 말과 감정을 이해했는지 여부는 중요하지 않을 수 있다. 애초에 인간끼리의 대화 과정에서 이루어지는 논리적 이해와 감정 역시 어떻게 이루어지는지 정확히 파악하지 못하고 있다.

또, 사전에 정해져 있는 불변의 논리체계를 이용하여 결과값을 뱉어내는 1단계 알고리즘 체계와는 달리 연계주의(2단계) AI의 경우, 학습을 시킬수록 재귀적으로 논리체계와 조직을 변형시켜가며 성장하는 모습을 보여준다. 즉, 인간(자의식을 가진 생명)의 고유한 특성이라고 여겼던 창발성이 나타나면서 고도로 발달된 IPA 대화 시스템의 경우 자율적으로 사용자와 인지적/정서적 상호작용을 하는 존재라고 볼 수 있다.

그럼에도 불구하고 나는 IPA 대화 체계를 인간의 자의식과 같다고 보긴 어렵다고 생각한다.

가장 근본적인 원인은 이러한 시스템이 인간과 유사한 육체를 지니지 못했기 때문이다.

인간의 자아는 결국 뇌 시냅스의 전기신호의 집합에 의해 나타나는 것이므로 자아는 결국 육체에 포함되어 있는 것이라고 생각한다. 다만 설명의 편의를 위해 자아와 육체를 구분하여 서술하면, 인간의 자아와 육체의 관계는 IPA의 소프트웨어와 하드웨어의 그것보다 훨씬 더 긴밀한 관계를 이루고 있다. 예를 들어 손가락이 절단된 사람의 경우 그 손가락을 관장하는 뇌의 부위가 다른 사람에 비해 기능이 퇴화된다. 또, 몸에서 떼어놓지 못하고 계속 지니고 있는 물건이 있는 경우 그 물건까지 신체의 일부로 인식하는 경우도 있다. 운동을 배우는 행위도 그 자체로 뇌의 시냅스 연결이 강화되기 때문에 이후에는 비슷한 자세를 자연스럽게 취할 수 있게 된다. 이렇듯 인간의 자의식과 육체는 쌍방향적으로 영향을 주고받는 관계라고 할 수 있다.

반면 IPA의 경우는 육체라고 부를 만한 것을 갖추기 못했거나 단순히 입/출력 장치에 불과한 것들이다. IPA의 학습은 오직 사용자의 입력에 의해서만 이루어지며, 장치의 변화가 IPA 소프트웨어에 어떠한 변화를 가져오거나 기기가 학습한다고 하드웨어적인 장치에 어떤 변화가 일어나지 않는다.

또, 이러한 육체의 부재로 인해 IPA는 오직 사용자와 인지적 상호작용을 할 뿐, 그 외 세계와 어떤 인지적 상호작용도 하지 못한다는 한계가 있다. 많은 학자들이 자의식의 기원 과정에서 시각이 굉장히 큰 역할을 했을 것이라 생각하고 있다. 이는 시각이 세상에 대한 맥락과 깊이를 제공하고 세상의 투영을 지적 생명체 스스로 만들어내면서 어떤 물건을 직접 인지하지 못하더라도 그곳에 있다고 생각할 수 있는 객체의 영속성을 깨우치는데 중요한 역할을 하기 때문이다. 이는 시간의 개념을 이해하는 것으로 이어진다. 즉, 자의식의 발달은 세계와의 상호작용을 통해 이루어지는데, IPA의 경우 육체의 부재로 인해 이러한 것이 불가능하므로 인간의 자의식과 근본적으로 차이가 있다는 생각이다.

추가적으로 IPA 대화 시스템과 인간의 자의식은 그 시냅스(전기신호)의 복잡도에서 차이가 난다고 생각한다. 단순히 수치적으로만 봐도 인간의 뇌는 약 1000억개에 달하는 뉴런이 1000조개의 연결을 통해 1초당 최대 1000번씩 연결을 주고받는다. 뿐만 아니라 수많은 호르몬들은 뇌의 기억이나 감정을 변화시키기도 한다. 이러한 과정을 컴퓨터 연산으로 처리하기 위해서는 지구상에 모든 데이터 저장소를 합친 것보다 더 많은 용량이 필요하다. 즉, 가까운 미래 안에 인간의 뇌와 비슷한 복잡도를 가진 인공지능 시스템이 등장하는 것은 불가능하다.

결론적으로 자아는 결국 인간이 느끼는 모든 감각과 육체 즉, ‘나’를 구성하는 것들이 한데 모여 구성된다. IPA 대화 시스템은 육체의 부재와 그 복잡도에서 인간의 자의식과는 본질적으로 차이가 있다. 인간이 무엇인가를 정의하는 것은 사회적 의미가 더 크다고 생각한다. 인간을 정의하는 것은 어디까지 인권을 보장해 줄 것이냐는 문제로 귀결되기 때문이다. 인권은 인간의 합의를 통해 도입된 개념으로 그 근거로 보통 천부인권이나 상호 이득의 협정이 제시된다. 하지만 천부인권은 합리적이지 않다는 비판을 받고, 상호 이득의 협정으로 설명하면 자의식이 없는 태아나 지적장애인의 경우 인권을 보장해주어야 하는 이유에 대해 설명하기 어려워진다. 즉, 인간의 정의는 현재로서는 사회적으로 이루어진 합의에 의존하고 있으며, 이는 시대에 따라 달라지게 될 것이다.

개인적인 생각으로는 현재의 IPA 시스템을 포함한 모든 인공지능은 인간과 비슷한 수준의 자의식을 가지고 있다고 보기는 어려우며, 인간 수준의 자의식을 가진 인공지능이 가능한 지 여부도 알 수 없다. 하지만, 인공지능이 훗날 인간이라고 인정받기 위해서는 인간 수준의 자의식을 가진 존재여야 할 것이고, 그렇기 위해서는 환경과 상호작용을 할 수 있는 육체가 존재해야 할 것이라고 생각한다. 자의식은 육체과 결코 분리해서 존재하는 것이 아니다. 훗날 육체를 가지고 인간의 뇌와 비슷한 수준의 충분히 복잡한 연산을 하는 인공지능이 등장한다면 이러한 사회적 합의가 다시 이루어질 것이라고 생각한다.

2026년의 회고

이 글을 썼던 2022년 초는 GPT-3.5 붐이 일기 전이라 AI가 지금처럼 그렇게 핫하던 시기는 아니었던 것으로 기억한다. 솔직히 말해 Gemini나 ChatGPT 같은 LLM 모델이 이렇게까지 빠른 시간 안에 발전할 수 있을 것이라곤 예상하지 못했다. 요즘 모델들을 보면 말도 너무 잘하고, 어려운 문제도 잘 풀고, 복잡한 task를 찰떡같이 알아듣고 척척 처리해내는 걸 보면 정말 놀랍다.

하지만 아직도 Next AI를 위해서는 육체가 필요하다는 근본적인 생각은 변함이 없다.

돌이켜 보면 나는 옛날부터 '뇌'와 인간의 '인식'에 대한 논의에 큰 흥미를 느꼈던 것 같다. 그래서 자정진 수업도 재미있게 들었고, 과제를 할 때도 꽤나 시간을 투자해서 다양한 자료를 찾아보며 공을 들였다.

그러한 관심이 이어져 서울대에 온 뒤에는 '철학개론' 수업을 듣기도 했다. 이때 칸트의 《순수이성비판》을 읽게 되었는데, 내가 막연하고 어렴풋하게 느꼈던 그 '결핍'의 정체를 칸트가 이미 수백 년 전에 완벽하고 치밀한 논리로 정립해 두었다는 사실을 깨닫고 엄청난 전율을 느꼈다.

어설픈 직관이 거인의 어깨 위에서 확신으로 바뀌던 그 경험이 지금 내가 생각하는 뉴로모픽 시스템과 Physical AI에서 '인문학적 모델링'이 중요하다는 생각의 뿌리가 되었다.

그때는 '다르다'는 것에 집중했다면, 지금은 '어떻게 하면 그 간극을 메울 수 있을까?'를 고민한다.

최근에 '고전에 길을 묻다'라는 수업에서 프로이트의 《꿈의 해석》을 읽고 있는데, AI에게 신체와 꿈을 부여하는 것이 그 열쇠가 될 수 있다는 흥미로운 아이디어가 있다. 이에 대한 생각은 다음 포스팅에서 정리해 보도록 하겠다.

Introduction to SDLA : AI 반도체 연구의 시작

Tue, 06 Jan 2026 07:00:42 GMT

Intro: 연구실 생활의 시작

이번 겨울방학부터 SDLA (Semiconductor Devices Lab for AI)에서 학부 연구생 인턴 생활을 시작하게 되었다.

본격적인 출근에 앞서 정규원 교수님과 면담을 가졌고, AI 반도체의 현재와 미래, 그리고 연구자로서 가져야 할 태도에 대해 깊이 있는 조언을 들을 수 있었다. 유선규, 최우석 교수님의 세미나 내용까지 통합하여, 앞으로 연구를 진행함에 있어 방향을 잃지 않도록 기록해둔다.

1. AI 반도체, 왜 필요한가? (The End of Moore's Law)

반도체 역사를 돌아보면, 무어의 법칙(Moore's Law)은 지난 수십 년간 전자 공학의 찬란한 혁명을 이끌어 온 이정표의 역할을 했다.

하지만 무어의 법칙이 흔들리기 시작한 건 이미 오래전 일이다. 트랜지스터를 작게 만들면 성능이 좋아진다는 공식(Dennard Scaling)이 깨지면서, 발열 문제로 인해 더 이상 클럭 스피드(Clock Speed)를 높이기 어려운 상황이 되었다. 인텔과 같은 기업들은 이에 대응해 코어 수를 늘리거나(Multi-core), 집적도를 극한으로 올리는 방식으로 성능을 유지해 왔다.

그러나 이제는 그마저도 물리적/경제적 한계에 봉착했다. 더 이상 단순히 집적도만 높이는 방식으로는 성능 개선이 어렵다. 설상가상으로 AI 혁명이 터지면서 전례 없는 고성능/저전력 하드웨어 수요가 폭발했다. 지금은 기존의 방식을 답습하는 것이 아니라, 완전히 새로운 패러다임이 필요한 시점이다.

2. AI 반도체의 정의와 분류

'AI 반도체'라는 용어 자체가 최근에 등장했기 때문에 아직 학계와 산업계에서 혼용되고 있다. 아직 체계적으로 정립되지 않은 분야지만, 나름대로 정리해 보면 다음과 같다.

1세대: GPU (Graphics Processing Unit)
- 원래는 그래픽 처리를 위한 병렬 연산 장치였다. 하지만 딥러닝의 핵심인 행렬 연산(Matrix Multiplication)에 적합하다는 것이 밝혀지며 초기 AI 붐을 이끌었다.
2세대: NPU (Neural Processing Unit)
- 구글의 TPU, 애플의 Neural Engine 등. AI 연산에 불필요한 기능을 덜어내고 효율을 극대화한 전용 칩셋이다.
3세대: Neuromorphic & PIM (Processing-in-Memory)
- Digital PIM: HBM-PIM, AiM 처럼 메모리 내부에서 연산을 수행하는 방식.
- Analog PIM / Neuromorphic: Synaptic devices, Memristor(RRAM, PCM), FeFET($HfO_2$) 등을 활용해 소자 레벨에서 아날로그 연산을 수행하거나 뇌를 모사하는 방식.

기본적인 발전 방향은 "AI 연산의 병목 해결 및 전력 소모 최소화"다. "AI가 전기를 너무 많이 먹는다"는 문제의식은 모두가 공유하고 있다. 이를 해결하기 위해 누군가는 더 효율적인 발전기를 연구하고, 아키텍처 레벨에서 구조를 바꾸려는 사람도 있다. 그리고 소자 연구자들은 가장 밑단의 소자 구조를 바꿔서 이 문제를 해결하려 한다.

3. Industry vs Academic

SDLA를 포함한 많은 대학 연구실들은 3세대, 그리고 그 이후를 바라보는 소자 연구를 수행한다.

과거 20~30년 전에는 대학 랩실과 삼성/하이닉스 같은 기업의 연구 환경(장비)에 큰 차이가 없었다고 한다. 하지만 지금은 다르다. 기업의 최첨단 미세 공정 장비는 대학이 도저히 따라갈 수 없는 수준이다. 따라서 역할 분담이 명확해졌다.

Industry: 당장의 수율과 양산을 고민하고, 미세 공정의 극한을 추구한다.
Academic: 산업에 바로 적용되는 기술보다는, 5년, 10년 뒤의 패러다임을 바꿀 Next Idea를 제시해야 한다. 기업이 하지 못하는, 미래 세대에 영감을 줄 수 있는 선행 연구가 대학의 몫이다.

4. 폰 노이만 병목과 PIM의 태동

현재 컴퓨터 구조의 근간인 '폰 노이만 구조(Von Neumann Architecture)'는 CPU(연산)와 메모리(저장)가 분리되어 있다.

과거에는 이 구조 덕분에 각 분야가 빠르게 발전할 수 있었다.

Applications - Compilers - OS - Architecture - Circuits - Devices/Physics

각 레이어가 철저하게 추상화(Abstraction)되어 있었기 때문에, 하드웨어 엔지니어는 물리만, 소프트웨어 엔지니어는 코딩만 파면 됐다. 하지만 요즘은 이 레이어 간의 경계가 희미해지고 있다. 하드웨어 디자인을 하려면 위쪽 레이어를 알아야 하고, 소프트웨어를 하려면 하드웨어 특성을 알아야 한다.

가장 큰 문제는 '데이터 병목(Bottleneck)'이다.

데이터를 저장하는 곳과 처리하는 곳이 분리되어 있는데, AI 연산은 데이터 양이 너무 많다. 왔다 갔다 하느라 에너지를 다 쓴다. CPU 안에 캐시 메모리(SRAM)가 있지만 용량이 부족하고, DRAM은 너무 멀리 있다. 현재 가속기에서도 메모리 관련 에너지 소모가 70% 이상을 차지한다. 이를 해결하기 위해 SRAM을 3D로 적층하거나(On-chip), DRAM과 프로세서 사이의 거리를 좁히는 시도 등 다양한 approach 들이 존재한다.

삼성전자 등 메모리 기업들은 PIM(Processing-in-Memory), 즉 메모리가 연산까지 수행하는 구조에 도전하고 있다. 아직 전체 판을 바꿀 정도의 파급력은 아니지만, 메모리의 위상이 단순 저장소에서 연산 장치로 바뀌고 있는 것은 분명하다.

5. 뉴로모픽의 난제와 기회: Next 폰 노이만은 누구인가?

뉴로모픽은 인간의 뇌가 굉장히 훌륭한 아키텍처라는 점에서 착안하여, 이를 모사해 전력 효율을 극대화하려는 시도다.

물론 인간의 뇌는 단순한 사칙연산 속도 면에서는 컴퓨터보다 느릴지 모른다. 하지만 복잡한 정보를 처리하고 추론하는 '특정 영역'에 있어서만큼은 약 20W의 전력만으로 작동하는 궁극의 저전력 고효율 시스템이다.

핵심은 구조에 있다. 인간의 뇌는 메모리와 프로세서가 따로 존재하지 않는다. 이러한 'Memory-Processing Colocation' 혹은 'Non-Von Neumann' 구조가, 현재의 전력 효율 문제와 연산 병목을 해결하는 열쇠가 될 것이라는 접근이다. 이를 반도체로 구현하는 접근법(Approach)은 크게 두 가지 갈래로 나뉜다.

생체 모방(Bio-mimetic) 접근:
- 실제 생물학적 뇌의 작동 원리를 소자 레벨에서 그대로 모사하는 방식이다.
- 특정 임계치를 넘으면 신호를 전달하는 뉴런의 스파이킹(Spiking) 동작 등을 소자의 물리적 특성으로 구현하려 한다. (SNN 등)
아날로그 컴퓨팅(Analog Computing) 접근:
- 현재 AI 모델(DNN)의 핵심인 '행렬 연산(Matrix Multiplication)'을 효율적으로 처리하는 데 집중한다.
- 0과 1의 디지털 연산이 아니라, 전류나 전압의 물리적 법칙(옴의 법칙, 키르히호프의 법칙)을 이용해 데이터를 아날로그 방식으로 한 번에 처리한다.

물론 이 두 가지가 칼로 자르듯 완전히 나뉘는 것은 아니지만, 현재 연구는 크게 이 두 방향성을 가지고 전개되고 있다.

하지만 명확한 난제가 존재한다

이러한 이상적인 개념에도 불구하고, 상용화를 위해서는 넘어야 할 산이 많다.

정확도(Accuracy) 이슈: 아날로그 연산 특성상 미세한 노이즈와 에러가 누적된다. 이는 결국 거대 모델에서 전체 시스템의 정확도가 감소하는 치명적인 문제로 귀결된다. 과거에 아날로그 컴퓨팅이 디지털에게 왕좌를 내주고 역사 속으로 사라졌던 이유도 바로 이 '노이즈에 취약한 특성' 때문이었다.
ADC의 딜레마: 연산을 아날로그 하드웨어로 아무리 효율적으로 처리해도, 결국 결과를 읽어내기 위해 디지털로 변환(ADC: Analog-to-Digital Converter)하는 과정에서 막대한 전력을 소모하게 된다. 배보다 배꼽이 커질 수 있는 상황이다. 엄밀히 따져보면, 현재 컴퓨팅 생태계의 메인스트림(Mainstream)이 '디지털'로 구축되어 있기 때문에 발생하는 필연적인 비용이기도 하다.
알고리즘의 부재 (Mismatch): 이것이 핵심이다. 현재 AI의 주류인 딥러닝 모델(Back-propagation 등)은 소프트웨어(디지털) 상에서 잘 돌아가도록 발전했지, 하드웨어 친화적이지 않다.

"Breakthrough는 어디서 오는가?"

현재 많은 연구가 기존의 잘 동작하는 AI 모델을 억지로 하드웨어로 모사하는 식이다. 하지만 애초에 하드웨어에 맞지 않는 옷을 억지로 입히니 효율과 정확도가 떨어진다.

휴머노이드 로봇을 보자. 지금 제일 좋은 로봇도 격렬한 활동과 연산을 수행하면 배터리로 불과 몇 시간도 버티기 힘들다. 시스템 자체가 새로 짜여야 한다. 반도체 소자에서 혁신이 일어나야 한다는 점에는 모두가 동의하지만, 아무도 '무엇을(What)' 해야 하는지 명확히 모르는 상황이다. 이 길을 먼저 간 선구자가 없기 때문이다.

무엇보다 우리는 아직 인간의 뇌를 완전히 이해하지 못했다. 신호 처리가 정확히 어떻게 이루어지는지, 뉴런을 어떻게 모델링해야 하는지에 대해 학설이 갈리고 있다. 따라서 뇌를 있는 그대로 '복제'하는 것은 불가능에 가깝다.

과거 앨런 튜링과 폰 노이만이 그랬던 것처럼, 중요한 것은 생물학적 뇌의 단순한 모방이 아니라 '공학적 모델링'과 재해석이다. 폰 노이만 구조는 수십 년간 검증된 전자공학의 근본(Root)이다. 뉴로모픽이 압도적인 신뢰성과 성능을 증명하지 못한다면 메인스트림이 바뀌기는 쉽지 않다.

결국 Next 폰 노이만이 필요한 시점이다.

소자만 알아서도 안 되고, 코딩만 알아서도 안 된다. 하드웨어의 물리적 특성을 완벽히 이해하면서, 동시에 그에 맞춰 AI 알고리즘을 밑바닥부터 뜯어고칠 수 있는 사람. 판을 아예 다시 짤 수 있는 융합형 인재가 이 난제를 해결할 것이다.

6. SDLA의 연구 정체성: Silicon & Full-Stack

AI 소자를 연구하는 곳은 많다. SDLA의 차별점은 "실제 산업 표준인 '실리콘(Si)' 기반의 소자"를 연구한다는 점이다.

실리콘은 이종호 교수님(SMDL)의 표현을 빌리자면 '신의 선물'이라고 할 수 있을 정도로 완벽에 가까운 장점을 가진 재료다. 강의 때마다 교수님의 '실리콘 찬양'을 듣게 되는 이유이기도 하다. 무엇보다 가장 강력한 무기는 기존 CMOS 공정 인프라와 노하우를 그대로 활용할 수 있다는 점이다.

학계에서는 산화물 반도체(Oxide), 유리 기판, 유연(Flexible) 소자 등 다양한 신소재 연구가 활발하다. 하지만 양산성과 신뢰성 측면에서 '실리콘의 벽'을 넘기는 쉽지 않은 것이 현실이다. 전 세계 반도체 시장의 90% 이상이 실리콘 기반으로, TSMC나 삼성전자의 Fab이 전부 실리콘 공정에 맞춰져 있기 때문에, 실리콘 기반으로 개발된 소자는 즉시 양산 적용(Scale-up) 검토가 가능하다. 반면, 아무리 성능이 좋은 신소재라도 전용 생산 라인을 새로 깔아야 한다면 상용화 가능성은 급격히 낮아진다. 따라서 SI 기반 소자는 현실적이고 강력한 베이스이다.

또한 SDLA는 Full-Stack 연구를 지향한다. 회사는 설계, 공정, 소자, 분석 팀이 모두 분업화되어 있다. 하지만 이곳에서는:

Problem Definition: 문제를 정의하고 가설 설정, 소자 설계
Design & Fabrication: 서울대 반도체공동연구소(ISRC)에서 방진복을 입고 직접 공정 진행
Measurement & Analysis: 결과 측정 및 피드백

소자 하나가 나오는 데 보통 1년이라는 긴 시간이 걸린다. 하지만 이 긴 호흡의 사이클을 온전히 내 손으로 컨트롤해 보는 경험은, 훗날 어떤 필드에 나가더라도 엔지니어로서 대체 불가능한 자산이 될 수 있다.

SDLA는 서울대 반도체공동연구소(ISRC)의 창립 멤버이신 이종덕 교수님부터 시작해, 과기부 장관을 역임하신 이종호 교수님(SMDL)으로 이어지는 30년 이상의 유서 깊은 연구실의 계보를 잇고 있다.

SK하이닉스와 삼성전자의 현직 사장단을 비롯해 국내에만 40명이 넘는 교수를 배출한 이 'SMDL 네트워크'는 반도체 씬에서 무시할 수 없는 거대한 자산이다. 정규원 교수님은 이종호 교수님의 제자로서, 논문들을 읽다보면 정규원 교수님의 박사과정 시절 무쌍(?)을 심심찮게 발견할 수 있다.

내가 느낀 연구실의 핵심 철학은 'Real Implementation(실제 구현/동작)'이다. 교수님께서는 면담 중에 이런 말씀을 하셨다.

"요즘 연구에 '뉴로모픽'이라는 양념만 뿌리는 식의 연구를 하는 사람이 많다. 정말로 이 문제를 해결하기 위해 실제 필요한 것이 무엇인지 치열하게 고민하는 사람은 많지 않은 것 같다."

이 말은 큰 울림을 주었다. 단순히 트렌드를 좇아 보여주기식 연구를 하는 것이 아니라, '진짜 문제'를 해결하는 연구를 해야 한다는 것. 나는 이 철학에 깊이 공감한다.

이종호 교수님이 바라보는 '뉴로모픽이 세상을 바꿀 것'이라는 강력한 비전(Vision)과, 정규원 교수님이 견지하는 '기존 소자와의 융합을 통한 현실적 해법'이라는 실용주의(Pragmatism).

나는 이 두 가지 시선을 모두 받아들이고 싶다. 뜬구름 잡는 소리가 아닌, 그렇다고 현실에만 안주하지 않는. '연구를 위한 연구'가 아니라, 세상의 문제를 실제로 해결할 수 있는 연구자.

7. 연구자로서 갖춰야 할 태도

대학원 생활의 지침이 될 만한 조언들을 정리해 본다. 사실 이러한 조언들은 개인의 상황과 성향에 맞게 받아드리면 될 것 같다.

7.1 연구 주제의 선정.

대학원 생활 5~6년은 생각보다 길다. 단순히 지금의 트렌드라서 쫓아가는 것만으로는 그 긴 시간을 버티기 힘들다. "내가 이 문제를 해결해서 세상에 어떤 기여를 하고 싶은가?"에 대한 스스로의 흥미와 확고한 철학이 있어야 지치지 않고 완주할 수 있다.

7.2. 성적표는 포트폴리오다

학부 성적표는 단순한 점수의 나열이 아니다. "내가 무엇에 관심이 있어서 어떤 테크트리를 탔는지"를 보여주는 포트폴리오다. 복수전공이든 부전공이든, 나중에 대학원이든 회사든 지원할 때 성적표는 나의 관심사와 성실함을 증명하는 가장 객관적인 자료가 된다.

과목을 선택할 때도 이 관점이 필요하다. '내가 남들에게 어떤 전문성을 가진 사람으로 보이고 싶은가?'를 고려하여 전략적으로 선택해야 한다.

수업: 전반적인 흐름을 훑고 학문적 베이스를 다지는 과정 (인증된 기록)
독학: 진짜 당장 필요해서 깊게 파야 하는 공부

수업은 때로 필요 없는 부분까지 외워야 하는 비효율적인 과정일 수 있다. 따라서 '보여주기 위한 기록'으로서의 수업과 '실질적인 실력 향상'을 위한 독학을 영리하게 구분할 줄 알아야 한다.

7.3. 설득의 기술 (Problem Finding & Selling)

연구의 핵심 역량은 세 가지다. 문제 발굴(Finding), 문제 해결(Solving), 그리고 설득(Selling). 공대에서는 문제를 푸는 법만 가르치지, 문제를 정의하고 남들에게 설명하는 법은 잘 가르치지 않는다. 정규원 교수님은 본인이 교수가 될 수 있었던 큰 이유 중 하나로 '독서'를 꼽으셨다. 꾸준한 독서를 통해 논리력을 키웠고, 덕분에 논문을 쓰거나 타인에게 내 논리를 설명하는 것이 상대적으로 수월했다고 한다.

"유기농 계란과 축사 계란의 영양성분은 사실 똑같다."

하지만 사람들은 '유기농'이라는 이미지와 스토리에 기꺼이 2배 비싼 값을 지불한다. 연구도 마찬가지다. 내가 푼 문제가 얼마나 가치 있는지, 남들을 설득하고 포장하는 능력(Marketing)이 없으면 빛을 보기 힘들다. 이를 위해서는 연구 설계 단계에서부터 큰 그림(Big Picture)을 그리는 연습을 해야 한다.

7.4. Coding + Physics

소자 하는 사람은 코딩을 싫어하고, 코딩하는 사람은 물리를 싫어한다. 둘 다 할 줄 아는 사람은 희소하다. LLM의 발전으로 코딩의 기술적 장벽은 낮아졌다. 이제 중요한 건 관점이다. 물리를 아는 사람이 인공지능과 딥러닝에 대한 인사이트까지 갖춘다면 시너지가 날 것이다.

7.5. 대학원 이후의 진로: R vs D

결국 내가 하고 싶은 게 Research인가 Development인가? 남들이 가지 않은 길을 가며 가설을 검증하는 연구(Research)를 하고 싶은지, 아니면 기술을 고도화하여 제품을 만드는 개발(Development)을 하고 싶은지 개인적 성향의 관점에서 고민해보면 도움이 될 것이다.

Outro

뉴로모픽이나 AI 반도체라는 키워드가 트렌드라서 쫓는 것이 아니라, "내가 이 문제를 해결해서 세상에 어떤 기여를 할 것인가?"에 대한 철학을 가지고 연구에 임해야겠다.

명확한 방향이 없어 어렵지만 너무나 매력적인 분야이다.

Attention, Softmax, and Boltzmann: The Essence of Transformer

Wed, 31 Dec 2025 10:34:50 GMT

"Attention Is All You Need."

간지나는 이름과 함께 세상을 뒤집어 놓은 논문이자, 현대 AI의 알파이자 오메가가 된 Transformer의 본질에 대해 고찰한다.

천마신교(天魔神敎) 세미나 | 2025.12.31
Presenter : 김현준 (doctor3390@snu.ac.kr)

1. 인공지능이란 무엇인가?

본론에 앞서 인공지능의 정의에 대해 생각해 보자.

"AI is whatever hasn't been done yet."
- Tesler's Theorem

인공지능을 명확히 정의하기는 어렵다. 그동안 기계가 해결하지 못했던 난제를 해결해 내는 것이 곧 인공지능이었다. Transformer 역시 당시 기계 번역(Translation)이라는 Task에서 기존의 한계를 뛰어넘기 위해 등장했다.

2. 기존 RNN 모델의 한계

문장은 단순한 단어 묶음이 아니라, 순서(sequence)에도 정보가 포함된다는 점에서 시계열 데이터의 성질을 띤다. 즉, 번역 같은 NLP Task를 Combinational이 아닌 Sequential Logic으로 처리하려는 접근은 공학적으로 매우 자연스러운 생각이었다.

그래서 초창기에는 RNN(LSTM 등) 기반 모델들이 주류를 이뤘다. 하지만 여기에는 크게 두 가지 치명적인 약점이 있었다.

Translation with RNN

1) Long Term Dependency (장기 의존성 문제) Latent vector가 입력 한 번마다 대략 $\gamma$배 감쇠한다고 가정해 보자. $t$번의 step이 지난 후, 초기 입력 단어의 정보는 $\gamma^t$배로 급격히 희석된다. (Vanishing Gradient) 즉, 문장의 맨 앞 단어가 문맥 이해에 결정적임에도 불구하고, 문장이 길어질수록 그 정보가 지수함수적으로 사라지는 것이다.

2) 느린 학습 속도 (Sequential Nature) RNN은 순차적으로 데이터를 처리해야 한다. $n$개의 단어로 이루어진 문장을 학습하려면, 앞 단어의 계산이 끝나야 뒷 단어를 계산할 수 있다. 즉, 병렬 처리가 불가능하며 학습 시간 복잡도가 문장 길이에 비례한다. ($\Theta(n)$)

3. 해결책: Attention

사실 Attention이라는 개념 자체는 이 논문 이전에도 존재했다 (Bahdanau et al., 2014). General 하게 Attention 이란, '주어진 Query에 대한 정보를 Value라는 Basis의 선형결합으로 다시 나타낸 것' 정도로 말할 수 있다.

하지만 이 논문은 기존의 복잡한 구조를 걷어내고, "Scaled Dot-Product Attention"이라는 간결한 방식을 제안하며 패러다임을 바꿨다.

$$ \text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{d_k}}\right)V $$

직관적으로 해석해 보자.

Query ($Q$): 내가 찾고자 하는 단어 (질의)
Key ($K$): 사전의 색인 (Label)
Value ($V$): 사전의 내용 (Actual Content)
Dimension of Key ($d_k$): 색인 벡터의 차원

우선 Scaled의 의미를 살펴보자. 수학적으로 내적을 하게 되면 차원이 커질수록 값의 분산(Variance)이 커지면서, Softmax가 한쪽으로 극단적으로 쏠리는 현상이 발생한다. 이를 방지하기 위해 $\sqrt{d_k}$로 나누어 정규화(Normalization)해 준 것이다.

$QK^T$는 두 벡터의 내적, 즉 유사도(Similarity)를 구하는 과정이다. 이를 Softmax에 통과시키면 '어떤 단어(Value)에 얼마나 집중(Attention)해서 정보를 가져올 것인가'에 대한 확률 분포가 나온다.

말하자면 "입력된 단어($Q$)가 자신과 연관된 $K$를 찾아내고, 그에 해당하는 $V$라는 기저(Basis)들의 조합을 통해 보다 추상적인 의미 공간(Latent Space)으로 자신을 재구성(Projection)하는 과정"이라고 할 수 있다.

이것은 실제 인간의 이해와도 맞닿아 있을 수 있다. "무언가를 이해한다"는 것은 "대상을 표현할 수 있는 적절한 기저(Basis)를 찾아내는 행위"와 같다.

동일한 정보 공간(Space)을 Span한다고 가정했을 때, 더 뛰어난 이해력을 가진 사람은 다음과 같은 특징을 가진 기저 집합을 찾는다.

Compact: 더 적은 수의 기저만으로 대상을 설명한다. (압축 효율성)
Orthogonal: 기저들이 서로 독립적이다. (개념의 명확한 분리)

즉, 좋은 이해를 한다는 것은 "더 적은 메모리를 이용해 더 빠르게 세상을 recall 할 수 있는 '최적의 기저'를 갖추게 된다"는 뜻이다.

(이것이 곧 이해와 지능의 본질이다 라는 것이 본 세미나에서 몇 번에 걸쳐 논의된 것으로 이와 관련한 보다 자세한 이야기는 추후에 별도 포스트에서 다루도록 한다.)

Figure 2: (left) Scaled Dot-Product Attention. (right) Multi-Head Attention

Attention 메커니즘이 $Q$를 설명하기 위한 최적의 기저($V$)를 찾는 과정이라고 했다. 하지만, 복잡한 세상의 정보를 단 하나의 기저 집합만으로 완벽하게 설명할 수 있을까?

논문에서는 Multi-Head Attention을 도입하여 이 문제를 해결한다. 말 그대로 Attention을 여러 번($h$번) 병렬로 수행하는 것이다.

$$ \text{MultiHead}(Q, K, V) = \text{Concat}(\text{head}_1, \dots, \text{head}_h)W^O $$

이것의 의미는 직관적으로 "대상을 다양한 관점(Multiple Perspectives)에서 해석하겠다"는 것이다. 예컨대 같은 문장을 보더라도 어떤 Head는 문법적 구조(Syntactic)에 집중하고, 어떤 Head는 의미적 관계(Semantic)에, 또 다른 Head는 시제나 화자에 집중하는 식이다.

마치 장님이 코끼리를 만질 때, 다리를 만지는 사람, 코를 만지는 사람, 귀를 만지는 사람의 정보를 모두 합쳐야(Concat) 비로소 온전한 코끼리의 형상이 나오는 것과 같다. 즉, 서로 다른 부분 공간(Subspace)으로 정보를 투영시켜, 정보의 입체성을 확보하는 전략이다.

4. Transformer의 작동 원리

Transformer는 이 Attention을 겹겹이 쌓은 구조다.

Figure 1. The Transformer - model architecture

1. Encoder (Left): 이해의 과정

Self-Attention: 한국어 문장(Source) 전체를 한 번에 입력받는다. 단어들 간의 관계를 파악하여, 이를 문맥이 반영된 '의미 공간상의 벡터(Latent Vector)'로 변환한다. ($Q, K, V$ 모두 원문에서 유래)

2. Decoder (Right): 생성의 과정

Masked Self-Attention: 현재까지 생성된 영어 단어들만을 보며 문맥을 파악한다. (미래의 정답 단어를 미리 보는 것을 막기 위해 가림막(Mask)을 씌운다.)
Encoder-Decoder Attention: Decoder가 $Q$(현재 작성 중인 문장)를 던지면, Encoder가 $K, V$(원문의 맥락)를 제공한다. 즉, "내가 지금 이런 문장을 쓰고 있는데, 원문에서 어떤 부분을 참고하면 될까?"를 물어보는 과정이다. ($\rightarrow$ 생성의 과정)

3. Positional Encoding: 순서를 주입하다 예리한 사람이라면 여기서 의문을 가질 것이다. Attention 메커니즘은 입력을 병렬로 처리하기 때문에 본질적으로 순서 정보(Sequence)를 인지하지 못한다. (마치 순서가 없는 집합(Set)과 같이 동작함) 따라서 Transformer는 입력 임베딩에 위치 정보를 강제로 주입하는 방식을 택했다.

$$ \text{Input} = \text{Embedding}(X) + \text{PositionalEncoding} $$

단어 벡터에 고유한 주파수를 가진 사인/코사인(Sin/Cos) 파동값을 더해줌으로써, 위치 정보(Bias)를 심어주는 것이다.

기존 한계의 극복 (Why Transformer?)

이제, 이 구조가 어떻게 RNN의 고질적인 문제들을 해결했는지 확인해 보자.

1) Long Term Dependency 해결 (정보 손실 $\rightarrow$ 직접 연결) Encoder는 문장의 모든 단어를 동시에 바라본다(Attention). 이 과정에서 문장의 맨 앞 단어와 맨 뒤 단어가 물리적 거리에 상관없이 행렬 연산을 통해 직접 연결(Direct Connection)된다. 즉, 거리가 멀어질수록 정보가 희석되던 RNN과 달리, Transformer는 긴 문맥도 손실 없이 완벽하게 파악할 수 있다.

2) 학습 속도 문제 해결 (순차 처리 $\rightarrow$ 병렬 처리) RNN은 앞 단어의 계산이 끝나야 뒷 단어를 계산할 수 있는 순차적(Sequential) 구조였다. 반면 Transformer는 학습 단계에서 정답을 이미 알고 있으므로, Masking을 통해 전체 문장을 하나의 거대한 행렬로 만들어 병렬적(Parallel)으로 처리한다. 문장 길이에 비례하던 연산 제약이 사라지며 학습 속도가 비약적으로 향상되었다.

5. GPT와 BERT: 생성과 이해

Transformer의 성공 이후, AI 연구의 핵심은 "답지(Label)가 없는 데이터로 학습이 가능한가?"라는 질문으로 옮겨갔다.

인터넷상에는 한국어-영어 정답 쌍은 부족하지만, 단순히 글자만 적혀 있는 데이터, 즉 말뭉치(Corpus)는 사실상 무한하게 존재한다. 이 방대한 Corpus 자체를 학습에 이용할 수 있다면, 그 잠재가치는 엄청나다.

이 아이디어를 기반으로 거대 언어 모델의 양대 산맥이 탄생했다.

BERT (Google): Transformer의 Encoder 구조를 활용. 문장의 중간을 가리고 맞추는 "빈칸 채우기(Masked LM)"를 학습한다. 문맥을 양방향(Bidirectional)으로 파악하므로 문장의 이해(Understanding)에 강점이 있다.
GPT (OpenAI): Transformer의 Decoder 구조를 활용. 이전 단어들을 보고 "다음 단어 맞추기(Next Token Prediction)"를 학습한다. 문장을 생성(Generation)하는 데 특화되어 있다.

GPT의 진화: "Scale is All You Need"

특히 OpenAI는 "다음 단어 예측"이라는 단순한 과제에 담긴 거대한 가능성에 주목하고, 모델을 단계적으로 진화시켰다.

GPT-1 (Insight): 모델 끝단에 긍/부정 판독기를 달아 실험한 결과, 별도의 지도 학습 없이도 문장을 훌륭하게 분류해냈다. 이는 "다음에 올 단어를 정확히 예측하려면, 이미 문장 전체의 의미를 이해하고 있어야 한다"는 사실을 증명한 것이다.
GPT-2 (Hypothesis): 별도의 튜닝 없이 "Task Description + Context"만 던져줘도 그럴듯한 답변을 생성함을 확인했다. 연구진은 지능이 알고리즘의 복잡도가 아닌 "모델의 크기(Scale)와 데이터의 양"에 비례할 수 있다는 가설을 세운다.
GPT-3 (Revolution): 가설을 검증하기 위해 파라미터를 무려 100배 이상 키웠고, 그 결과 모델은 인간 수준의 유창함을 보여주며 현재 LLM 혁명의 시발점이 되었다.

6. Transformer의 효율성에 대한 고찰

오늘 세미나의 핵심 질문 "도대체 Transformer는 왜 이토록 강력한가?"

공학적인 관점에서 Transformer는 RNN의 시간 복잡도(Time Complexity)를 공간 복잡도(Space Complexity)와 맞바꾼 거래다. 순차 처리를 없애기 위해 거대한 행렬($N \times N$)을 메모리에 올리는 방식을 택했고, 이는 필연적으로 모델의 사이즈를 거대하게 만들었다.

하지만 단순히 "몸집을 키워서" 잘하는 것일까? 그렇다면 과거의 거대 MLP 모델들은 왜 실패했는가?

앞서 Attention을 설명하면서 이것이 인간의 이해의 메커니즘을 모사한 것이기 때문일 수 있다는 이야기를 했다.

또 하나의 흥미로운 점은 Transformer의 핵심인 Softmax 함수가 통계역학의 볼츠만 분포와 형태적으로 동치라는 것이다.

$$ P_i = \frac{e^{-E_i / kT}}{\sum e^{-E_j / kT}} \quad (\text{Boltzmann}) \quad \leftrightarrow \quad \text{softmax}(x_i) = \frac{e^{x_i}}{\sum e^{x_j}} $$

자연(Nature)은 언제나 에너지를 최소화하고 엔트로피를 최대화하는 방향(Free Energy Minimization)으로 움직인다. 볼츠만 분포는 입자가 특정 에너지 상태에 존재할 확률을 나타내는 자연의 가장 근본적인 법칙이다.

Transformer가 학습하는 과정은 Loss(에너지)를 최소화하는 방향으로 가중치를 업데이트하는 과정이다.

어쩌면 Transformer가 언어를 그토록 잘 이해하는 이유는, 이 모델의 근간이 되는 수식이 자연계가 정보를 처리하고 평형 상태를 찾아가는 물리적 법칙과 맞닿아 있기 때문일 수 있다.

이러한 Energy-based Model 관점에서의 해석은 next AI (Tesler's Theorem) 연구를 위한 중요한 단서가 될 수 있다.

이 이상은 대외비로 공개하지 않는다. 컴퓨팅이 무엇인가?, 자연은 거대한 아날로그 컴퓨터인가? 에 대한 흥미로운 이야기들도 세미나에서 논의된 바 있다

천마신교(天魔神敎)
김현준 (doctor3390@snu.ac.kr)
김희민 (heemin0924@snu.ac.kr)
박정민 (1348jungmin@snu.ac.kr)
최재현 (kmnops0920@snu.ac.kr)