<?xml version="1.0" encoding="utf-8"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>dirac_on.log</title>
        <link>https://velog.io/</link>
        <description></description>
        <lastBuildDate>Mon, 29 Sep 2025 05:47:03 GMT</lastBuildDate>
        <docs>https://validator.w3.org/feed/docs/rss2.html</docs>
        <generator>https://github.com/jpmonette/feed</generator>
        <image>
            <title>dirac_on.log</title>
            <url>https://velog.velcdn.com/images/dirac_on/profile/fc1f36c9-f121-4908-90a4-ac773fc567ef/image.png</url>
            <link>https://velog.io/</link>
        </image>
        <copyright>Copyright (C) 2019. dirac_on.log. All rights reserved.</copyright>
        <atom:link href="https://v2.velog.io/rss/dirac_on" rel="self" type="application/rss+xml"/>
        <item>
            <title><![CDATA[친애하는 무능력자에게]]></title>
            <link>https://velog.io/@dirac_on/gp7s2v18</link>
            <guid>https://velog.io/@dirac_on/gp7s2v18</guid>
            <pubDate>Mon, 29 Sep 2025 05:47:03 GMT</pubDate>
            <description><![CDATA[<p>의도는 없었어도 무능이 용납되진 않는다.</p>
<p>악의가 없었어도 가해가 용서되진 않는다.</p>
<p>그 나이 먹고 아직 그 정도 현실 파악도 못한 거야?</p>
]]></description>
        </item>
        <item>
            <title><![CDATA[쓴웃음]]></title>
            <link>https://velog.io/@dirac_on/%EC%93%B4%EC%9B%83%EC%9D%8C</link>
            <guid>https://velog.io/@dirac_on/%EC%93%B4%EC%9B%83%EC%9D%8C</guid>
            <pubDate>Fri, 26 Sep 2025 13:50:15 GMT</pubDate>
            <description><![CDATA[<p>내가 파악한 인간 군상은 틀린 적이 없는데, 내가 틀렸다고 한다면, 글쎄, 이제 과연 어떻게 될까...?</p>
]]></description>
        </item>
        <item>
            <title><![CDATA[아이작 뉴턴의 명언]]></title>
            <link>https://velog.io/@dirac_on/%EC%95%84%EC%9D%B4%EC%9E%91-%EB%89%B4%ED%84%B4%EC%9D%98-%EB%AA%85%EC%96%B8</link>
            <guid>https://velog.io/@dirac_on/%EC%95%84%EC%9D%B4%EC%9E%91-%EB%89%B4%ED%84%B4%EC%9D%98-%EB%AA%85%EC%96%B8</guid>
            <pubDate>Fri, 26 Sep 2025 06:53:26 GMT</pubDate>
            <description><![CDATA[<p>&quot;I can calculate the motion of heavenly bodies, but not the madness of people.&quot;
&quot;나는 천체의 움직임은 계산할 수 있으나, 인간의 광기는 계산하지 못한다.&quot;</p>
<p>- 아이작 뉴턴(Isaac Newton)</p>
<hr>
<p>주식을 말아먹은 뒤에 한 말이라고 알려져 있지만 왠지 난 요즘 내 주변 상황에 맞는 말 같아 보인다.</p>
]]></description>
        </item>
        <item>
            <title><![CDATA[LLM은 어떻게 전자양을 꿈꾸게 되었나]]></title>
            <link>https://velog.io/@dirac_on/LLM%EC%9D%80-%EC%96%B4%EB%96%BB%EA%B2%8C-%EC%A0%84%EC%9E%90%EC%96%91%EC%9D%84-%EA%BF%88%EA%BE%B8%EA%B2%8C-%EB%90%98%EC%97%88%EB%82%98-1</link>
            <guid>https://velog.io/@dirac_on/LLM%EC%9D%80-%EC%96%B4%EB%96%BB%EA%B2%8C-%EC%A0%84%EC%9E%90%EC%96%91%EC%9D%84-%EA%BF%88%EA%BE%B8%EA%B2%8C-%EB%90%98%EC%97%88%EB%82%98-1</guid>
            <pubDate>Wed, 18 Jun 2025 13:13:36 GMT</pubDate>
            <description><![CDATA[<p>글을 시작하기에 앞서, 제목에서 풍기는 대중적인 어감과 달리 이 글은 다분히 기술적인 이야기를 담고 있음을 밝힌다.</p>
<p>본래 의도했던 내용과 결이 많이 달라져서 시리즈를 이어가는 대신 그냥 노선을 중간에 틀어야 했다. 결론만 짧게 이야기하자면, LLM은 왜 거대해야 하며, 그것이 기존의 AI와 어떤 차이를 만들었는지에 대한 이야기다.</p>
<h2 id="핵심-질문-왜-거대함이-지능을-만드는가">핵심 질문: 왜 &#39;거대함&#39;이 지능을 만드는가?</h2>
<p>GPT-3가 본격적인 LLM의 시대를 열었다는 것에는 다들 이견이 없다. 그러나, GPT-3가 그 당시 주목 받을 수 있었던 이유는 단순히 그 거대한 크기 때문이 아니다. 다음 그래프가 보여주는 것은 모델 크기에 따른 <strong>창발적 능력(emergent ability)</strong>의 출현이다.</p>
<p><img src="https://velog.velcdn.com/images/dirac_on/post/0ff22a72-f049-49d8-9141-6844c1c7d32f/image.png" alt=""></p>
<p>학습 없이 적은 수의 예제만으로 새로운 작업을 수행하는 것을 <strong>few-shot learning</strong>이라고 한다. 이는 단순한 패턴 매칭을 넘어선 초보적인 지능, 즉 주어진 지식을 처리할 수 있는 추론 능력을 의미한다. 하지만 &#39;거대한 모델에 방대한 데이터를 주입한다&#39; 는 1차원적인 설명으로는 부족하다. 대체 <strong>왜</strong> 모델의 크기가 커져야만 이것이 가능해지는지, 바로 그것이 핵심이다.</p>
<h2 id="언어의-본질적-특성-구조적-희소성structural-sparsity">언어의 본질적 특성: 구조적 희소성(Structural Sparsity)</h2>
<p>모든 딥러닝 모델은 <strong>손실 함수(loss function)</strong>를 최소화하는 방식으로 학습한다. 그런데 언어는 다른 데이터와 근본적으로 다른 특성을 갖는다. 가령 시각 정보와 언어 정보를 다음의 예시를 통해 비교해 보자.</p>
<ul>
<li><p><strong>시각 데이터</strong>는 <strong>내재된 공간적 구조(spatial structure)를 갖는다.</strong>
사과를 모르는 사람에게 사과 10개를 보여주면, 사과가 무엇인지 몰라도 &quot;같은 객체 10개&quot; 라는 패턴을 즉시 인식할 수 있다. 이는 사과를 정의하는 시각 정보가 모두 유사한 공간적 구조를 갖고 있기 때문이다.</p>
</li>
<li><p><strong>언어 데이터</strong>는 <strong>임의적인 기호 체계(arbitrary symbolic system)를 갖는다.</strong>
한국어를 모르는 화자에게 &quot;사과 드립니다&quot; 와 &quot;사과는 맛있어&quot; 라는 두 문장을 보여주면, 두 문장의 의미 차이를 즉시 파악할 수 없다. 같은 &#39;사과&#39; 라는 단어가 쓰였지만 그 의미가 서로 다르기 때문에, 맥락을 고려하지 않으면 둘 사이의 관계를 유추할 수 없기 때문이다.</p>
</li>
</ul>
<p>이것이 <strong>구조적 희소성</strong>이다. 언어 데이터에서는 의미 있는 패턴의 밀도가 극도로 낮다는 뜻이다.</p>
<h2 id="제한된-용량에서의-최적화-전략">제한된 용량에서의 최적화 전략</h2>
<p>작은 모델이 제한된 데이터로 loss를 줄이는 가장 효율적인 방법은 <strong>국지적 패턴(local patterns)</strong>을 먼저 학습하는 것이다.</p>
<ul>
<li>특정 언어의 문법적 규칙</li>
<li>특정한 어휘들이 동시에 등장하는 빈도(co-occurence)</li>
<li>짧고 간단한 구문 구조</li>
</ul>
<p>이는 곧 <strong>표면적 언어학 지식(surface-level linguistic knowledge)</strong>에 해당한다.</p>
<h2 id="임계점을-넘어선-모델의-행동-변화">임계점을 넘어선 모델의 행동 변화</h2>
<p>누군가 이런 생각을 했다.</p>
<p>충분한 용량(가중치)과 데이터, 그리고 <strong>장기적 의존성(long-range dependencies)</strong>을 처리할 수 있는 컨텍스트 윈도우가 주어지면 상황이 바뀌지 않을까?</p>
<p>그리고 그들은 실제로 상황이 바뀌는 것을 목격했고, GPT-3는 그렇게 세상에 등장할 수 있었다... 라는, 농담 반 진담 반의 가설이다.</p>
<p>어찌 됐건, 이 상태에서는 국지적 패턴을 학습하는 것만으로 더 이상 loss를 줄일 수 없는 지점에 도달한다. 하지만 참고할 데이터도, 가중치의 용량도 아직 넉넉하다. 모델은 loss를 줄일 방법을 고민하다, 끝내는 남은 가중치를 쥐어짜 <strong>전역적 패턴(global patterns)</strong>을 학습하기 시작한다.</p>
<ul>
<li>담화 구조(discourse structure)</li>
<li>개념 간 추상적 관계</li>
<li>문맥에 기반한 의미 해석</li>
</ul>
<p>전역적 패턴 학습은 <strong>메타인지적 능력(metacognitive ability)</strong>을 요구한다. 단순히 패턴을 기억하는 것이 아니라, 패턴들 간의 관계를 파악하고 새로운 상황에 적용하는 능력이다.</p>
<p>메타인지적 처리와 단순 암기의 차이를 보자.</p>
<p><strong>단순 암기</strong></p>
<pre><code>입력: &quot;2+2의 값은 무엇인가?&quot;
출력: &quot;4&quot; (미리 저장된 답)</code></pre><p><strong>메타인지적 처리</strong></p>
<pre><code>입력: &quot;23847+59273의 값은 무엇인가?&quot;
과정: 
1. 덧셈 패턴 인식
2. 자릿수 처리 규칙 적용  
3. 받아올림 메타 규칙 사용
4. 결과 검증
출력: &quot;83120&quot;</code></pre><p>이런 능력은 <strong>다층적 추상화(multi-level abstraction)</strong>를 요구한다.</p>
<ul>
<li>Level 1: 토큰 패턴 (문법, 어휘)</li>
<li>Level 2: 의미 패턴 (개념, 관계)  </li>
<li>Level 3: 구조 패턴 (논리, 담화)</li>
<li>Level 4: 메타 패턴 (패턴 간 관계, 적용 규칙)</li>
</ul>
<h2 id="메타-패턴과-추론-능력의-출현">메타 패턴과 추론 능력의 출현</h2>
<p>여기서 핵심은 <strong>메타 패턴(meta-pattern)</strong> 학습이다. 이는 다음 과정을 포함한다.</p>
<ol>
<li>입력 패턴 분석</li>
<li>유사 패턴군 식별  </li>
<li>패턴군의 변환 규칙 추출</li>
<li>새로운 입력에 규칙 적용</li>
</ol>
<p>구체적으로 살펴보자:</p>
<p><strong>1단계: 단순 패턴 기억</strong></p>
<pre><code>&quot;사과는 빨갛다&quot; → 사과 = 빨간색
&quot;바나나는 노랗다&quot; → 바나나 = 노란색</code></pre><p>이는 단순한 <strong>연상 기억(associative memory)</strong>이다.</p>
<p><strong>2단계: 패턴 간 관계 파악</strong></p>
<pre><code>예제로부터 패턴 인식: &quot;사과는 빨갛다. 바나나는 노랗다. 귤은 주황색이다. 그렇다면 체리는?&quot;
메타 규칙: 과일 → 색깔 서술 구조를 파악하여 기존 지식과 연결
구조를 기반으로 새로운 적용: &quot;체리는?&quot; → &quot;빨갛다&quot;</code></pre><p><strong>3단계: 복잡한 사고 패턴 적용</strong></p>
<p>&quot;셰익스피어가 AI에 대해 뭐라고 했을까?&quot;라는 질문에서:</p>
<pre><code>불가능성 인식: 셰익스피어 시대에 AI 개념 없음
의도 파악: 셰익스피어 문체로 AI 견해 요청
패턴 결합: 셰익스피어 문체 + AI 개념 + 당대 철학적 관점
창조적 합성: 새로운 텍스트 생성</code></pre><p>이는 <strong>귀납적 추론(inductive reasoning)</strong>을 구현한 것이며, 지금까지의 AI처럼 단순한 패턴 매칭만으로는 이러한 사고 과정을 모사할 수 없다.</p>
<p>언어 패턴의 조합적 복잡성(combinatorial complexity)을 고려하면, 가능한 모든 패턴을 저장하는 것은 현실적으로 불가능하다. 따라서 LLM은 <strong>압축된 표현(compressed representation)</strong>을 통해 패턴의 생성 규칙을 학습한다.</p>
<h2 id="왜-거대함이-필요한가">왜 &#39;거대함&#39;이 필요한가?</h2>
<p>지금까지의 내용을 요약하면 LLM이 거대해야 하는 이유는 다음의 두 가지로 정리할 수 있다.</p>
<ul>
<li><p><strong>표현력 가설(Expressivity Hypothesis)</strong>: 복잡한 전역적 패턴을 표현하려면 충분한 모델 용량이 필요하다. 작은 모델로는 고차원 패턴 공간에서의 복잡한 함수를 근사할 수 없다.</p>
</li>
<li><p><strong>임계 질량 가설(Critical Mass Hypothesis)</strong>: 메타 패턴 학습에는 임계 수준 이상의 데이터와 가중치가 필요하다. 이 임계점을 넘어야 창발적 능력이 나타난다.</p>
</li>
</ul>
<p>다시 말해 작은 모델은 언어가 가진 국지적 특성을 학습하기 위해 보유한 가중치의 용량을 모두 사용하지만, 그 이상으로 거대한 모델은 언어가 가진 전역적 특성을 모사하고 메타 패턴을 인지할 수 있는 <strong>표현 공간(representation space)</strong>을 확보할 수 있다.</p>
<p>따라서 LLM의 지능은 단순히 몸집만 불려서 나타난 결과가 아니라, 언어의 구조적 특성과 학습 알고리즘의 특징이 결합하여 나타나는 <strong>창발적 현상(emergent phenomenon)</strong>이다.</p>
<p>cf. 사실, 이 부분에 대해 내가 쓴 원문의 설명이 너무 장황해서, AI에게 도움을 요청했다. 그 결과로 내용의 핵심은 유지하면서도, 표현이 조금 더 축약하고 용어가 전문가답게 가다듬어진 좋은 글이 만들어졌다. 그러나 내 글에서 자주 나오는 말투와는 차이가 크기도 하고, 그다지 거창한 이름을 붙여가며 쓴 글은 아니었기에 다소 어색하게 느껴지는 점은 어쩔 수가 없었다. 그러나 어쨌건 내 글보다 읽기 쉬워진 건 사실이라, AI의 작문 실력을 존중하여(?) 그냥 고치지 않고 두기로 했다.</p>
<h2 id="결론">결론</h2>
<p><a href="https://namu.wiki/w/%EC%A4%91%EA%B5%AD%EC%96%B4%20%EB%B0%A9">중국어 방</a>이라는, AI 쪽에선 매우 오래 된 역설이 있다. 요지만 설명하면, AI가 인간과 구분할 수 없게 된다 해도 그 사고 과정이 &#39;생각&#39; 일지 &#39;암기&#39; 일지는 알 수 없다는 것이다.</p>
<p>그러나 위의 내용에서 알 수 있다시피, LLM을 단순한 패턴 매칭이나 중국어 방으로 이해하는 것은 핵심을 놓치는 것이다. 언어는 다른 데이터에 비해 그 구조적 희소성이 매우 높다. 이는 곧 &#39;암기&#39; 의 난이도가 다른 데이터보다 훨씬 높다는 것을 의미한다. 현재 자주 사용되는 수십~수천억 정도의 가중치로는 언어의 형태로 저장된 방대한 지식을 암기만 가지고선 다룰 수 없다. 이는 위에 언급된 압축된 표현을 사용하더라도 마찬가지다.</p>
<p>즉, LLM은 실제로 <strong>계층적 추상화(hierarchical abstraction)</strong>와 <strong>메타인지적 처리(metacognitive processing)</strong>를 통해 언어의 구조적 희소성을 극복하고 지식을 습득하는, 고도화된 통계적 시스템이다.</p>
<p>난 어떤 사람이 아무리 숙련된 LLM 엔지니어라고 하더라도, 이런 메커니즘을 이해하지 못하고 &#39;LLM은 그냥 큰 모델&#39; 이라고 말한다면 그 사람에게 전문가라는 칭호를 붙이지 않는다. 진정한 이해는 &quot;어떻게?&quot; 와 &quot;왜?&quot; 에 대한 깊은 숙고를 요구한다.</p>
]]></description>
        </item>
    </channel>
</rss>