AI 모델의 한계: LLM이 여전히 할 수 없는 것과 그 이유

AI 모델에 대해 열광적인 신봉자가 되거나 반사적인 회의론자가 되기는 쉽습니다. 더 유용한 입장은 그 중간에 있는 지루한 입장입니다. 즉, 이 도구들은 진정으로 강력하며, 동시에 명확히 이해된 엄격한 한계가 있다는 것입니다. 만약 당신이 이 도구들을 활용해 무언가를 만든다면, 모델이 정확히 어느 지점에서 무너지는지를 아는 것이 견고한 제품과 실제 사용자 앞에서 무너져 내리는 데모를 구분 짓는 차이가 됩니다.

그래서 여기 오늘날 모델들의 실제 한계와, 더 중요하게는 — 각 한계가 존재하는 '이유'에 대한 안내가 있습니다. 이 '이유'를 아는 것이 실패에 놀라는 대신 실패를 예측할 수 있게 해줍니다.

1. 사실을 지어내며, 자신이 지어내고 있다는 사실을 알지 못함

가장 유명한 한계는 환각 (Hallucination)입니다. 모델은 조작된 사실, 가짜 인용구, 또는 존재하지 않는 API 메서드를 정답을 말할 때와 똑같이 유창하고 자신감 넘치는 태도로 진술할 것입니다.

이유: LLM은 '진실된' 텍스트가 아니라 '그럴듯한' 텍스트의 연속을 생성하도록 훈련되었습니다. 내부적인 사실 확인 장치(fact-checker)도 없고, "나는 실제로 이것을 모른다"라는 개념도 없습니다. 만약 프롬프트(Prompt)를 고려했을 때 자신감 있게 들리는 틀린 답이 통계적으로 가능성이 높다면, 모델은 정답만큼이나 매끄럽게 그것을 생성합니다. 자신감과 정확성은 완전히 분리되어 있습니다.

해결 방법: 모든 사실적 주장을 검증되지 않은 것으로 취급하십시오. 검색 증강 생성 (RAG)을 사용하여 답변을 실제 문서에 근거하게 만들고, 확인할 수 있는 출처를 요구하며, 자신감 있는 거짓말이 실제 피해를 줄 수 있는 상황에서 모델의 가공되지 않은 출력물을 사용자에게 그대로 노출하지 마십시오.

2. 지식이 시간에 따라 동결되어 있음

모델은 학습 데이터(Training data)에 포함된 내용, 즉 특정 차단 날짜(Cutoff date)까지의 정보만을 알고 있습니다. 그 이후의 것에 대해 질문하면 무지를 인정하거나, 더 나쁜 경우에는 자신 있게 즉흥적으로 답변할 것입니다.

이유: 학습(Training)은 불연속적이며 엄청나게 비용이 많이 드는 이벤트입니다. 모델의 "지식"은 그 순간의 가중치 (Weights)에 구워져(baked) 있으며, 세상이 변함에 따라 업데이트되지 않습니다.

해결 방법: 이것이 바로 웹 검색과 검색 파이프라인이 존재하는 정확한 이유입니다. 동결된 가중치에 의존하는 대신, 실행 시점(Runtime)에 프롬프트에 신선한 정보를 주입하는 것입니다.

3. 호출 간의 메모리가 없습니다

각 API 요청은 독립적입니다. 모델은 사용자의 지난 대화, 선호도, 또는 5분 전에 사용자에게 말했던 내용을 기억하지 못합니다. 채팅 앱들은 매 메시지마다 전체 이력을 다시 전송함으로써 연속성을 (fake)하게 만들어냅니다.

이유: 모델은 상태가 없는 함수(Stateless function)입니다. 모델의 유일한 "메모리"는 현재 프롬프트에 입력된 텍스트뿐입니다. 모델 측에는 아무것도 유지되지 않습니다.

해결 방법: 사용자 메모리, 대화 이력, 학습된 선호도와 같은 모든 영속성(Persistence)은 (you)가 직접 구축하여 다시 주입해야 하는 영역입니다. 모델이 이를 대신 해주지는 않습니다.

4. 컨텍스트 윈도우(Context window)는 유한하며, 성능이 저하됩니다

모델이 "볼" 수 있는 모든 것 — 프롬프트, 지시 사항, 이력, 검색된 문서 — 은 고정된 토큰 예산(Token budget) 내에 들어와야 합니다. 그리고 그 예산 내에서도 모델은 모든 부분을 동일하게 잘 사용하지 못합니다. 긴 컨텍스트의 중간에 묻혀 있는 정보는 시작 부분이나 끝 부분에 있는 자료보다 주의(Attention)를 덜 받는 경향이 있습니다 ("중간에서 길을 잃는(lost in the middle)" 효과).

이유: 어텐션(Attention)은 제한된 시퀀스 위에서 작동하며, 그 품질은 매우 긴 입력값 전체에 걸쳐 균일하지 않습니다. 더 많은 컨텍스트가 자동으로 더 좋은 컨텍스트를 의미하지는 않습니다.

해결 방법: 가장 중요한 지시 사항과 데이터를 시작 부분이나 끝 부분에 배치하세요. 긴 자료를 한꺼번에 쏟아붓기보다는 요약하거나 청크(Chunk)로 나누세요. 거대한 컨텍스트 윈도우가 있다고 해서 모델이 실제로 그 모든 내용을 동일하게 추론하고 있다고 가정해서는 안 됩니다.

5. 길고 다단계인 작업에서 무너집니다

모델은 단일 단계는 완벽하게 수행할 수 있지만, 50단계의 순차적인 과정이 필요한 작업은 실패할 수 있습니다. 이는 전형적인 "데모에서는 훌륭하지만, 에이전트(Agent)로서는 신뢰할 수 없는" 문제입니다.

이유: 오류가 누적됩니다. 단계별 오류율이 아주 낮더라도, 긴 체인(Chain)을 거치면 거의 확실한 실패로 이어집니다. 더 심각한 것은 최근 연구에서 강조된 자기 조건화(Self-conditioning) 효과입니다. 모델이 자신의 출력물 초기에 한 번 실수를 하면, 자신의 결함이 있는 작업에 조건화된(Conditioned) 토큰을 예측하게 되므로 추가적인 실수를 저지를 가능성이 더욱 높아집니다. 예측 범위(Horizon)가 길어질수록 상황은 악화됩니다.

해결 방법: 큰 작업을 작고 독립적으로 검증 가능한 단계로 분해하십시오. 단계 사이에 검증 과정을 거치십시오. 잘못된 단계가 이후의 모든 과정을 조용히 망가뜨릴 수 있는 작업의 경우, 인간이나 결정론적 검사기(Deterministic checker)를 루프(Loop) 안에 포함시키십시오.

6. "추론 (Reasoning)"은 보기보다 취약합니다

모델은 진정으로 인상적인 추론 체인을 생성할 수 있지만, 이름이나 숫자만 바꾸어도 논리적으로 동일한 문제에서 실패할 수 있습니다. 모델은 문제를 진정으로 이해하는 사람이라면 그렇지 않을 방식으로 표면적인 문구(Surface phrasing)에 민감하게 반응합니다.

이유: 추론처럼 보이는 것의 상당 부분은 모델이 학습한 데이터에 대한 정교한 패턴 매칭 (Pattern-matching)입니다. 문제가 학습 분포 (Training distribution)와 가까울 때는 뛰어난 성능을 발휘합니다. 하지만 문제를 학습 분포에서 진정으로 벗어나게 밀어붙이면, 겉으로 보이는 추론 능력이 무너질 수 있습니다. 추론 시점에 더 많은 연산량 (Compute)을 사용하는 최신 "사고하는 (Thinking)" 모델들이 이 문제를 완화하는 데 도움을 주지만, 근본적인 취약성을 완전히 제거하지는 못합니다.

해결 방법: 검증 없이 새로운 문제나 이해관계가 큰 (High-stakes) 문제에 대한 추론을 신뢰하지 마십시오. 모델이 처음부터 신뢰할 수 있는 논리를 발명하기를 기대하기보다는, 모델에게 구조(계획, 제약 조건)를 제공하십시오.

7. 물리적 세계에 대한 근거 (Grounding)가 없음

모델은 세상 속에서 살아가는 것이 아니라 텍스트와 이미지로부터 모든 것을 배웠습니다. 모델은 감각도, 신체도 없으며, 물리학에 대한 실제적인 인과 모델 (Causal model)도 없습니다. 모델은 자전거를 타는 법을 완벽하게 설명할 수 있지만, 균형을 잡는다는 것이 실제로 어떤 느낌인지는 전혀 알지 못합니다.

이유: 체화 (Embodiment)가 없으며 학습 과정에서 실세계의 피드백 루프 (Feedback loop)가 존재하지 않습니다. 모델은 사람들이 세상에 대해 어떻게 _쓰는지_를 알 뿐이며, 이는 세상을 이해하는 것과는 다릅니다.

해결 방안: 실제 물리적 세계에 대한 추론, 인과 관계 (Causality), 또는 상식적 근거 (Common-sense grounding)가 중요한 모든 상황에서 주의를 기울여야 합니다. 특정 도메인에 대한 텍스트 유창성 (Text fluency)이 곧 그 도메인에 대한 역량 (Competence)을 의미하지는 않습니다.

8. 데이터의 편향과 공백을 상속받음

모델은 학습 데이터 — 해당 데이터의 편향 (Biases), 사각지대 (Blind spots), 그리고 과잉 대표된 관점 (Overrepresented viewpoints)을 포함하여 — 를 반영합니다. 모델은 고정관념을 조용히 인코딩하거나, 온라인에서 과소 대표된 주제, 언어, 문화에 대해 체계적으로 취약할 수 있습니다.

이유: 모델은 코퍼스 (Corpus)의 압축 (Compression)입니다. 데이터에 존재하는 어떤 왜곡이든 출력물에 나타나는 경향이 있으며, 때로는 증폭되기도 합니다.

해결 방안: 다양한 사례에 걸쳐 테스트하고, 중립성을 가정하지 마십시오. 특히 사람에 대한 중대한 결정을 내리는 데 이러한 시스템을 사용할 때는 각별히 주의해야 합니다.

9. 무차별적인 스케일링 (Brute-force scaling)의 수익 체감

수년 동안의 공식은 "더 크게 만들기"였습니다. 하지만 그 속도가 느려지고 있습니다. 프런티어 모델 (Frontier models)들은 막대한 학습 예산의 증가에도 불구하고 주요 벤치마크 (Benchmarks)에서 더 적은 이득을 보여주고 있으며, 고품질 학습 텍스트는 점점 희귀해지고 있고, 컴퓨팅 (Compute) 및 에너지 비용은 경이적인 수준으로 치솟고 있습니다.

이유: 스케일링 법칙 (Scaling laws)은 수익 체감 (Diminishing returns)을 가져옵니다. 즉, 자원을 두 배로 늘릴 때마다 얻는 개선 효과는 점점 작아집니다. 결국 신선한 고품질 데이터와 경제적으로 타당한 수준의 컴퓨팅 자원 모두가 고갈됩니다.

해결 방안: 개발자에게 이는 대부분 좋은 소식입니다. 흐름이 더 나은 기술, 더 작고 특화된 모델 (Specialized models), 미세 조정 (Fine-tuning), 그리고 영리한 추론 시점 방법론 (Inference-time methods)으로 이동하고 있기 때문입니다. 가장 큰 모델이 필요한 경우는 드뭅니다. 작업에 적합한 모델이 필요할 뿐입니다.

10. 모델이 무엇을 하고 있는지 완전히 설명할 수 없음

이 모델들을 만드는 사람들조차 왜 특정한 출력이 나타났는지 완전히 설명하지 못합니다. 추론은 수십억 개의 불투명한 숫자들 속에 존재하며, 해석 가능성 (Interpretability) 연구가 진전되고는 있지만 우리에게 명확한 설명을 제공하기에는 아직 갈 길이 멉니다.

이유: 모델의 동작은 규칙 하나하나를 설계한 것이 아니라 학습을 통해 발현된 창발적 (Emergent) 특성입니다. 내부에는 조사할 수 있는 읽기 가능한 프로그램이 존재하지 않습니다.

우회 방법: 설명 가능성 (Explainability)이 요구되는 영역에서 모델을 감사 가능한 (Auditable) 의사 결정자로 취급하지 마세요. 만약 어떤 결정이 내려진 '이유'를 정당화해야 한다면, 모델이 자신 있게 내놓는 설명 그 자체도 단지 생성된 텍스트일 뿐이며, 모델 추론의 실제 경로 (Trace)가 아닙니다.

실제 핵심 요약

이 모든 내용이 AI 모델이 유용하지 않다는 뜻은 아닙니다. 분명히 유용합니다. 다만 이 모델들은 특정한 실패 지점 (Failure surface)을 가진 특수한 종류의 도구라는 뜻입니다. 문제를 피하기 위해 가져야 할 사고 모델 (Mental model)은 다음과 같습니다:

인간이 결과물을 검토하는 초안 작성, 변환, 요약, 탐색 작업에는 모델을 신뢰하세요.
검증 체계를 구축하지 않았다면, 실제 사실 (Ground truth), 긴 자율적 연쇄 작업 (Long autonomous chains), 새로운 추론, 설명 가능한 결정에 대해서는 모델을 신뢰하지 마세요. AI로 위대한 것을 만드는 엔지니어들은 AI를 마법이라고 생각하거나 혹은 쓸모없다고 생각하는 사람들이 아닙니다. 그들은 경계선이 정확히 어디인지 알고 그 경계를 고려하여 설계하는 사람들입니다.

이러한 한계 중 실제 프로젝트에서 당신을 가장 힘들게 했던 것은 무엇인가요? 특히 에이전트 (Agents)를 구축하는 분들의 고생담이 궁금합니다. 그곳이야말로 이러한 실패들이 한꺼번에 쌓이는 지점이기 때문입니다.