생성형 AI의 「할루시네이션 (Hallucination)」 너머에 있는 「구체화의 벽」이라는 문제에 대하여

생성형 AI의 문제로서 현재 널리 인지되고 있는 것 중 하나가 「할루시네이션 (Hallucination)」입니다.

이는 생성형 AI의 추론 과정에서 발생하지만, 출력된 결과를 검증하면 되기 때문에 문제로서 인지되기 쉬우며, 현재는 이 할루시네이션을 어떻게 회피할 것인가 하는 시도가 매일 이루어지고 있습니다.

하지만 할루시네이션 문제를 해결한 뒤에, 다음 단계인 구체화라는 문제가 발생합니다.

그 구체화의 부족이 초래하는 문제는 널리 현재화되어 있음에도 불구하고, 그것은 아직 형식적으로 인지되지 않은 것처럼 보입니다.

생성형 AI의 등장으로 추상적인 성과물을 대량 생산할 수 있게 되었습니다. 개념, 프레임워크 (Framework), 제언 등입니다.

그렇다면, 그러한 추상적인 성과물의 질은 어떠할까요?

현재의 생성형 AI는 기본적으로 방대한 정보를 압축한 패턴을 바탕으로 출력을 생성합니다.

즉, 다수의 사례에 공통되는 패턴이 생성되기 쉬우며, 그 결과로 생성되는 결과물은 추상적·범용적인 것이 되기 쉽습니다.

하지만 이것들은 「그럴싸해 보일」 뿐이며, 구체화되어 실제로 운용되지 않는 한 「그림의 떡」인지 여부를 판별하기 어렵다는 문제를 안고 있습니다.

할루시네이션과 달리, 그것 단독으로는 질의 좋고 나쁨을 판정하기 어렵고, 게다가 판정할 수 있는 단계가 반드시 실증 단계가 되어버리기 때문에 문제로서 인지되기 어렵습니다.

나아가, 추상화 과정에서는 다수의 사례가 공통 패턴으로 수렴하는 반면, 그 성과물을 현장으로 구체화하는 단계에서는 문제가 발산합니다.

같은 성과물이라 하더라도 적용하는 사람, 장소, 타이밍, 문맥에 따라 직면하는 과제가 달라지기 때문입니다.

이로 인해 언뜻 보기에는 현장마다 서로 다른 문제가 일어나고 있는 것처럼 보여, 「원인은 구체화의 부족(추상적인 상태로 방치된 것)에 있다」라는 공통된 본질을 보기 어려워집니다.

생성형 AI와의 대화(Wall-hitting)를 통해 얻는 성과물은 우선 「이론적으로 이상적인 형태」가 됩니다.

당연하게도 그대로는 그림의 떡 상태이므로, 구체적인 형태로 떨어뜨릴(구체화할) 필요가 있습니다.

하지만 여기서 세 종류의 벽이 차례로 가로막습니다.

의미 부여의 벽

추상적인 성과물은 아직 실현 가능한 상태가 아닙니다.

구체적인 요소에 대입해야 비로소 실현 가능한 상태가 됩니다.

예를 들어 사용자 인터페이스 (User Interface)이거나, KPI (Key Performance Indicator)이거나, 루브릭 (Rubric) 등입니다.

이를 인간의 머리로 어떤 형태로 만들지 결정하고, 추상적인 성과물과 연결해 나가야 합니다.

제거의 벽

전개한 그다음은, 이상적인 안에서 현실적인 안으로 떨어뜨리기 위해 실현 불가능한 것이나 우선순위가 낮은 요소를 제거해 나가게 됩니다.

대부분의 경우, 이상적인 안이라는 것은 운용이 현실적이지 않기 때문입니다.

이상적인 안의 질을 유지하면서 제거해 나가는 것은 엄청난 노력을 수반합니다.

조정의 벽

마지막으로 기다리는 것은 현장과 적합시키기 위한 조정입니다.

추상적인 안이나 이상적인 안은 기본적으로 개별 현장의 실정에 좌우되지 않는 중요한 (추상적인) 요소이기 때문입니다.

이를 현장의 운용이라든지, 시장의 실태라든지, 소속된 회사나 팀의 실정이라든지, 그러한 것들에 적합시켜 나가는 조정이 필요하게 됩니다.

중요한 포인트는 제거와 조정은 현장을 아는 인간만이 주도할 수 있다는 것입니다.

이 문제는 생성형 AI의 등장으로 인해 새롭게 발생한 문제는 아닙니다.

「컨설턴트가 이상론을 내놓고, 현장이 구현하지 못한다」는 문제와 같은 구도입니다.

생성형 AI는 그 「의존 대상」이 바뀌었을 뿐이며, 본질적인 문제는 변하지 않았습니다.

문제의 본질은 「답을 가지지 못한 인간이, 답을 가지고 있는 무언가에 의존하여, 자신이 먼저 발을 내딛는 리스크를 회피한다」는 인간의 행동 양식에 있습니다.

특히 현재는 이 문제가 생성형 AI의 등장으로 인해, 생성형 AI에게 답을 내달라고 하려는 의존성이 증폭되고 있는 측면도 있다고 생각합니다.

생성형 AI가 낸 성과물을 그대로 채택하려는 것도 「스스로 첫 수를 두는 리스크」를 회피하고 싶어 하는 심리에서 비롯됩니다.

그리고 생성형 AI는 현장의 실정을 모르기 때문에, 아무래도 구체화가 부족한 상태의 성과물까지만 낼 수밖에 없습니다.

이렇게 추상적인 수준에 머무는 성과물이 태어나, 구체화의 벽에 가로막힌 채 출시됩니다.

AI projects often don’t come past pilot stage, finds Valliance study

AI 프로젝트의 약 절반이 파일럿 (Pilot) 단계에서 정체되어 있으며, 본番(본격적인 운영)으로 이행하지 못하고 있다는 문제입니다.

PoC (Proof of Concept)는 사전 검증으로서 수행되는 것이지만, 이상적인 상태를 상정하고 한 검증이라도 통과해 버립니다.

이상적인 상태에서 통과할 수 있더라도, 그 이후에는 현장의 실정에 맞춰 어떠한 형태로든 축소를 요구받게 되며, 제거의 벽에 직면하게 됩니다.

더욱 문제가 되는 것은, 생성형 AI (Generative AI)는 사후 조정이 매우 어렵다는 점입니다.

기존의 프로덕트라면 기능 삭제에 따른 영향 범위의 추적이 구조적으로 가능했습니다.

(물론 간단한 작업은 아니겠지만……)

생성형 AI는 정밀도를 낮추는 대신 추론 속도를 향상시키거나, 컨텍스트 길이 (Context Length)를 제한하는 등의 조정을 직관적으로 수행하기 어렵습니다.

그렇기 때문에 현장의 "이래서는 사용할 수 없다"라는 피드백에 대해 시스템 측을 유연하게 미세 조정해 나가는 것이 어려우며, 이것이 비용 증가와 파일럿 (Pilot) 단계에서 멈추게 되는 원인이 되고 있다고 생각됩니다.

이 파일럿 병(Pilot Disease)이라는 개념은, 기업 차원에서 구체화의 벽이 존재함을 증명하고 있다고 해석할 수 있습니다.

MIT NANDA The GenAI Divide: State of AI in Business 2025

생성형 AI를 도입했거나 파일럿 버전을 도입한 기업 중, 수백만 단위의 가치를 창출하고 있는 곳은 단 5%에 불과하며, 반면 대다수는 측정 가능한 손익(P&L)에 영향을 미치지 못한 채 정체되어 있다는 무서운 보고서입니다.

이 보고서를 통해서는 현장으로의 적합, 즉 조정의 벽이 문제가 되고 있다고 해석할 수 있습니다.

중요한 부분을 아래에 인용합니다. (일본어 번역에는 DeepL 번역을 이용했습니다.)

Just 5% of integrated AI pilots are extracting millions in value, while the vast majority remain stuck with no measurable P&L impact. This divide does not seem to be driven by model quality or regulation, but seems to be determined by approach. Most fail due to brittle workflows, lack of contextual learning, and misalignment with day-to-day operations. The core barrier to scaling is not infrastructure, regulation, or talent. It is learning

통합형 AI 파일럿 프로젝트 중 수백만 단위의 가치를 창출하고 있는 것은 단 5%에 불과하며, 그 반면 대다수는 측정 가능한 손익(P&L)에 영향을 미치지 못한 채 정체되어 있습니다. 이 격차는 모델의 품질이나 규제에 의한 것이 아니라, 접근 방식(Approach)에 의해 결정되는 것으로 보입니다.
그중 상당수는 경직된 워크플로우 (Workflow), 문맥에 따른 학습(Contextual Learning)의 부족, 그리고 일상 업무와의 불일치로 인해 실패하고 있습니다.
규모 확장(Scaling)의 핵심 장벽은 인프라나 규제, 인재가 아닙니다. 그것은 바로 '학습(Learning)'입니다.

앞서 언급한 바와 같이, 우선 구체화의 부족이 문제라는 사실을 깨닫는 것 자체가 어렵다는 점부터 시작됩니다.

그리고 문제의 요점을 깨달았다고 하더라도, 구체화된 사항은 체계화하기 어렵다는 성질이 있습니다.

추상화 (Abstraction)는 해가 수렴하기 때문에 체계화하기 쉬워 연구와 언어화를 진행할 수 있었습니다.

반면, 구체화 (Concretization)는 부여하는 조건에 따라 해가 발산하기 때문에 공통점을 찾아내기 어렵고, 체계화가 곤란하다는 문제가 있습니다.

또한 추상화가 진행될수록 구체화로부터 멀어지는 패러독스(Paradox)도 존재합니다.

아이러니하게도 생성형 AI의 추론 능력이 구체화를 멀어지게 만들고 있습니다.

구체화의 발산 문제에 대한 해답은 체계화가 아니라 입도(Granularity)의 한정이 아닐까 생각합니다.

전체를 해결하려 하기 때문에 발산합니다. 하지만 "이 문맥에서, 이 한 수만"으로 좁힌다면 발산하지 않습니다.

실천적인 절차로는 다음과 같은 방안을 생각하고 있습니다.

생성형 AI에게 최소한의 구체화 후보를 여러 개 제시하게 한다.
인간이 하나를 선택하여 실행 절차와 평가 방법을 검토한다.
그것을 실행하고 결과를 기록한다.
결과가 어느 정도 쌓이면 생성형 AI에게 귀납적 추상화 (Inductive Abstraction)를 시킨다 (얻어진 결과의 성공 패턴 공통점을 추출하도록 한다).

사상적으로는 린 스타트업 (Lean Startup)의 "Build-Measure-Learn"과 유사하지 않을까 생각합니다.

차이점이라면 생성형 AI를 인간의 보조 역할로 사용한다는 점입니다.

덧붙여, MIT NANDA The GenAI Divide: State of AI in Business 2025에서도 성공 기업의 특징이 제시되어 있습니다.

「CROSSING THE GENAI DIVIDE: HOW THE BEST BUILDERS SUCCEED」라고 검색하면 나옵니다.

대략 다음과 같은 내용입니다. 요약은 ChatGPT에게 요청했습니다.

작게 시도하기 (PoC가 아닌 업무 임베디드형(Embedded) 시도)
워크플로우 (Workflow)에 통합하기
KPI 기반으로 개선하기
현장 주도로 반복하기
빠른 의사결정과 철수·수정

당연하게도 이 기사 역시, 본 기사에서 다루고 있는 「추상적인 상태」에 있습니다.

하지만, 우선은 하나라도 시도해 본다는 관점에서 문제 제기로서 기사를 작성했습니다.

앞으로는 이 절차를 실제로 시도하고, 결과를 판정하는 단계까지 달성해야 비로소 합격점을 받을 수 있습니다.

그 과정을 향후 기사들을 통해 쌓아 나갈 수 있다면 좋겠습니다.

생성형 AI (Generative AI)가 추상적인 결과물을 끊임없이 생산할 수 있는 시대가 되었지만, 앞으로는 실행한 인간만이 가진 구체지 (Concrete Knowledge)가 희소 자원이 되어 큰 가치를 가지는 시대가 될지도 모르겠습니다.

생성형 AI의 「할루시네이션 (Hallucination)」 너머에 있는 「구체화의 벽」이라는 문제에 대하여

요약

핵심 포인트

댓글