Zenn헤드라인2026. 05. 17. 06:45

국산 LLM이 필요한 진짜 이유 ─ 「귀국자녀 AI」와 「일본 태생 AI」로 풀어보는 소버린 AI (Sovereign AI)

요약

본 기사는 정부 AI 도입 과정에서 국산 LLM의 필요성을 심층적으로 분석합니다. LLM은 단순한 데이터베이스가 아니라 방대한 텍스트를 압축하여 학습시킨 '세계관' 그 자체이므로, 모델의 근간에 깔린 문화적 편향과 가치관을 이해하는 것이 중요합니다. 특히 주류 LLM들이 영어권 데이터를 중심으로 학습되어 서구적인 세계관을 갖게 되면서, 국내 특유의 맥락이나 질문 방식에 적절히 대응하지 못할 위험이 크다는 점을 지적합니다.

핵심 포인트

LLM은 단순한 데이터베이스가 아닌 '농축된 세계관'으로 작동하며, 모델 내부의 가치관과 패턴이 답변에 깊숙이 스며들어 있다.
주요 글로벌 LLM들은 영어권 데이터를 중심으로 학습되어 서구적인 문화적 편향을 내포하고 있다.
국내 공공 지식 노동(knowledge work) 환경에서 해외 중심의 LLM을 사용할 경우, '영어권 필터'가 국내 맥락에 깊숙이 침투할 위험성이 존재한다.
LLM의 블랙박스 문제는 해명이 진행 중이나, 여전히 내부 동작과 편향성을 완전히 파악하기는 어렵다.

이 기사는 디지털청이 발표한 「거버먼트 AI (Government AI)」에 대한 국산 LLM 선정 뉴스를 계기로 진행한 고찰입니다. 기술적으로 깊이 있게 파고들고 싶은 분들을 위해, LLM의 구조부터 안보까지 폭넓게 다룹니다.

서론: 「이제 와서 국산? 해외의 고성능 모델을 쓰면 되지 않나?」

2026년 3월 6일, 디지털청이 발표를 진행했습니다.

NTT 데이터 「tsuzumi 2」, KDDI·ELYZA 「Llama-3.1-ELYZA-JP-70B」, 소프트뱅크 「Sarashina2 mini」, 일본전기(NEC) 「cotomi v3」, 후지쯔 「Takane 32B」, Preferred Networks 「PLaMo 2.0 Prime」, 커스터머 클라우드 「CC Gov-LLM」의 7개 모델을 선정. 2027년 3월까지 모든 부처의 직원 약 18만 명에게 전개하여 실용성을 검증한다.

이에 대해 다음과 같은 목소리가 나오는 것은 자연스러운 반응이라고 생각합니다.

「ChatGPT나 Claude는 일본어도 평범하게 사용할 수 있잖아. 국내에서 처음부터 만드는 비용을 생각하면, 해외의 고성능 모델을 그대로 사용하면 되는 것 아닌가?」

「또 세금으로 무의미한 일을 하려는 것 아닌가?」

얼핏 보면 타당하게 들립니다. 하지만, 클라우드나 Windows PC를 도입하는 감각으로 AI 서비스를 선택해도 된다고 한다면, 이야기는 전혀 다릅니다.

이 기사에서는 그 「왜 다른가」를 LLM의 구조 레이어로부터 깊이 있게 설명해 나가겠습니다.

LLM은 「지식 데이터베이스」가 아니라 「응축된 세계관」입니다

먼저, 기존의 IT 시스템을 떠올려 보세요. 데이터베이스에는 명시적인 데이터가 들어 있으며, 검색하면 원래의 데이터가 나옵니다. 무엇이 들어 있는지는 원칙적으로 파악할 수 있습니다.

LLM은 근본적으로 다른 구조를 가지고 있습니다.

LLM은 인터넷상의 방대한 텍스트(수백억~~수조 토큰)를 학습하여, 그것을 수백억~~수천억 개의 파라미터(Parameter, 가중치)로 「압축」합니다. 이 프로세스를 **사전 학습 (Pre-training)**이라고 부릅니다. 완성된 모델의 내부는 원래의 데이터를 복원할 수 있는 형태가 아닙니다. 무수한 문맥이 얽히고설켜 추상화·통합된, 이른바 「농후 압축 처리된 세계관」이 새겨져 있는 상태가 됩니다.

농후 압축 처리된 학습 결과란

모델의 사전 학습 + 파인튜닝 (Fine-tuning)을 통해 모델의 파라미터(가중치)에 새겨진 지식·가치관·표현 패턴의 총체를 가리킵니다. 원본 데이터를 꺼낼 수 있는 「기록」이 아니라, 학습 데이터의 통계적인 경향이 고차원 공간에 응축된 것이라고 생각하면 이해하기 쉽습니다.

그리고 답변은 이 「압축된 세계관」 속에서 도출됩니다. 프롬프트 (Prompt)를 바꾸거나, RAG (Retrieval-Augmented Generation, 검색 증강 생성)로 외부 정보를 덧붙이는 것은 가능하지만, 모델의 근간에 있는 세계관 그 자체는 그대로 남습니다.

블랙박스 문제 ── 「아직 충분히 해명되지 않았다」

「LLM은 블랙박스다」라는 말은 자주 들립니다. 이것은 정확히 어떤 의미일까요?

엄밀히 말하면, 2025~2026년에 걸쳐 Meta나 Anthropic을 비롯한 연구 팀들이 「기계적 해석 가능성 (Mechanistic Interpretability)」 연구를 급속히 진행하고 있으며, 모델이 어떤 회로에서 어떤 처리를 하고 있는지를 부분적으로 가시화하는 기법이 나오고 있습니다. 「완전한 블랙박스」라고는 말할 수 없게 되어가는 단계라고 할 수 있습니다.

하지만 그렇다고 해서 안심해도 되는 이야기는 아닙니다.

현 상황은 「해명이 진행되고는 있지만, 아직 충분히 이해하지 못하고 있다」는 단계입니다. 어떤 가치관·편향 (Bias)이 새겨져 있는지, 특정 상황에서 어떻게 행동할지를 모두 사전에 파악하는 것은 여전히 극도로 어렵습니다. 개발하고 있는 회사조차 자사 모델의 내부 동작을 완전히 파악하고 있는 것은 아닙니다.

이 블랙박스성은 기존의 IT 시스템과 근본적으로 다른 리스크를 낳습니다. 클라우드 서버나 OS는 「무엇이 들어 있는지」, 「어떻게 작동하는지」가 사양으로서 명시되지만, LLM은 그렇지 않습니다.

「영어권 데이터로 자란 세계관」의 문제

이 부분이 이번의 핵심 부분입니다.

현재 세계에서 가장 널리 사용되는 LLM의 대부분은 영어권 데이터를 중심으로 학습하고 있습니다. GPT-4, Claude, Gemini와 같은 주요 모델의 트레이닝 데이터(Training Data) 대부분은 영어 텍스트입니다. 그 결과, 이러한 모델에는 영어권·서구적인 가치관·상식·문화적 문맥이 「압축된 세계관」으로서 스며들어 있다고 생각됩니다.

이것은 단순한 어휘의 문제가 아닙니다.

예를 들어 2024년에 발표된 논문 *"Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense"*에서는 LLM에게 5개국(중국, 인도, 이란, 케냐, 미국)의 문화적 상식을 묻는 테스트를 진행한 결과, 국가별로 점수에 큰 편차가 있으며, LLM은 사전 학습 코퍼스에 그다지 포함되어 있지 않은 국가의 문화적 상식에는 대응할 수 없다는 것이 나타났습니다.

더 나아가 2025년 연구에서는 18개국의 데이터를 사용하여 LLM의 '문화적 호기심' 패턴을 분석한 결과, 현재의 LLM은 문화 간 다양성을 평탄화하고 서구 국가들의 호기심 패턴에 수렴하는 경향이 있어, 아시아나 남미 등의 문화적 질문 스타일을 충분히 재현할 수 없다는 것이 밝혀졌습니다.

즉, 이런 구도가 만들어집니다.

많은 엔지니어와 공무원이 같은 영어 중심의 LLM을 계속 사용하게 되면, '영어권 필터를 거친 세계관'이 일본의 지식 노동(knowledge work)에 깊숙이 스며들어 버릴 가능성이 있습니다. 옳고 그른지를 떠나서, 애초에 '일본적 맥락'에서의 질문 방식이나 해답을 찾는 방식 자체가 변질될 위험이 있다는 것입니다.

'귀국자녀 AI'와 '일본 태생 AI'의 차이점

여기서 처음에 선정한 목록으로 돌아가 보겠습니다.

잘 살펴보면, 7개 모델 안에 **KDDI・ELYZA "Llama-3.1-ELYZA-JP-70B"**가 포함되어 있습니다. 이것은 Meta社가 개발한 'Llama 3.1'을 기반으로 일본어 및 일본 문화용으로 철저하게 파인튜닝(fine-tuning)한 모델입니다.

이것은 말 그대로 '해외에서 태어난 아기를, 일본어와 일본 문화 속에서 다시 키운 AI'라고 표현할 수 있습니다.

이것을 '국산'이라고 부를 수 있는지 여부는 정의의 문제입니다. 디지털청의 선정 기준에는 '국내에서 개발된 대규모 언어 모델(LLM)일 것'이라고 명시되어 있으며, 파생 모델도 선정 기준을 충족하면 대상이 될 수 있어, 누가 책임지고 개발 및 운영하는지, 어떤 데이터로 학습시켰는지를 중시하고 있습니다.

이 관점에서 정리하자면, '국산 LLM'에는 실질적으로 다음 두 종류가 있다고 생각됩니다.

분류	설명	대표 예시
일본 태생 AI	사전 학습부터 일본어・일본 문화 데이터 중심으로 학습하고 있는 모델	cotomi v3 (NEC), PLaMo 2.0 (PFN) 등
귀국자녀 AI	해외 기반 모델을 일본용으로 철저히 파인튜닝한 모델	Llama-3.1-ELYZA-JP-70B (KDDI・ELYZA) 등

둘 다 '일본어・일본 문화 속에서 자라났다'는 의미에서는 공통적이며, 디지털청은 이 두 가지 모두를 '국산'으로 선정하고 있습니다.

해외의 고성능 모델을 그대로 사용하는 것과 이것들을 사용하는 것의 차이는 명확합니다. 전자는 '영어권에서 태어나 성장한 후, 나중에 일본어를 습득한 사람에게 일본용 업무를 맡기는 것'과 같고, 후자는 '일본의 맥락 속에서 자라난 사람에게 업무를 맡기는 것에 가깝다는 이미지입니다.

또 다른 이유 ── 안보와 '생살여탈권'(生殺與奪の權)

문화・언어 문제만 놓고 본다면, '약간의 이질감은 감수할 수 있다'고 생각하는 사람도 있을지 모릅니다. 하지만 또 하나의 이유는 그렇게 쉽게 나눌 수 있는 것이 아닙니다.

안보(安全保障) 문제입니다.

구체적으로 3가지 리스크를 생각해 보겠습니다.

① 기밀 정보 유출 리스크

디지털청의 선정 기준 6개 항목에는 '정부 공무원이 기밀성 2 정보를 다룰 수 있도록 충분한 보안을 확보할 것. 구체적으로는, 가버먼트 클라우드(Government Cloud) 상의 추론 환경에서 동작할 것'이라고 명시되어 있습니다.

일본 정부가 다루는 기밀 정보를 해외 API 엔드포인트로 전송하는 것은 정보 관리상의 리스크를 수반합니다. 어떤 데이터가 서비스 개선을 위해 사용되는지, 어느 나라 법이 적용되는지를 완전히 통제하기 어렵기 때문입니다.

② 서비스 중단 리스크

2022년 이후의 지정학적 긴장이 보여주듯이, 국가 간 관계는 단기간에 크게 변화합니다. 특정 국가가 제공하는 AI 서비스가 정치적인 이유로 일본용 접근 제한이나 서비스 중단이 될 가능성은 0이 아닙니다.

수도나 전기와 같이 사회 인프라화되고 있는 AI가 '옆 나라의 수도꼭지를 잠그면 멈춘다'는 상태에 있다는 것은, 클라우드나 OS 조달 문제와 비교할 수 없는 리스크입니다.

③ 기술적 록인(Lock-in)

외부 의존도가 깊어질수록 자국에서 AI를 개발하고 개량하는 능력은 약해집니다. 일단 록인(Lock-in)이 발생하면 조건 변경(가격, 이용 약관, 기능 제한)에 대해 대응할 수 있는 수단을 갖지 못하게 됩니다.

일본 정부의 「소버린 AI (Sovereign AI)」 전략은 바로 이러한 리스크에 대한 대처책으로 자리 잡고 있습니다. 일본은 2024년에 NVIDIA 및 국내 AI 인프라에 대한 투자로서 대규모 자금을 출연하고 있으며, 소버린 AI는 단순한 IT 업데이트가 아니라 「국가의 디지털 인프라 구축」으로서의 위치를 강화하고 있습니다.

요약 ── 「쓸 수 있으니까 쓰는 것」에서, 「누구의 것인가」를 묻는 시대로

해외의 고성능 LLM (Large Language Model)이 일본어를 구사할 수 있게 된 지금, 「국산 AI가 필요한 이유」는 더 이상 표면적인 「성능의 문제」가 아닙니다.

앞으로 물어야 할 것은 「누구의 세계관이 압축되어 있는가」, 「누가 그 수도꼭지를 쥐고 있는가」라는 점이라고 생각합니다.

문화·가치관의 레이어 (Layer)

영어권 데이터로 성장한 모델에는 영어권의 세계관이 스며들어 있습니다. 일본적인 맥락에서의 사고와 판단을 지원하게 하고 싶다면, 일본의 맥락에서 키운 모델이 필요하게 됩니다.

안보의 레이어 (Layer)

정부의 기밀 정보를 다루고 사회 인프라화되어 가는 AI를 외국 기업의 서비스에 전면적으로 의존하는 것은 전략적인 리스크가 됩니다.

디지털청의 「국산 7개 모델 선정」은 단순한 성능 경쟁의 이야기가 아니라, AI 시대의 정보 주권을 확보하기 위한 전략적인 한 수로 파악해야 하지 않을까요.

추가 보충 ─ 「마이크로 소버린 AI」라는 관점

그리고 소버린 AI를 국가 차원의 이야기로 끝내는 것은 조금 아깝다고 생각합니다.

「AI의 수도꼭지를 스스로 쥐는 것」이라는 구조는 개인이나 기업의 레벨에도 완전히 적용됩니다.

예를 들어, 사내의 기밀 문서나 개인 정보가 포함된 프롬프트(Prompt)를 클라우드 LLM의 API에 계속 보내는 것은, 어느 나라의 법률이 적용되는지를 스스로 컨트롤할 수 없는 상태에 놓이는 것을 의미합니다. 로컬 환경에서 오픈 웨이트 모델 (Open-weight model: Qwen, DeepSeek, Gemma 등)을 구동하면 데이터는 일절 외부로 나가지 않습니다.

모든 것을 자체적으로 하는 것이 목적은 아닙니다. 「클라우드에 의존할 수 없는 상황에서도 움직일 수 있는 수단을 확보해 두는 것」 — 즉, 만일의 사태를 대비한 대체 수단의 선택지를 유지해 두는 것이 본질입니다.

국가가 「국산 LLM이라는 수도꼭지」를 가지려 하는 것과 같은 이유로, 개인이나 기업도 마이크로 소버린 AI의 사고방식으로 「로컬 LLM이라는 수도꼭지」를 갖는 것이 AI 시대의 리스크 헤지 (Risk Hedge)가 됩니다. 그렇게 생각하면 소버린 AI는 어딘가 먼 이야기가 아니라, 우리 자신의 일상을 설계하는 것과 직결된 문제가 아닐까요.

참고 자료

디지털청. (2026년 3월 6일). 거버먼트 AI에서 시용하는 국내 대규모 언어 모델 (LLM) 공모 결과.

AI 자동 생성 콘텐츠

원문 바로가기