일본 정부 AI 「GENAI」 채택 7개 모델 비교 — 왜 국산 LLM을 7개 병렬로 테스트하는가, 그 정책적·지정학적 배경을 분석하다 - Insights | Molayo

디지털청의 공통 생성 AI 기반 「GENAI (源内)」가 2026년 5월부터 모든 부처 및 성청 39개 기관, 직원 약 18만 명을 대상으로 한 대규모 실증 단계에 진입한 것으로 알려져 있습니다 (시기 및 규모는 공개 자료와 보도를 바탕으로 함).
공모를 통해 선정된 국산 LLM은 7개 모델(tsuzumi 2 / Llama-3.1-ELYZA-JP-70B / Sarashina2 mini / cotomi v3 / Takane 32B / PLaMo 2.0 Prime / CC Gov-LLM)이며, 병렬적으로 업무 적합성이 검증될 예정입니다.
본고에서 가장 전달하고 싶은 것은 「7개 모델의 스펙 비교」 그 자체보다, 왜 일본 정부가 해외의 고성능 모델을 두고 굳이 국산 LLM을 7개 병렬로 테스트하는가라는 정책적·지정학적 배경입니다. 데이터 주권(Data Sovereignty), 경제 안보, 벤더 락인(Vendor Lock-in) 회피, 일본어/제도적 맥락에 대한 적합성이라는 4가지 동기를 통해 이를 분석해 나가겠습니다. - 공공·지자체 대상 AI 제안 입장에서 「GENAI」의 비교 설계나 조달 로드맵을 파악해 두면, PoC(Proof of Concept)나 요건 정의 논의를 원활하게 진행할 수 있습니다.
본고는 공개된 1차 정보를 바탕으로 정리한 것이며, 본 채택이나 성능 순위를 단정하는 내용이 아닙니다. 정부의 방침은 향후 변할 수 있으므로, 최종적으로는 1차 자료를 참조하시길 권장합니다.

본고는 공공·지자체 대상 AI 제안 및 요건 정의에 관여하는 분들, 그리고 국산 LLM과 행정의 관계에 관심이 있는 엔지니어를 주요 독자로 상정하고 있습니다.

읽는 데 필요한 것은 생성 AI의 기본 용어(LLM, PoC 등)를 알고 있는 정도의 전제 조건뿐입니다.

특정한 실행 환경이나 코드에 대한 지식은 전제로 하지 않습니다.

「GENAI (영어 표기: GENAI)」는 디지털청이 중심이 되어 정비를 진행하고 있는 정부 직원용 공통 생성 AI 기반입니다. 디지털청의 공개 자료에 따르면, 행정 문서 작성, 정책 조사, 국회 답변 작성 지원 등 정부 업무와 관련된 폭넓은 장면에서의 AI 활용을 상정하고 있다고 합니다. 2026년 4월에는 OSS(Open Source Software)로서 GitHub 상에 공개되었다고 보도되었으며, 지자체나 민간 기업에서도 참조 및 이용하기 쉬운 형태가 되었다고 알려져 있습니다.

명칭인 「GENAI (源内)」는 에도 시대의 발명가 히라가 겐나이(Hiraga Gennai)를 연상시키지만, 본고에서는 공식적으로 확인 가능한 범위를 넘어선 명명 의도의 해석은 삼갑니다. 주목해야 할 점은 그 규모입니다.

항목	내용
대상 기관	전 부처 및 성청 39개 기관
...

18만 명이라는 규모는 단순한 시험 도입이라기보다 「행정 조직 전체에서 AI를 사용하는 것을 전제로 한 사회 구현에 가까운 검증」이라고 받아들여집니다.

이 정도 규모로 「복수의 국산 LLM을 나란히 놓고 테스트하는」 프레임워크는 지금까지 일본 국내에서 사례가 드물 것으로 보입니다.

공공 분야에 AI를 제안하는 사업자 입장에서는 자사의 제안 내용과 국가의 방향성을 맞추는 좋은 참조점이 될 것입니다.

본고에서 다루는 숫자나 용어는 디지털청의 공개 자료 및 각 사의 공식 발표에서 확인할 수 있는 범위를 중심으로 정리했습니다. 기재되지 않은 사양이나 채택 조건에 대해서는 추측이 아닌 「공개 정보 없음 / 확인 필요」라고 명기하도록 했습니다. 정부의 조달 방침은 유동적이므로 단정적인 표현은 피하고 있습니다.

민간의 고성능 생성 AI를 사용하면 빠를 텐데, 왜 굳이 국산 모델을 고집하는가. 이 부분이 본고에서 가장 깊이 있게 다루고 싶은 부분입니다. 공개 자료와 각종 보도를 읽어보면, 배경에는 크게 4가지 동기가 있는 것으로 보입니다. 순서대로 정리해 보겠습니다.

가장 큰 논점은 이른바 「데이터 주권 (Data Sovereignty)」이라고 생각됩니다.

행정이 다루는 정보에는 미공표 정책 초안, 개인정보, 안보와 관련된 정보 등 국외로 유출될 경우 문제가 될 수 있는 것들이 포함됩니다. 해외 사업자의 클라우드나 해외에서 학습·운영되는 모델에 이러한 데이터를 통과시킬 경우,

데이터가 물리적으로 어느 국가의 데이터 센터를 경유하는가
상대국의 법 제도(예를 들어 외국 정부에 의한 데이터 공개 요구가 미칠 수 있는지 여부)의 영향을 받지 않는가
학습에 사용되지 않는다는 보장이나, 로그의 보유·삭제 권한이 일본 측에 있는가

와 같은 점들을 행정 측에서는 설명 책임을 가지고 관리하고 싶다는 발상이 나오게 됩니다.

해외 대형 기업의 상당수는 「학습에 사용하지 않음」, 「리전(Region) 지정 가능」과 같은 옵션을 제공하고 있습니다.

그럼에도 「국내 사업자·국내 인프라로 완결 짓는 것이 국민과 국회에 대해 경로를 설명하기 쉽다」는 판단이 작용하기 쉬운 영역입니다.

즉, 여기서의 논점은 「해외 모델이 위험하다」는 단순한 이야기가 아니라, 기밀 정보를 다룰 때 데이터의 소재와 컨트롤 권한(Control)을 누가 쥐고 있는지를 명확히 할 수 있는가라는 통제(Governance)의 문제라고 이해하는 것이 정확하다고 생각합니다.

둘째는 경제 안보(Economic Security)의 관점입니다. 생성형 AI는 향후 행정·산업·방위의 폭넓은 영역에 관여하는 기반 기술이 되어가고 있습니다. 그 핵심을 특정 해외 플레이어에게만 의존하는 상태는,

가격이나 제공 조건을 상대측에 휘둘리게 됨
지정학적 긴장이 높아졌을 때, 공급이 중단되거나 제한될 리스크가 있음
자국 내에 기술·인재·컴퓨팅 자원(Computing Resources)의 노하우가 축적되지 않음

과 같은 우려로 이어집니다. 반도체나 에너지와 마찬가지로, "자국에서 일정 수준의 선택지를 보유하고 있는 것"이 안보상의 대비책이 된다는 사고방식입니다. GENAI의 노력으로부터는 행정 DX(Digital Transformation)를 추진함과 동시에 국산 AI 산업의 저변을 키우려는 산업 정책적인 의도도 읽어낼 수 있습니다. 복수의 국내 사업자에게 실증 기회를 부여하는 것 자체가 국내 생태계(Ecosystem)에 대한 투자라는 측면을 가지고 있다고 볼 수도 있습니다.

셋째는 특정 벤더에 대한 의존(Lock-in)을 피하고 싶다는 조달상의 동기입니다.

만약 한 회사의 모델로 전면적으로 갈아타 버리면,

가격 협상력이 낮아짐 (다른 곳으로 옮길 수 없다고 판단되면 약점을 잡히기 쉬움)
해당 벤더의 사양 변경·가격 인상·서비스 종료에 휘둘리게 됨
데이터 형식이나 프롬프트 설계(Prompt Design)가 해당 모델에 최적화되어, 전환 비용(Switching Cost)이 커짐

과 같은 구조적인 약점을 안게 됩니다. 공공 조달에서는 "건전한 경쟁 환경을 유지하고, 특정 사업자에 과도하게 의존하지 않는다"는 원칙이 중시되는 경향이 있으며, 후술할 "7개 모델 병렬"이라는 설계는 이러한 락인(Lock-in) 회피 발상과도 일치하는 것으로 보입니다.

넷째는 일본어 처리 품질과 일본 고유의 제도·관습에 대한 적합성입니다.

행정 문서에는 독특한 말투, 법령 용어, 결재 문서 양식, 국회 답변 방식 등 일본의 제도적 맥락에 깊이 뿌리박힌 요소들이 있습니다. 범용 해외 모델도 일본어를 다룰 수는 있지만, 이러한 "일본 행정 문화에 고유한 맥락"에 대한 적합도는 일본어 데이터로 추가 학습(Additional Training)된 국산 모델이 우위를 점할 수 있는 영역입니다. 다만, 이것이 "국산이니까 반드시 뛰어나다"는 이야기가 아니라, 실증을 통해 업무 적합성을 확인해야 하는 가설 단계라고 파악하는 것이 타당하다고 생각합니다.

여기서 언급한 4가지 동기는 공개 자료나 보도 등을 통해 읽어낼 수 있는 범위 내에서의 정리입니다. 디지털청이 공식적으로 이 4가지 분류를 제시하고 있는 것은 아니라는 점에 유의하시기 바랍니다. 동기의 비중은 영역이나 시기에 따라 달라질 수 있습니다.

이 부분이 본고의 또 다른 핵심입니다. 한 회사로 좁히지 않고, 굳이 7개 모델을 나란히 놓고 테스트한다. 이 설계에는 공공 조달 특유의 사고방식이 나타나 있는 것으로 보입니다.

복수의 모델을 동일한 조건(Same footing)에 올리는 것 자체가 사업자 간의 건전한 경쟁을 촉진합니다. "선택받기 위해 성능·운용성·가격을 연마한다"는 인센티브가 작동하여, 결과적으로 행정 측은 더 좋은 조건을 끌어내기 쉬워집니다. 처음부터 한 회사를 본명(Main candidate)으로 세우는 것보다, 나란히 놓고 평가하는 것이 조달의 공정성·투명성 관점에서도 설명하기 쉽다는 측면도 있습니다.

행정 업무는 일률적이지 않습니다. 짧은 정형 문서 작성, 장문의 정책 조사, 요약, 검색 지원, 코딩 지원 등 요구되는 특성은 태스크(Task)마다 다릅니다. 하나의 만능 모델을 찾는 것보다, 용도에 맞는 모델을 구분하여 사용한다는 전제하에 복수를 평가하는 것이 실제 업무에 더 적합하다는 설계 사상을 읽을 수 있습니다.

실제로 선정된 7개 모델에는 "플래그십급 대형 모델"과 "1 GPU에서도 구동되는 중소형 모델"이 혼재되어 있습니다.

이는 "벤치마크 스코어(Benchmark Score) 단판 승부"가 아닌 평가를 의식한 구성으로도 보입니다.

특정 모델에 장애·취약점·서비스 종료가 발생하더라도, 다른 선택지가 있다면 즉시 전환할 수 있습니다. 복수를 병행하여 평가해 두는 것 자체가 행정 서비스의 연속성을 담보하는 리스크 분산이 됩니다.

그리고 또 한 가지, 왜 PoC(Proof of Concept, 실증)라는 신중한 단계를 밟는가 하는 논점이 있습니다.

공공 조달은 세금을 재원으로 하는 만큼 실패의 비용이 크고 설명 책임(Accountability)도 무겁습니다. 갑자기 한 회사·한 모델을 채택하게 되면,

나중에 "다른 곳보다 비쌌다/성능이 뒤처졌다"는 사실이 판명되었을 때 시정이 어려움
평가 지표가 모호한 상태로 진행하면, 효과 검증을 할 수 없어 설명하기 어려움

과 같은 문제가 발생하기 쉽습니다. 따라서 먼저 나란히 진행하는 실증을 통해 "어떤 업무에 어떤 모델이 얼마나 적합한가"를 측정하고, 평가 지표를 설계한 뒤에 유상 본사업 조달로 나아갑니다. 이 단계를 밟는 것 자체가 공공 조달의 신중함을 나타낸다고 이해할 수 있습니다. GENAI의 로드맵이 "시용 → 평가·검증 결과 공표 → 본격 조달"이라는 순서로 되어 있는 것으로 보이는 것도 이러한 발상과 일치합니다.

공개된 정보를 바탕으로 7개 모델을 정리해 보겠습니다. 파라미터(Parameter) 수 등의 수치는 각 사가 공식적으로 공개한 범위 내에서만 기재하였으며, 미공개된 항목은 그대로 "공개 정보 없음/확인 필요"라고 명시했습니다.

모델명	개발 기업	파라미터 수 (공식)	공개 상황	개발 접근 방식	예상되는 강점
tsuzumi 2	NTT 데이터／NTT	공식 릴리스에서 "경량 모델", "1GPU 환경에서 동작"이라고 설명 (공개 정보상으로는 30B 규모로 알려짐)	상용 제공	국산 풀 스크래치 (Full-scratch) 계열	일본어 처리 성능, 1GPU로 구동되는 운용 효율, 도표가 포함된 문서 대응 강화
...

이 표는 각 사의 공식 릴리스나 뉴스 릴리스에서 확인할 수 있는 정보를 기반으로 하고 있습니다. 일부 모델은 파라미터 수나 학습 데이터의 상세 내용을 공개하지 않았기 때문에, 비교표에서도 무리하게 추정치를 넣지 않고 "공개 정보 없음/확인 필요"라고 작성했습니다. "개발 접근 방식" 열 또한 풀 스크래치인지 지속 학습 (Continual Learning)인지를 공식 정보 범위 내에서 기재하였으며, 명확히 확인되지 않는 것은 무리하게 분류하지 않았습니다.

개인적인 관찰입니다만, 풀 스크래치 개발 모델과 해외 오픈 모델 (Llama 등)을 토대로 일본어로 지속 학습한 모델이 동일한 틀 안에 나란히 놓여 있다는 점이 흥미로운 부분입니다. "제로에서부터 국산으로 만든다"는 노선과 "해외의 우수한 기반을 현명하게 활용한다"는 노선이 병행되고 있으며, 여기에서도 앞서 언급한 "한 기업·한 노선에 도박하지 않는다"는 리스크 분산의 발상이 나타나 있다고 느껴집니다.

GPT·Claude·Gemini와 같은 해외 프론티어 모델 (Frontier Model)과 비교했을 때, "겐나이(源内)" 채택 모델군은 어떻게 위치하게 될까요. 여기서 중요한 것은, 비교 축을 "순수한 성능의 우열"에 두지 않는 것이라고 생각합니다. 가공되지 않은 벤치마크(Benchmark)만 놓고 본다면, 해외 프론티어 모델이 앞서는 상황이 적지 않을 것이라고 보는 것이 공평합니다. 그 위에서, 행정이 중시하는 축은 다른 곳에 있습니다. 주권·컴플라이언스 (Compliance)·비용·설명 책임의 4개 축으로 정리해 보겠습니다.

해외 모델을 SaaS로 사용할 경우, 로그나 프롬프트 (Prompt)가 국외 데이터 센터를 경유하는 경우가 있습니다. 많은 벤더가 "학습에 사용하지 않음", "리전 (Region) 지정 가능"과 같은 옵션을 제공하고 있지만, 행정의 기밀 정보를 다루는 전제하에서는 "국내 사업자·국내 인프라로 완결되는 것"이 경로와 관리 권한을 국회와 국민에게 설명하기 쉬운 측면이 있습니다. 성능이 아니라 "컨트롤 권한을 누가 갖는가"가 판단 축이 된다는 점이 해외 모델과의 가장 큰 차이라고 생각합니다.

ISMAP (정부 정보 시스템을 위한 보안 평가 제도)나 각종 보안 요구사항, 계약 면에서의 책임 분계 등을 고려하면 국내 사업자 쪽이 조율하기 쉬운 상황이 많을 것으로 보입니다. 해외 모델을 사용할 수 없다는 이야기가 아니라, "행정 고유 요구사항에 맞추는 작업을 누가 담당하고 누가 책임을 질 것인가"가 논점이 됩니다.

API 단가만 보면 해외 대형 기업의 모델이 저렴한 경우도 있습니다.

다만, 행정 전체의 총비용을 고려하면 라이선스 체계·운용 지원·교육 비용·전환 리스크 (Lock-in에 따른 향후 가격 인상 여지)까지 포함한 비교가 필요합니다.

"겐나이"에서도 본격 조달 단계에 들어서야 처음으로 유상 도입에 대한 본격적인 비용 평가가 드러날 것으로 생각됩니다. 저렴한지 비싼지는 단가가 아니라 라이프사이클 (Lifecycle) 전체로 볼 필요가 있습니다.

행정은 왜 그 모델을 선택했는지, 어떤 데이터를 어떻게 다루었는지, 어떤 출력이 나왔는지를 나중에 설명할 수 있는 상태로 만들어 두어야 합니다. 투명성이 높은 국산 사업자나 OSS (Open Source Software) 기반이 이러한 설명 책임을 다하기 쉬운 국면이 있을 수 있습니다. 이 또한 성능과는 별개의 축입니다.

즉, 해외 프론티어 모델과 국산 모델은 "어느 한쪽을 선택하는" 것이 아니라, 이용 시나리오에 따라 나누어 사용하는 구도가 될 것으로 보입니다.

어디까지나 필자의 견해입니다.

기밀 정보를 포함하는 문서 작성이나 정책 조사는 국산 모델을, 기밀 정보를 포함하지 않는 범용 업무나 코딩 지원 등은 해외 모델을 활용하는 방식입니다.

그러한 역할 분담이 현실적인 타협점이 되지 않을까 생각합니다.

국산 LLM의 의의를 정리해 왔습니다만, 여기서 잠시 멈추어 현실적인 과제에 대해서도 언급해 두고자 합니다. "국산이니까 좋다"라는 전제로 읽으면 판단을 그르칠 수 있기 때문입니다.

학습 데이터량 (Learning Data Volume): 일본어 텍스트 데이터는 영어권과 비교했을 때 총량 면에서 뒤처진다는 지적이 있습니다. 양질의 일본어 코퍼스 (Corpus) 확보는 각 기업에 있어 지속적인 과제라고 생각됩니다. -
계산 자원 (GPU): 대규모 모델의 학습에는 방대한 GPU 자원이 필요합니다. 세계적인 GPU 수급 불균형도 있어, 해외 프런티어 (Frontier) 세력과 동등한 계산 규모를 국내에서 확보하는 것은 쉽지 않다는 지적이 있습니다. -
성능 격차 (Performance Gap): 범용적인 벤치마크 (Benchmark)에서는 해외의 최첨단 모델과의 차이가 지적되는 경우도 있습니다. 다만, 행정 업무에 필요한 것이 반드시 '모든 태스크에서 세계 최고'여야 하는 것은 아니며, 특정 일본어 업무에서의 실용적 충분성이 관건이라는 시각도 존재합니다. -
에코시스템의 두께 (Ecosystem Thickness): 툴 연동, 문서, 커뮤니티 축적과 같은 주변 에코시스템은 해외 세력이 앞서 있는 영역이 있습니다.

이러한 요소들은 '그러므로 국산은 불필요하다'라는 결론을 도출하기 위한 것이 아니라, 오히려 실증을 통해 어떤 과제가 어떤 업무에서 얼마나 영향을 미치는지 파악하는 것의 의의를 뒷받침하는 것이라고 보고 있습니다. 병렬적인 실증은 이러한 과제들을 정량적으로 파악하기 위한 수단이라고도 할 수 있습니다.

공공 및 지자체용 AI 솔루션을 검토하고 있는 사업 회사의 입장에서 생각하면, 「GENAI」의 움직임은 몇 가지 관점에서 참고가 됩니다. 이는 요구사항 정의, 조달, PoC (Proof of Concept) 설계 각각에 영향을 미치는 이야기입니다.

제안 시에 "왜 그 모델을 사용하는가"를 설명해야 하는 상황이 늘어나고 있습니다. 앞서 언급한 4개 축(주권, 컴플라이언스, 비용, 설명 책임)을 요구사항 정의의 비교 항목으로 명시적으로 포함하면, 성능에만 치우치지 않는 설명을 할 수 있어 행정 의사결정자에게 전달하기 쉬워집니다. GENAI에서 병렬 평가되고 있는 7개 모델을 "비교의 척도"로 사용하는 것도 유효합니다. 예를 들어,

"부처 내 문서 작성 지원이라면 tsuzumi 2나 cotomi v3와 같이 운용 효율을 중시하는 모델이 적합할 수 있습니다."
"전문적인 조사 지원이라면 ELYZA나 PLaMo와 같이 장문 및 지시 추종 성능을 내세우는 모델과의 비교도 검토해 주십시오."

와 같은 정리는 제안 대상과의 논의를 위한 초안(たたき台)이 됩니다. 단정적으로 "이것이 최적이다"라고 말하기보다, 요구사항과 특성의 매핑을 정중하게 제시하는 스탠스가 행정 의사결정에서는 더 수용되기 쉬운 인상을 줍니다.

공개된 정보를 보면, 거버먼트 AI (Government AI) 조달 로드맵은 대체로 다음과 같이 정리되어 있습니다 (시기는 자료 기준이며, 변경될 가능성이 있다는 점에 유의하십시오).

2026년 3월~: 시용을 위한 계약 체결 및 조정
2026년 5월~2027년 3월: 대규모 실증 페이즈 (18만 명 전개) 기간
2026년 8월~: 국내 LLM 7개 모델 시용 개시 (Release 2.1)
2027년 1월경: 평가 및 검증 결과 일부 공표
2027년 4월~: 우수한 모델을 정부 조달 (유상)로서 도입 예정 (Release 3.0)

공공 조달은 "갑작스러운 본 채용이 아니라 실증부터"라는 신중한 단계를 밟는 것을 전제로 설계되어 있습니다. 지자체에 제안하는 사업자로서도 이 단계적인 로드맵을 의식하여, PoC, 평가, 본 도입을 역산하여 계획해 두면 국가의 방침과 발을 맞추기 쉬워집니다. 특히 "평가 지표를 미리 설계해 두는 것"은 국가의 진행 방식에서도 배울 수 있는 포인트입니다.

GENAI의 움직임에서 배울 수 있는 PoC 설계의 포인트로는 "복수 모델을 병렬로 테스트하는 프레임워크를 처음부터 포함한다"는 사고방식을 들 수 있습니다. 모델 1개만으로 평가하면 결과가 "모델의 좋고 나쁨"인지 "업무와의 궁합"인지 구분하기 어려워집니다. GENAI처럼 동일한 업무 시나리오에 대해 복수 모델을 테스트하는 설계로 해두면 결과의 설명력이 높아지고, 이후의 조달 판단에도 견딜 수 있는 평가 데이터가 남습니다. 평가 지표(정확도, 운용 비용, 보안 적합성, 현장의 사용 편의성 등)를 사전에 정의해 두는 것도 설명 책임의 관점에서 효과적입니다.

여기서 언급한 것은 어디까지나 일반론이며, 개별 안건의 최적해는 클라이언트의 업무 내용이나 법령 요건에 크게 좌우됩니다. 제안 대상에 따라 요구사항, 제약, 예산, 인원을 고려한 개별적인 검토가 필요합니다.

지금까지 긍정적인 관점을 정리해 왔습니다만, 몇 가지 냉정하게 짚고 넘어가야 할 점도 있습니다.

본 채용의 확약이 아님: 이번 7개 모델 선정은 어디까지나 시용·실증의 대상으로 선정된 것입니다. 본격적인 채용이 어떻게 될지는 평가 결과에 달려 있다고 공개 자료에 명시되어 있습니다. -
성능 순위의 확정도 아님: 이번 프레임워크는 병렬적인 실증이며, 2026년 5월 시점에 "어떤 모델이 가장 우수하다"라고 공식적으로 단정된 것이 아닙니다. 각 모델이 특화된 업무 영역이나 용도가 다르다는 전제하에 읽을 필요가 있습니다. -
해외 모델의 배제가 아님: "겐나이(源内)"는 국산 LLM (Large Language Model) 활용을 추진하는 움직임이지만, 정부 전체로서 해외 모델의 이용을 일률적으로 배제하고 있는 것은 아닙니다. 용도에 따라 나누어 사용하는 방식이 지속될 것으로 보는 것이 현실적이라고 생각합니다. -
공개 정보의 제약: 본고의 표에 포함된 수치는 각 사가 공식적으로 공개하고 있는 범위로 한정했습니다. 일부 모델은 파라미터(Parameter) 수나 학습 데이터의 상세 내용을 공개하지 않았기 때문에, "완전히 비교할 수 없는 부분이 있다"는 전제하의 이해가 필요합니다. -
방침은 변할 수 있음: 정부의 조달 방침이나 로드맵(Roadmap) 시기는 예산·정치 상황·기술 동향에 따라 변할 수 있습니다. 최신 정보는 반드시 1차 자료를 통해 확인하실 것을 권장합니다.

"겐나이"에서의 7개 모델 병렬 실증은 행정 DX (Digital Transformation)와 국산 AI 산업의 움직임을 동시에 관찰할 수 있는 귀중한 소재라고 느낍니다. 중요한 것은 이를 단순한 "국산 LLM의 스펙 비교"로 보는 것이 아니라, 데이터 주권·경제 안보·락인(Lock-in) 회피·일본어 적합성이라는 정책적인 동기와, 경쟁 원리·적재적소·리스크 분산이라는 공공 조달의 발상에서 읽어내는 것이라고 생각합니다.

사업자의 입장에서는,

채용된 7개 모델의 특징을 공식 정보 범위 내에서 파악해 둘 것
해외 프런티어 모델(Frontier Model)과 국산 모델의 차이를 성능이 아닌 "주권·컴플라이언스(Compliance)·비용·설명 책임"의 4개 축으로 정리해 둘 것
국산 LLM의 현실적인 과제(데이터 양·연산 자원·성능 격차)도 공정하게 고려할 것
본격적인 조달 단계에 맞춰, 복수 모델의 병렬 사용을 전제로 한 PoC (Proof of Concept) 설계 및 제안 스토리를 업데이트해 둘 것

등이 당면한 현실적인 액션(Action)이 될 것으로 보입니다. 본 기사는 공개 정보 범위를 바탕으로 정리한 것이므로, 실제 도입 검토 시에는 반드시 1차 자료와 각 사의 최신 릴리스(Release)를 참조하시는 것이 안전할 것이라 생각합니다.

AdverTimes: 디지털청, 정부 AI용 국산 LLM 7개 모델 선정, 18만 명의 정부 공무원을 대상으로 대규모 실증
디지털청: Government AI “GENAI”
디지털청 (참고 자료): 향후 가버먼트 AI 겐나이(源内)의 전개 (2026년 3월 6일)
국립정보학연구소 (NII): LLM-jp-4 8B / 32B-A3B 오픈 소스 공개
IPA: 정부 정보 시스템을 위한 보안 평가 제도 (ISMAP)
내각부: 경제 안보에 관한 노력
NTT: NTT판 LLM tsuzumi 2 업데이트
NTT 데이터: tsuzumi 2 제품 페이지
ELYZA: Llama-3.1-ELYZA-JP-70B 공개
소프트뱅크: 국산 LLM 「Sarashina mini」의 API 접속 서비스 「Sarashina API」 법인 대상 제공 개시
NEC: NEC Generative AI 「cotomi」
후지쯔: 세계 최고의 일본어 성능을 가진 기업용 대규모 언어 모델 「Takane」 제공 개시
Preferred Networks: PLaMo 2.0 Prime 출시
커스텀 클라우드: 정부용 AI 「CC Gov-LLM」이 겐나이에 선정
Ledge.ai: 디지털청, 정부 AI 기반 「겐나이」에서 국산 LLM 시용 예정
Impress Watch: 디지털청, 가버먼트 AI용 국산 LLM 선정, tsuzumi 2 및 PLaMo 2.0 등

일본 정부 AI 「GENAI」 채택 7개 모델 비교 — 왜 국산 LLM을 7개 병렬로 테스트하는가, 그 정책적·지정학적 배경을 분석하다

요약

핵심 포인트

댓글