「모달리티 간의 불일치를 감지하여 다시 만들기」가 특허가 된 일본에서 멀티모달 에이전트를 만드는 이야기

TL;DR

2025년 11월에 등록된 특허 제7778986호는, voice 멀티모달 모델이 동시에 내보내는 「음성」과 「텍스트」의 내용이 어긋나는 것을 감지하고, 일치할 때까지 다시 만드는 체크 시스템을 청구하고 있다 - 비특허 문헌으로 언급된 것은 OpenAI Realtime API의 공지 페이지 단 1개. 요컨대 「기존 제품의 알려진 버그에 대해, 누구나 작성할 수 있는 가드레일(guardrail)을 씌운 것」만으로 권리가 되어 있다 - 청구항 1은 「멀티모달 AI의 두 출력을 대조하여, 일치하는 것만 내보낸다 / 안 되면 다시 만든다」는 내용으로, 멀티모달 에이전트를 구축한다면 **첫날에 작성할 검증 루프 (verification loop)**에 널리 적용될 수 있는 내용이다 - 그리고 이것은 일본국 특허다. 해외 구현자가 아무런 신경 없이 작성할 수 있는 코드를, 국내(일본) 제작자만이 침해 리스크를 안고 작성하게 된다. 당연한 품질 보증을 수행할수록, 일본에서만 핸디캡을 안게 된다.

무엇이 등록되었는가

J-PlatPat에서 번호 조회를 하면 공보 본문까지 확인할 수 있다. 요점만 뽑으면 다음과 같다.

항목	내용
등록 번호	특허 제7778986호
...

주목할 점은 조기 심사를 통해 출원부터 등록까지 약 4개월이라는 속도와, 인용된 비특허 문헌이 단 1개뿐이라는 점이다.

비특허 문헌 1: "Introducing the Realtime API", OpenAI 공식 사이트 (2024년 10월 1일)

공보 자체에서 배경 기술로 「ChatGPT의 Advanced Voice Mode 등」을 언급하며, 과제를 다음과 같이 기술하고 있다.

현 상태의 음성 멀티모달 모델은 내용이 일치하지 않는 음성 및 텍스트를 출력해 버리는 경우가 있었다. 예를 들어, 음성으로는 「じゅうにまんえん(12만 엔)」이라고 출력되는 반면, 텍스트는 「12,000円」으로 표시되는 등의 케이스가 있었다.

즉, 「Realtime API 계열의 모델은 말하는 내용과 화면에 표시되는 글자가 어긋날 수 있다」는, 구현자라면 누구나 겪는 현상을 출발점으로 삼고 있다.

청구항 1을 구현자의 언어로 번역하기

청구항 1은 구성 요소가 많지만, 쉽게 풀이하면 다음과 같다.

사용자의 목소리(음성 데이터)를 받는다 (취득부)
그것을 「음성 멀티모달 모델 M1」에 넣어, 음성 출력과 텍스트 출력 양쪽을 얻는다 (생성부)
음성이 나타내는 지각 정보와 텍스트가 나타내는 지각 정보가 일치하는지 판정한다 (판정부)
불일치하면 생성부를 다시 동작시킨다 (재동작 지시부)
일치하면 음성/텍스트 중 적어도 하나를 출력한다 (출력 제어부)

플로우로 나타내면 공보의 도 2는 거의 이것뿐이다.

구현 경험이 있는 사람이라면, 이 도표에서 기시감을 넘어 허탈함을 느낄 것이다. 「LLM의 출력을 별도의 판정기로 검증하여, 안 되면 다시 만든다」는 self-consistency / LLM-as-judge의 리트라이 루프 (retry loop) 그 자체다. LangGraph로 멀티모달 에이전트를 구축한다면, 모달리티 정합성 체크 노드를 하나 추가하고 안 되면 이전 노드로 되돌리기만 하면 되는 —— 튜토리얼 첫날에 작성하는 분기이다. 실제로 종속 청구항 4에서는 판정 자체를 제2의 멀티모달 AI 모델 M2에 맡기는 구성까지 기술되어 있다. 「AI의 출력을 별도의 AI에게 대조하게 하여, 안 되면 다시 돌린다」. 이것을 발명이라 부른다면, 세상의 retry가 포함된 agent는 대부분 발명일 것이다.

종속항의 내용도 「보통 하는 일」이 나열되어 있다

종속항을 살펴보면, 현장에서 멀티모달 에이전트를 견고하게 만들 때 자연스럽게 넣는 고안들이 거의 망라되어 있다.

청구항	주장하는 차이점	구현자의 감각
2	말의 의미가 일치하는지 판정	표현 차이를 오판하지 않기 위한 당연한 배려
3	말의 발음이 일치하는지 판정 (예: 「概ね(대체로)」를 「がいね(가이네)」라고 읽는 사고를 방지)	요미가나(읽기 방식) 체크. 보통 넣는다
4	판정을 별도의 멀티모달 모델 M2에게 맡김	LLM-as-judge 그 자체
5	출력과 병행하여 실시간 판정하고, 불일치가 발생하면 출력을 중단	스트리밍(streaming) 전제라면 자연스러움
6	「숫자·금액·일시」 등 특정 단어가 포함될 때만 엄격하게 체크	비용 최적화로서 누구나 수행함
7	재생성 전에 「잠시만 기다려 주십시오」와 같은 안내를 내보냄	UX의 정석

청구항 6에서 예시되는 「특히 정확성이 요구되는 단어」는 숫자를 나타내는 문자·금액·일시이다. 이는 voice (음성)에서 가장 사고가 나면 치명적인 부분이며, 구현한다면 가장 먼저 special-case (특수 사례) 처리해야 할 대상이다. 그것이 종속항으로서 포함되어 있다.

엔지니어 시점에서 「걸리는」 부분은 어디인가

특허 제도로서 등록된 이상, 심사는 통과했다. 그럼에도 구현자로서 위화감이 남는 것은 다음 3가지 점이다.

1. 출발점이 「기존 제품의 기존 결함」

비특허 문헌이 OpenAI Realtime API의 공지 1건뿐이다. 배경 기술은 Advanced Voice Mode이다. **새로운 모델을 만든 것도, 새로운 판정 알고리즘을 제시한 것도 아니며, 「타사 제품의 알려진 버그에 누구나 생각할 수 있는 후처리 (post-processing)를 덧씌운 것」**이 골자다. 게다가 공보가 꼽는 결함의 예(음성 「じゅうにまんえん(십이만 엔)」 / 텍스트 「12,000円」)는 Realtime API를 하루만 만져봐도 누구나 겪는 것이다. 연구적인 신규성이 아니라, 당연한 후처리를 빠르게 선점했다는 성격이 강하다.

2. 청구항 1의 사정 범위가 넓다

청구항 1은 판정의 내용을 「지각 정보의 일치」라고만 제한하고 있다. 의미든 발음이든 상관없으며 (종속항에서 구체화), 판정기가 AI든 규칙(rule)이든 상관없다. **「멀티모달 모델의 두 가지 출력을 비교 → 불일치 시 재생성 → 일치 시 출력」**이라는 골격에 부합하는 구현은 상당히 넓다. 멀티모달 에이전트 (multimodal agent)를 진지하게 만든다면 의도치 않게 이 형태에 가까워진다.

3. 영향을 미치는 것은 국내 구현뿐 — 이것이 가장 큰 재앙

이 부분이 본론이다. 이것은 일본국 특허이며, 효력은 일본 국내로 한정된다. 어떤 일이 벌어지느냐 하면——

OpenAI Realtime API나 그와 동등한 멀티모달 모델을 사용하여 LangGraph 등으로 멀티모달 에이전트를 구성할 때, 모달리티 간의 정합성 체크 + 재생성은 「품질을 담보하려면 당연히 넣어야 하는」 처리다. 음성과 텍스트에 국한되지 않고, 동일한 모델이 여러 출력을 동시에 내뱉는 구성이라면 그 정합성을 맞추는 것은 기본 동작에 해당한다. 샌프란시스코의 엔지니어는 이 분기(branch)를 아무 생각 없이 작성하여 출시한다. 도쿄의 엔지니어는 동일한 분기를 작성하기 전에 변리사와 상담한다. 같은 코드, 같은 품질 개선임에도 불구하고, 국경 이쪽 편에서만 침해 확인 비용이 발생한다. 멀티모달이라는 성장하는 영역에서, 당연한 가드레일 (guardrail)을 넣을수록 국내 개발자들만 발목을 잡힌다. 이 비대칭성은 기술로 승부하고 싶은 사람 입장에서 보면 그야말로 재앙이다.

주의점 (과장하지 않기 위해)

비판의 논거를 세운 상태에서, 공정하게 짚고 넘어가야 할 점도 적어둔다.

청구항은 문언 그대로 좁게 해석된다. 「음성 멀티모달의 두 가지 출력을 지각 정보의 일치로 대조하고, 불일치 시 동일한 모델로 재생성시키며, 일치 시 출력한다」는 특정한 폐루프 (closed loop)가 구성요건이다. STT → LLM → TTS의 카스케이드 (cascade) 구성 (음성과 텍스트가 동일 모델의 동시 출력이 아닌 경우)이나, 불일치 시 재생성이 아닌 출력 억제 또는 폴백 (fallback)을 수행하는 구현은 문언상 벗어날 여지가 있다.

「넓게 읽힐 수 있다」는 「반드시 침해한다」는 뜻이 아니다. 실제 침해 판단은 구성요건의 충족 여부를 하나씩 확인하는 작업이며, 여기에 적은 것은 공보를 읽은 범위에서의 소견일 뿐이다. 본 기사는 법적 조언이 아니며, 구현자로서 FTO (Freedom to Operate, 자유 실시 권리)를 변리사에게 상담할 가치가 있는 영역이라는 지적에 그친다.

등록되어 있다는 사실은 무겁다. 심사관이 신규성·진보성을 인정하여 등록했다. 「자명해 보인다」는 감각과 특허 요건을 충족하는지는 별개의 문제이며, 후자는 전문가의 영역이다.

요약

특허 제7778986호는 기술적으로 「voice 멀티모달의 음성/텍스트 불일치를 검지하고, 일치할 때까지 재생성한다」는, 구현자라면 누구나 작성할 가드레일의 폐루프를 청구하고 있다. 출발점이 Realtime API의 알려진 결함이며, 종속항 또한 현장의 정석들이 나열되어 있다.

그리고 효력은 국내 한정이다. 당연한 품질 담보를 넣을수록, 일본 국내에서 멀티모달 에이전트를 만드는 측만 침해 확인 비용을 의식하게 된다. 해외 구현자는 비용 없이 작성할 수 있는 코드를, 국내 엔지니어만 경계하며 작성한다. 기술로 세계와 싸우겠다는 이야기 바로 발밑에서, 이런 비대칭이 조용히 쌓여가고 있다.

만약을 위해 반복하지만, 등록된 사실은 무거우며, 저촉 여부를 판단하는 것은 구성 요건을 하나씩 살펴보는 전문가의 영역이다. 본 기사는 공보(Patent Gazette)를 읽은 구현자의 소견일 뿐 법적 조언이 아니다. 그럼에도 불구하고——국내에서 멀티모달 에이전트 (Multimodal Agent)를 진지하게 만든다면, 모달리티 정합성 체크 (Modality Consistency Check) + 재생성 (Regeneration) 설계는 한 번 FTO (Freedom to Operate, 자유 실시 권리) 관점에서 검토해 두는 것이 좋다. 그런 말을 꺼내야 한다는 시점에서, 이미 충분히 핸디캡을 안고 있는 것이다.