본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 06. 01:23

Day 47: 3주간의 약물 상호작용 체크와 22개의 언어가 어떻게 1년짜리 문제로 만들었나

요약

인도의 22개 언어를 지원하는 건강 AI 구축 과정에서 겪은 언어적 한계와 기술적 해결책을 다룹니다. 단순 번역을 넘어 문화적 맥락과 지역적 언어 변이를 반영한 다국어 지식 그래프 구축의 중요성을 강조합니다.

핵심 포인트

  • 단순 번역은 의학적 문맥과 미묘한 뉘앙스를 놓칠 위험이 있음
  • 문화적 관용구와 지역적 언어 변이를 이해하는 것이 핵심
  • 다국어 지식 그래프를 통한 의미론적 연결 구축 필요

약물 상호작용 (Drug interactions)은 사실 데이터의 문제가 아닙니다. 적어도 제가 GoDavaii를 시작했을 때는 그렇게 생각했습니다. 저는 핵심 약물 상호작용 체크기 (Drug Interaction Checker)를 설계하고 구축하는 데 3주를 보냈고, 솔직히 말해서 로직 자체가 어려운 부분은 아니었습니다. 상호작용 그래프 (interaction graph) 자체가 복잡한 것은 사실이지만, 그 근간이 되는 의학적 원칙들은 잘 문서화되어 있습니다.

그 후 나머지 3개월이 흘렀습니다. 그리고 또 다른 6개월이 지났습니다. 그리고 저는 여러분께 진짜 문제를 말씀드릴 수 있습니다. 모든 글로벌 경쟁사들의 서비스가 인도에서 한계를 드러내는 바로 그 문제, 즉 언어입니다. 구체적으로는, 인도의 22개 이상의 모든 언어 말입니다. 이는 건강 AI (health AI)가 사람을 이해하는 방식에 대해 우리가 모든 것을 재고해야 했던 도전 과제였습니다.

영어 그 이상: 왜 '단순 번역'이 건강 AI에서 실패하는가

우리가 AI 건강 채팅 (AI Health Chat)을 출시했을 때, 비전은 명확했습니다. 모국어와 상관없이 인도의 모든 가족이 건강 질문을 던지고 자신의 약을 이해할 수 있도록 권한을 부여하는 것이었습니다. 하지만 건강을 단순히 '번역'할 수는 없습니다. 만약 여러분이 복잡한 의학적 질문을 힌디어 (Hindi)에서 영어 (English)로 번역하기 위해 일반적인 AI를 사용해 본 적이 있다면, 제 말이 무슨 뜻인지 알 것입니다. 번역 결과는 종종 간신히 작동하는 수준이거나, 뉘앙스가 빠져 있거나, 때로는 위험할 정도로 틀리기도 합니다.

예를 들어, 타밀어 (Tamil)의 흔한 표현인 "shareeram sariyaagilla"를 들어봅시다. 직역하면 "몸이 좋지 않다"는 뜻입니다. 하지만 첸나이 (Chennai)의 한 아주머니가 말하는 건강 문맥에서의 이 표현은 전반적인 권태감, 불편함, 또는 몸이 좋지 않은 느낌을 나타내는 미묘한 묘사입니다. 직접적인 번역은 그 중요한 의학적 문맥을 놓칠 수 있습니다. 우리의 AI는 "ang dukhte"를 단순한 일상적 불평이 아니라 증상 설명으로 읽어내야 합니다. 이것은 단순히 어휘의 문제가 아닙니다. 문화적 관용구 (cultural idiom), 지역적 변이, 그리고 사람들이 자신의 건강에 대해 논의하는 방식에 담긴 암묵적인 문맥에 관한 문제입니다.

우리는 Marathi, Bengali, Telugu 등 여러 언어에서 유사한 패턴을 발견했습니다. 두통(headache)은 항상 'headache'로 표현되지 않습니다. Hindi어로는 'sar dard', Tamil어로는 'thalai vali'라고 할 수 있으며, 혹은 욱신거림(throbbing), 둔한 통증(dull), 날카로운 통증(sharp)과 같이 그 특정한 양상으로 묘사될 수도 있습니다. 이 각각은 저마다의 지역적 언어 변이(linguistic variations)를 가지고 있습니다. 다음 10억 명의 사용자를 위해 서비스를 구축한다는 것은 단순히 어떤 단어가 사용되는지를 넘어, 그 단어들이 어떻게 느껴지고 해석되는지를 이해하는 것을 의미합니다.

다국어 건강 그래프(Multilingual Health Graph) 구축: 기술적 심층 분석

GoDavaii의 상호작용 체크 기능과 22개 이상의 언어를 지원하는 광범위한 건강 AI를 구축하기 위한 우리의 접근 방식은 단순한 문자열 현지화(string localization)를 훨씬 뛰어넘습니다. 우리는 각 약물, 증상, 질환이 단순히 영어 라벨로 저장되는 것이 아니라, 지원하는 모든 언어에 걸쳐 그에 상응하는 용어, 변이, 그리고 일반적인 묘사들과 깊은 의미론적 연결(semantic links)을 갖도록 하는 맞춤형 지식 그래프(knowledge graph)를 구축했습니다.

이는 다음과 같은 작업을 의미합니다:

  • 다중 스크립트 이름 처리 (Multi-script Name Handling): 단순히 'paracetamol'을 번역하는 것이 아니라, Devanagari, Tamil 스크립트, Bengali 스크립트 등에서 'paracetamol'을 이해하고 이를 수천 개의 지역 브랜드명과 매핑하는 것입니다. 과제는 단순히 문자 집합(character sets)의 문제가 아닙니다. 'Dolo 650'이 paracetamol이라는 것을 인식하고, 'Calpol' 또한 paracetamol임을 인지한 뒤, 두 이름 모두를 여러 언어에 걸쳐 일반 명칭(generic term)과 연관시키는 것입니다.
  • 문맥적 AI 이해 (Contextual AI Understanding): 우리는 미묘한 언어 이해를 위해 Gemini 2.5 Flash와 같은 모델의 능력을 활용하여, 특히 크고 다양한 인도 건강 데이터셋을 바탕으로 언어 모델(language models)을 미세 조정(fine-tune)해야 했습니다. 이는 처음부터 학습시키는 것이 아니라, 이러한 프런티어 모델(frontier models)이 지역 의료 대화에 대해 진정으로 문맥을 인식(context-aware)할 수 있도록 만드는 과정입니다. 누군가가 "garam paani" (따뜻한 물) 요법에 대해 물을 때, 우리의 AI는 단순히 음료를 보는 것이 아니라 Desi Ilaaj 지식 그래프와 연결합니다.
  • 모국어 음성에서의 사용자 의도 (User Intent in Native Voice): 우리의 AI 건강 채팅(AI Health Chat)은 저자원 언어(low-resource languages)로 이루어진 구어체 질의를 해석해야 하며, 이때 다양한 억양과 비격식적인 표현이 포함되는 경우가 많습니다.

이러한 다양한 입력값에 대해 견고한 음성 우선 UX (voice-first UX)를 구축하는 것은 엄청난 과제였으며, 우리의 음성-텍스트 변환 (speech-to-text) 및 의도 인식 (intent recognition) 레이어를 반복적으로 테스트하게 만들었습니다.

Epocrates나 Medscape와 같은 글로벌 경쟁사들은 놀라운 리소스이지만, 본질적으로 영어 우선 (English-first)입니다. 그들의 아키텍처, 데이터 모델, 그리고 AI 추론 (AI reasoning)은 모두 단일 언어 의료 맥락을 위해 구축되었습니다. Startup Flight Vietnam 2025에서 Top 14 글로벌 파이널리스트에 오른 것은 환상적인 검증이었지만, 가장 복잡한 대화는 언제나 언어 스택 (language stack)에 관한 것이었습니다. 이는 다른 누구도 진정으로 다루지 않는 부분입니다.

다음의 10억 명: 이 해자 (Moat)가 중요한 이유

궁극적인 목표는 단순히 기술적으로 인상적인 시스템을 만드는 것이 아닙니다. 그것은 형평성 (equity)에 관한 것입니다. 작은 마을의 어머니가 아이가 복용 중인 두 약물이 상호작용할지 빠르게 확인하거나, 자신의 언어로 검사 결과 보고서에 대한 AI 검증 설명을 듣는 것을 가능하게 하는 것입니다.

이는 흔히 처방되는 현대 의학 약물 (allopathic drug)을 전통적인 아유르베다 (Ayurvedic) 요법인 Desi Ilaaj와 결합할 때, 우리 시스템이 잠재적인 상호작용을 교차 검증하도록 설계되었음을 의미하며, 이는 영어 전용 플랫폼은 따라올 수 없는 능력입니다. 전통 지식과 AI 교차 검증의 이러한 융합은 진정으로 독특합니다.

이러한 심도 있는 언어적 작업이 GoDavaii를 단순한 또 다른 건강 앱 이상으로 만드는 요소입니다. 이는 가족들을 위한 필수적인 준비 도구로서, 그들이 더 정확한 질문을 던지고 서두르는 진료 과정에서 놓칠 수 있는 부분을 포착할 수 있도록 돕습니다. 이는 가족들을 더 잘 준비시킴으로써 의사를 대체하는 것이 아니라, 의사를 보조 (augment)합니다.

인도의 수많은 언어를 진정으로 구사하는 AI를 구축하는 이 여정이 진정한 장기전 (long-game)입니다. AI가 어려워할 만한 지역 언어 중 여러분이 들어본 가장 까다로운 의학적 표현은 무엇인가요? 댓글로 남겨주세요. 여러분의 사례를 듣고 싶습니다.

godavaii.com에서 여러분의 언어로 GoDavaii를 체험해 보세요.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0