의미의 형태: 기계 간 이해를 위한 보편적 형식

기계 간 이해를 위한 보편적 형식

AI 분야가 현재 수행할 수 없는 논쟁이 하나 있습니다. AI의 미래에 관한 모든 공개적인 대화는 하나의 저장 기질(storage substrate)을 정답으로 취급하고 다른 것들은 구식으로 치부합니다. 한 진영은 신경망 가중치(neural weights)를 확장하며 기호 시스템(symbolic systems)을 유산(legacy)으로 일축합니다. 벡터 데이터베이스(vector-database) 산업은 임베딩(embeddings)을 검색을 위한 만능 용매로 홍보합니다. 기호적 AI(symbolic AI) 전통은 구조화된 지식(structured knowledge)이 신뢰할 수 있는 추론으로 가는 유일한 길이라고 주장합니다. 각 진영은 서로에 대한 비판을 발표합니다. 각 진영은 자신의 기질을 보편적인 정답으로 취급합니다.

그들 중 누구도 자신의 기질에 대해 틀린 말을 하는 것은 아닙니다. 하지만 그들 모두 '보편적'이라는 부분에 있어서는 틀렸습니다. 지식은 이질적인 저장 요구 사항을 가지고 있으며, 모든 것을 지배할 단 하나의 기질을 찾으려는 이 분야의 지속적인 탐색은 대화가 구조적인 진전을 이루지 못하게 막는 아키텍처적 오류입니다. 이 에세이는 올바른 구성이 어떤 모습인지, 그리고 특정 구조화된 기질인 기호 접지 프레임워크(Symbol Grounding Framework)가 그 안에서 어디에 위치하는지에 대해 다룹니다. 이는 하나의 기질로 모든 것을 하려고 할 때 어떤 일이 발생하는지에 대한 작은 예시로 시작합니다.

몇 주 전, 나는 최첨단 언어 모델(frontier language model)에게 "I know more than a novice in a nunnery"라는 문장이 어디에서 왔는지 물었습니다. 모델은 매우 자신 있게 대답했습니다: 윌리엄 셰익스피어(William Shakespeare), 로미오와 줄리엣(Romeo and Juliet). 하지만 그 문장은 길버트와 설리번(Gilbert and Sullivan)의 '펜잔스의 해적(Pirates of Penzance)'에 나오는 소장(Major-General)의 노래에 나오는 구절입니다. 작가도 틀렸고, 세기도 틀렸으며, 작품도 틀렸고, 장르도 틀렸습니다. 정답을 말할 때와 똑같이 차분한 목소리였습니다. 며칠 후, 동일한 시스템은 진 와일더(Gene Wilder)가 '러시아 하우스(The Russia House)'에서 숀 코너리(Sean Connery)와 공동 출연했다고 나에게 말했습니다. 그렇지 않습니다. 두 사람은 함께 영화에 출연한 적이 없습니다. 시스템은 불확실성을 표시하지 않았습니다. 웹을 검색하지도 않았습니다. 시스템은 그럴듯하게 들리는 사실을 자신감 있는 산문으로 생성하고는 그대로 넘어갔습니다.

이것들은 상식 퀴즈였습니다. 오답에 따른 대가는 가벼운 웃음뿐이었습니다. 이제 동일한 메커니즘이 의료 차트, 법률 요약서, 계약 조항, 통제 물질의 용량, 혹은 생명 유지에 필수적인 장비의 배선도에 적용된다고 상상해 보십시오. 그 대가는 더 이상 웃음으로 끝나지 않습니다. Gilbert and Sullivan에 대해 자신감 넘치는 헛소리를 만들어내는 아키텍처 (Architecture)는, 오늘날 환자의 병력을 요약하고 법원 제출 서류를 초안하는 역할을 요구받고 있는 바로 그 아키텍처와 동일합니다. 이 시스템에는 자신이 알고 있는 것과 단순히 생성해낸 것을 구분할 수 있는 내부 메커니즘이 없습니다.

이 에세이는 그 대안에 관한 것입니다.

저는 기계가 공유하고, 감사하며, 추론할 수 있는 형태로 의미를 표현하기 위한 최적의 구조가 존재한다고 주장합니다. 그것은 허브 앤 스포크 (hub-and-spoke) 그래프입니다. 동사 (Verb)가 허브 (Hub)에 위치합니다. 15개의 의미 역할 (Semantic roles)이 에지 타입 (Edge types) 역할을 합니다. 끝점 (Endpoints)은 정형 식별자 (Canonical identifiers)를 가집니다. 이 식별자는 단어의 표제어 (Lemma), 짧은 의미 정의, 그리고 품사 (Part of speech)로 구성된 전역적으로 고유한 주소입니다. 모든 식별자는 누구나 다운로드할 수 있는 자유롭고 공유된 어휘집 (Lexicon)을 가리킵니다. 의미가 단일 허브 앤 스포크 단위로 표현하기에 너무 복잡할 경우, 절 (Clause)이 문장 (Sentence)으로 결합되는 방식처럼 단위들이 더 큰 구조로 결합됩니다. 저는 각 단위를 시냅스 (Synapse)라고 부릅니다. 저는 이 아키텍처를 기호 접지 프레임워크 (Symbol Grounding Framework)라고 부릅니다. 이 에세이의 나머지 부분은 이 주장을 옹호합니다.

다섯 가지 요소
허브에 위치한 동사

문장은 하나의 사건 (Event)입니다. 사건은 하나의 동작과 다수의 참여자를 가집니다. 동작을 중심에 두십시오. 참여자들을 스포크 (Spoke)의 끝에 두십시오. 스포크 그 자체는 의미 역할 (Semantic roles)입니다. 즉, 누가 했는지, 무엇에 행해졌는지, 어디서 일어났는지, 언제, 어떻게, 왜 일어났는지를 나타냅니다.

RDF 트리플 (RDF triples)은 사건에 참여자가 아무리 많더라도 모든 사실을 세 개의 슬롯에 강제로 밀어 넣습니다. 반면 허브 앤 스포크는 사건을 조각내지 않고도 현실의 형태에 부합합니다. 하나의 문장은 하나의 시냅스가 됩니다. 스포크의 수는 참여자에 따라 유연하게 조절됩니다. 기하학적 구조가 세상과 일치합니다.

이를 통해 한 곳에서 하나의 사건을 다룰 수 있습니다.
15개의 의미 역할

저는 12개의 역할로 시작했습니다. 12개로는 충분하지 않았습니다. 더 추가했습니다. 15개가 되었을 때, 제가 테스트한 모든 절이 깔끔하게 들어맞았습니다. 16개를 추가하려고 했을 때는 항상 기존 역할들의 조합으로 나타났습니다. 핵심 역할 6가지: 행위자(Agent), 피행위자(Patient), 주제(Theme), 경험자(Experiencer), 수신자(Recipient), 수혜자(Beneficiary). 맥락 역할 9가지: 시간(Time), 장소(Location), 출처(Source), 목적지(Destination), 방식(Manner), 도구(Instrument), 원인(Cause), 이유(Reason), 속성(Attribute).

실제로 실험을 진행하면, 폐쇄(closure)는 15에 수렴합니다. 문법은 엄격하지만, 중심부의 동사 어휘는 열려 있습니다.

이것이 저렴한 연합(federation)을 제공합니다. 관계 어휘가 폐쇄되면, 결론적으로 한 번도 만난 적 없는 두 시스템이라도 정의상 공유하게 됩니다. 그들은 협상을 할 필요가 없습니다.

정식 식별자(Canonical Identifiers)

각 스포크 종단점에서는 모호성 없이 대상을 지정할 수 있어야 합니다. 'bank'라는 단어는 세 가지 다른 개념을 가집니다. 따라서 모든 종단점은 다음과 같은 형식의 식별자를 지닙니다:

language.lemma.microgloss.part-of-speech.namespace

en.bank.financial_institution.noun.core
en.bank.river_edge.noun.core
en.bank.aeronautic_maneuver.verb.core

의미(sense)는 주소 안에 있습니다. 외부 조회가 필요 없습니다. 아침 3시에 로그를 읽는 엔지니어는 시스템이 정확히 무엇을 의미했는지 알 수 있습니다.

이것은 제가 '어근 붕괴(lemma collapse)'라고 부르는 실패 모드 때문에 중요합니다. 저장 키가 단순히 어근 문자열—즉, 의미 정보가 첨부되지 않은 단어 bank만 있는 경우—일 때, 그래프는 모든 사실을 그 어근의 모든 의미에 대해 기본적으로 동일한 노드로 라우팅합니다. 강(river)의 가장자리와 금융 기관이 하나의 객체에 축적됩니다. 모호성이 구조적인 문제가 됩니다. 다운스트림에서 아무리 많은 모호성 해소 논리를 추가해도 고칠 수 없습니다. 왜냐하면 모든 접근 경로가 여전히 과부하된 키를 통해 라우팅하기 때문입니다. sense_id 속성, 엣지 플래그, 임베딩 기반 휴리스틱 같은 일반적인 해결책들은 표면을 장식할 뿐 근본적인 문제를 남겨둡니다. 새로운 통합마다 동일한 보상 논리를 반복하게 됩니다. 그 결과는 공유된 모호성을 덮은 국소적 패치들의 네트워크가 됩니다.

Canonical ID(정형 ID)는 이를 기질(substrate) 수준에서 해결합니다. 각 의미(sense)는 자신만의 주소를 갖게 됩니다. 엣지(edge)는 혼합된 표제어(lemma) 노드가 아닌 정확한 의미를 대상으로 합니다. 표제어는 저장 키(storage key)가 아닌, 인간이 읽을 수 있는 레이블이자 검색 용어로서 본연의 역할로 돌아갑니다.

Canonical ID는 단순 표제어에는 없는 속성인 가역성(reversibility)을 가집니다. Canonical ID는 언어, 표제어, 마이크로글로스(microgloss), 품사(part of speech), 네임스페이스(namespace)와 같은 구성 요소로 언제나 분해될 수 있으며, 어휘 사전(lexicon)과 대조하여 그것이 나타내는 정확한 의미를 복원할 수 있습니다. 반면 단순 표제어는 가역적이지 않습니다. 원래 어떤 의미를 의도했는지 추측하기 위해, 당시 사용 가능했던 휴리스틱(heuristics)을 사용하여 중의성 해소(disambiguation) 과정을 다시 실행해야만 합니다. 하나는 주소처럼 동작하고, 다른 하나는 추측처럼 동작합니다. 이 아키텍처는 주소를 선택합니다.

이를 통해 식별자(identifier) 수준에서 의미 중의성 해소(sense disambiguation)가 가능해집니다.

공유 어휘 사전 (The Shared Lexicon)

Canonical ID가 가리키는 어휘 사전이 비공개적이거나, 규모가 작거나, 논쟁의 여지가 있다면 그것은 아무런 가치가 없습니다. 핵심 어휘 사전(Core Lexicon)은 Wiktionary에 기반을 둡니다. 170만 개의 용어, 자유 라이선스, 다국어 지원, 그리고 이미 이를 유지 관리하고 있는 커뮤니티를 갖추고 있습니다. 누구나 동일한 릴리스를 다운로드하고, 서명을 확인하며, 바이트 단위로 동일한(byte-identical) 기초 위에서 작업할 수 있습니다. 아래에서 언급될 65개의 소수(primes)는 설계상의 선택이 아닙니다. 그것은 자연 의미 메타언어(Natural Semantic Metalanguage) 프로그램의 50년에 걸친 교차 언어 연구의 결과이며, 이 섹션의 뒷부분에서 자세히 다룹니다.

어휘는 압축입니다. 'mortgage(담보 대출)'라는 단어에는 차입자, 대출자, 담보물로서의 자산, 상환 일정, 이자율, 그리고 이를 뒷받침하는 법적 체계가 담겨 있습니다. 이 모든 것이 단 8개의 철자로 접혀 있는데, 이는 언어적 발화가 느린 채널이며 언어가 이를 통해 인지적 구조를 전달해야 하기 때문입니다. 어휘 사전은 이 압축을 푸는 지도(decompression map)입니다. 모든 용어는 더 단순한 용어들로 분해됩니다. 그 용어들은 다시 더 분해됩니다. 이 사슬은 어딘가에서 반드시 종료되어야 하며, 그렇지 않으면 전체 과정은 정의의 회전목마(definition merry-go-round)가 되어버릴 것입니다.

그것은 65개의 의미 원형 (semantic primes) — SOMEONE (누군가), SOMETHING (무언가), DO (하다), HAPPEN (일어나다), GOOD (좋은), BAD (나쁜), THINK (생각하다), FEEL (느끼다), MOVE (움직이다), TOUCH (만지다), BEFORE (전), AFTER (후), PLACE (장소)에서 종료됩니다. 자연 의미 메타언어 (Natural Semantic Metalanguage, NSM) 연구 프로그램은 이들을 연구된 모든 인간 언어가 공유하는 것으로 밝혀진 개념들로 식별했습니다. 이것들이 근간입니다. 일단 연쇄가 원형에 도달하면, 그것은 멈춥니다.

이것은 당신에게 근거 (grounding)를 제공합니다.
왜 65개인가? NSM의 결과

65개의 원형은 발명된 것이 아닙니다. 그것들은 알려진 모든 언어로 문자 그대로 번역될 수 있으며, 그 자체로는 더 단순한 단어를 사용하여 정의될 수 없는 개념이 무엇인지 50년 동안 질문해 온 자연 의미 메타언어 (Natural Semantic Metalanguage) 연구 프로그램으로부터 계승된 것입니다. 바르샤바 대학교와 호주 국립 대학교의 Anna Wierzbicka가 1970년대 초에 이 작업을 시작했습니다. Griffith 대학교의 Cliff Goddard가 이를 확장했습니다. 이 숫자는 Wierzbicka의 1972년 연구에서는 14개로 시작하여, 2002년까지 60개로 확장되었으며, 이후 20년 동안 65개로 안정되었습니다. 지속적인 교차 언어적 테스트 하에서의 이러한 안정성이 바로 증거입니다. 이 집합은 하향식 (top-down)으로 설계된 것이 아닙니다. 그것은 모든 축약 시도 후에 남은 잔여물입니다.

경험적 범위가 곧 검증입니다. NSM은 영어, 러시아어, 폴란드어, 만다린(Mandarin), 일본어, 한국어, 말레이어, Ewe어, Wolof어, East Cree어, Koromu어, 16개의 호주 원주민 언어, 그리고 Bislama와 Tok Pisin을 포함한 크리올 (creoles)을 포함한 16개 언어 그룹에 걸쳐 테스트되었습니다. 이것은 서구 중심의 편의 표본이 아닙니다. 만약 65개의 원형이 East Cree어와 Wolof어로의 번역에서도 살아남는다면, 그것들은 인도-유럽어적 사고의 인위적 산물이 아닙니다. 그것들은 인간 인지 자체의 구조적 특징이 될 후보들입니다. 이 에세이 전반에 흐르는 폐쇄성 논거 (closure argument)는 바로 그 발견에 기초합니다. 유한한 중간 어휘는 그것이 보편적일 때에만 유용합니다. NSM은 보편성이 달성 가능하다는 것을 보여주는 경험적 사례입니다.

압축 해제 프레임워크 (decompression framing)는 선택을 임의적인 것이 아닌 의무적인 것으로 만듭니다. 자연어는 손실 압축 (lossy compression)입니다. 문화권은 대화에 대역폭 효율성 (bandwidth efficiency)이 필요하기 때문에 약어 (shorthand)를 만들어내며, 이 약어가 인간 사이에서 작동하는 이유는 우리가 인간이라는 사실 덕분에 압축 해제 알고리즘 (decompression algorithm)을 공유하기 때문입니다. 기계는 그 알고리즘을 공유하지 않습니다. 기계에게 의미에 대한 접근 권한을 부여하려면, 압축된 형태들이 기계가 읽을 수 있는 구조로 압축 해제되어야 합니다. 원형 (primes)은 압축 해제의 알파벳입니다. 원형 위의 모든 것은 그것들로부터 구축됩니다. "이 압축된 형태들이 무엇으로 압축 해제되는가"라는 질문에 대해 방어 가능한 유일한 답변은 — 그 자체로는 더 이상 압축 해제될 수 없는 가장 작은 용어 집합뿐입니다. 그것이 바로 NSM 원형 (primes)이 구조적으로 존재하는 방식입니다. 이보다 더 큰 집합은 중복이며, 이보다 더 작은 집합은 어떤 원형을 정의되지 않은 상태로 남겨둡니다. SGF는 압축 해제의 기질 (decompression substrate)입니다. 65개의 원형은 그 아래에 더 이상 풀어낼 것이 남아있지 않기 때문에 그 최하위 계층입니다.

공학적 이득은 언어적 결과에 뒤따릅니다. 일단 바닥(floor)이 존재하면, 모든 고차원 개념은 원형의 구조화된 조합으로 표현될 수 있으며, 이를 NSM에서는 명시화 (explication)라고 부릅니다. SGF는 이 속성을 상속받아 이를 실행 가능하게 만듭니다. 원형 계층 위의 모든 개념에 대한 정전적 ID (canonical ID)는 원형과 의미론적 분자 (semantic molecules)의 조합으로 정의됩니다. 여기서 의미론적 분자란 손, 긴, 둥근, 어머니, 아이들과 같이 NSM이 원형으로부터 직접 구축된 것으로 식별하여 다음 계층을 구성하는 데 사용한 중간 용어들을 의미합니다. 따라서 어휘집 (lexicon)은 평면적인 목록이 아닙니다. 그것은 최하단에 65개의 잎 (leaves)을 가지고 있으며 다른 모든 것이 그곳으로 환원되는 계층적 압축 해제 트리 (layered decompression tree)입니다. 이 폐쇄성 (closure)은 문체적인 것이 아니라 수학적인 것입니다.

한 가지 솔직한 인정이 필요합니다. NSM이 의미의 근간을 위한 유일한 제안은 아닙니다. Fillmore의 프레임 의미론 (Frame Semantics) 전통, Jackendoff의 개념 의미론 (conceptual semantics), 어휘 분해 문법 (lexical decomposition grammar), 그리고 여러 의미장 이론 (semantic field theories)들이 모두 경쟁적인 분해 방식들을 제시해 왔습니다. SGF는 역할 구조 (role structure)를 위해 프레임 의미론 (Frame Semantics) 전통을 활용하며 — 15개의 의미 역할 (semantic roles)은 Fillmore의 프레임 요소 (frame elements)와 유사합니다 — 기본 계층 (prime layer)을 위해서는 NSM을 활용합니다. 분해 방식들 사이에서 선택을 내리는 방법론은 모든 경우에 동일합니다: 언어 전반에 걸친 경험적 도달 범위 (empirical reach), 바꾸어 말하기 (paraphrase) 하에서의 기약 불가능성 (irreducibility), 그리고 명시 (explication)를 위한 충분성입니다. NSM은 이러한 기준들에 대해 가장 방대한 경험적 실적을 보유하고 있으며, 이것이 바로 SGF가 이를 바닥 (floor)으로 사용하는 이유입니다. 이 프레임워크는 반드시 이 특정 65개의 기본 요소 (primes)를 요구하는 것은 아닙니다. 그것은 유한하고 경험적으로 검증된 집합을 요구하며, NSM 집합이 현재 가장 강력한 후보입니다.

어휘 구축의 두 계층

어휘 (lexicon)는 한 단계로 구축되지 않으며, 각 단계 사이의 구분은 중요합니다. 왜냐하면 하나는 결정론적 (deterministic)이고 다른 하나는 그렇지 않기 때문입니다. 이 둘을 혼동하는 독자는 전체 기질 (substrate)이 LLM의 판단에 달려 있다고 생각하게 됩니다. 그렇지 않습니다.

의미의 형태: 기계 간 이해를 위한 보편적 형식

요약

핵심 포인트

댓글