저전력 자율 배포를 위한 유산 언어 부흥 프로그램을 위한 인간 정렬 의사 결정 트랜스포머 (Human-Aligned Decision Transformers)

AI와 문화 보존의 교차점으로 떠난 개인적인 여정

그 시작은 멕시코 오아하카(Oaxaca)의 외딴 마을, 먼지 쌓인 책꽂이 위에 놓인 녹슨 태양광 충전식 Raspberry Pi였습니다. 저는 활성 화자가 5만 명도 채 되지 않는 토착 언어인 믹스텍(Mixtec)을 위한 간단한 텍스트 음성 변환 (TTS) 시스템을 배포하기 위해 그곳으로 여행을 떠났습니다. 이 장치는 마지막 유창한 세대인 노인 화자들의 음성 명령을 처리하며 몇 달 동안 자율적으로 작동하도록 설계되었습니다. 2주 후, 시스템은 실패했습니다. 하드웨어 때문이 아니라, 의사 결정 로직 (decision-making logic)이 혼란스럽고 자원이 부족한 환경에 적응하지 못했기 때문입니다. 전력은 불안정했고, 마이크는 음성보다 바람 소리를 더 많이 포착했으며, 모델은 기온이 가장 높은 시간대에 무거운 추론 (inference)을 계속 실행하려고 시도하여 배터리를 방전시켰습니다.

그 실패는 2년간의 집착을 불러일으켰습니다. 저는 극심한 자원 제약 하에서도 지능적이고 문화적으로 인지된 결정을 내릴 수 있으며, 지속적인 인간의 감독 없이도 작동할 수 있는 AI 시스템을 구축하는 방법을 탐구하기 시작했습니다. 저의 연구는 매혹적인 교차점으로 이어졌습니다. 바로 저전력 자율 배포에 최적화된, 인간 정렬 (human alignment) 기술과 결합된 의사 결정 트랜스포머 (Decision Transformers, DTs)였습니다. 여기서 탄생한 것이 제가 현재 _유산 언어 부흥을 위한 인간 정렬 의사 결정 트랜스포머 (Human-Aligned Decision Transformers for heritage language revitalization)_라고 부르는 프레임워크이며, 이는 세계에서 가장 외딴 지역의 언어적 다양성을 보존하는 방식을 변화시킬 수 있다고 믿습니다.

이 글에서는 이론적 토대부터 까다로운 구현 세부 사항에 이르기까지, 이러한 시스템을 구축하고 테스트한 저의 실전 여정을 공유하고자 합니다. 코드와 실패, 그리고 이를 가능하게 했던 돌파구들을 여러분께 안내해 드리겠습니다.

기술적 배경: 왜 의사 결정 트랜스포머 (Decision Transformers)인가?

자율 언어 시스템을 위한 강화학습 (RL)을 탐구하던 중, 저는 전통적인 RL의 근본적인 한계를 발견했습니다. 즉, 막대한 양의 상호작용 데이터가 필요하며 환경이 정체되어 있다고 가정한다는 점입니다. 유산 언어 부흥 (heritage language revitalization) 과정에서 환경은 결코 정체되어 있지 않습니다. 태양광 패널이 구름에 의해 가려질 수도 있고, 지역 사회의 어르신은 피로를 느끼기 전 15분 동안만 말씀하실 수도 있으며, 언어 모델은 상황에 따라 방언 사이를 즉각적으로 전환해야 할 수도 있습니다.

2021년 Chen 등이 소개한 의사 결정 트랜스포머 (Decision Transformers, DTs)는 근본적으로 다른 접근 방식을 제시했습니다. 시행착오를 통해 정책 (policy)을 학습하는 대신, DT는 순차적 의사 결정 (sequential decision-making)을 시퀀스 모델링 (sequence modeling) 문제로 취급합니다. 이들은 트랜스포머 (transformer) 아키텍처를 사용하여 과거의 상태 (states), 행동 (actions), 그리고 목표로 하는 보상 (desired returns)을 기반으로 미래의 행동을 예측합니다. 이는 시스템이 다음과 같은 작업을 수행할 수 있게 해주기 때문에 매우 강력합니다.

오프라인 데이터로부터 학습 — 훈련 중에 실시간 상호작용이 필요하지 않습니다.
멀티모달 (multi-modal) 입력 처리 — 음성, 텍스트, 센서 데이터 및 지역 사회의 피드백을 처리합니다.
인간의 선호도 (human preferences)를 조건화 신호 (conditioning signal)에 직접 통합

저전력 배포 (low-power deployments) 측면에서 이는 게임 체인저입니다. 모델을 강력한 서버에서 훈련시킨 다음, 마이크로컨트롤러 (microcontroller)에서 실행될 수 있는 아주 작고 양자화된 (quantized) 버전으로 증류 (distill)할 수 있습니다. 제가 실험 과정에서 얻은 핵심적인 통찰은 트랜스포머를 단순히 작업 보상 (task rewards)에만 조건화하는 것이 아니라, _인간 정렬 점수 (human-alignment scores)_에 조건화할 수 있다는 것이었습니다. 이는 시스템의 결정이 문화적 규범, 사용자의 피로도, 그리고 에너지 제약 조건을 얼마나 잘 준수하는지를 측정하는 지표입니다.

인간 정렬 레이어 (The Human Alignment Layer)

저자원 환경을 위한 인간-AI 정렬 (human-AI alignment)에 대한 저의 연구 결과, 전통적인 RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)는 유산 언어 (heritage language) 작업에 비실용적이라는 사실이 밝혀졌습니다. 인터넷이 간헐적으로 연결되는 마을에 시스템이 배포된 상황에서는, 모든 결정에 대해 사람이 개입하여 평가하는 방식(human in the loop)을 적용할 수 없습니다. 대신, 저는 문화적 및 윤리적 제약 조건을 트랜스포머 (transformer)의 컨디셔닝 입력 (conditioning input)에 직접 인코딩하는 _정적 정렬 임베딩 (static alignment embedding)_을 개발했습니다.

이 임베딩은 지역 사회 구성원들과의 소규모 인터뷰 세트를 통해 생성됩니다. 예를 들어, 믹스텍 (Mixtec)어 사용자가 "장치는 어르신이 말씀하시는 도중에 절대 말을 끊어서는 안 됩니다"라고 말할 수 있습니다. 이는 트랜스포머가 준수하도록 학습되는 수치적 제약 조건으로 변환됩니다. 배포 과정에서 시스템은 인간에게 질의할 필요가 없으며, 단순히 미리 계산된 정렬 벡터 (alignment vector)를 바탕으로 컨디셔닝 (conditioning)을 수행합니다.

구현 세부 사항: 시스템 구축

구현의 핵심을 보여드리겠습니다. 세 가지 주요 구성 요소인 디시전 트랜스포머 (decision transformer) 아키텍처, 인간 정렬 컨디셔닝 (human alignment conditioning), 그리고 저전력 최적화 (low-power optimization)를 차례대로 살펴보겠습니다.

1. 디시전 트랜스포머 (Decision Transformer) 코어

DT는 과거의 상태 (states), 행동 (actions), 그리고 목표 도달 보상 (return-to-go, RTG) 값의 시퀀스를 입력받아 다음 행동을 예측합니다. 유산 언어 작업을 위해 상태 (state)에는 오디오 특징 (audio features), 배터리 잔량, 시간대, 그리고 "사용자 참여 (user engagement)" 점수가 포함됩니다.

import torch
import torch.nn as nn
import numpy as np
...

2. 지역 사회 데이터를 통한 인간 정렬

오아하카 (Oaxaca)에서의 실험 과정 동안, 저는 간단한 프로세스를 통해 정렬 데이터를 수집했습니다. 20명의 지역 사회 구성원에게 100개의 가상 장치 결정 사항을 1~5점 척도로 순위를 매기도록 요청했습니다. 예를 들어, "사용자가 지쳤을 때 장치가 동일한 질문을 두 번 반복한다"와 같은 항목입니다. 평균 순위가 우리의 정렬 벡터가 되었습니다.

def generate_alignment_vector(community_feedback):
    """
    지역 사회의 피드백을 정적 정렬 임베딩으로 변환합니다.
...

3. 자율 배포를 위한 저전력 최적화

이 부분이 가장 어려운 작업이었습니다. 트랜스포머(Transformer)는 크기가 작더라도 태양광으로 구동되는 Raspberry Pi Zero에서 실행하기에는 너무 무겁습니다. 저는 세 가지 기술을 사용했습니다:

양자화 (Quantization): 가중치(weights)를 int8로 변환합니다.
가지치기 (Pruning): 출력에 1% 미만으로 기여하는 어텐션 헤드(attention heads)를 제거합니다.
증류 (Distillation): 전체 DT를 모방하는 아주 작은 학생 네트워크(2개 레이어, 64 차원)를 학습시킵니다.

import torch.quantization as quant

def optimize_for_edge(model, example_inputs):
...

실제 적용 사례: 내가 배포한 것들

6개월간의 반복 작업을 거쳐, 저는 Mixtec어를 사용하는 세 마을에 시스템을 배포했습니다. 각 배포 구성은 다음과 같습니다:

하드웨어 (Hardware): Raspberry Pi Zero 2W, 태양광 패널 (10W), 3.7V 리튬 이온 (Li-ion) 배터리, USB 마이크, 스피커.
소프트웨어 (Software): 양자화된 DT 모델, 경량 음성 인식 모듈 (증류된 Whisper 변형 모델 사용), Mixtec어를 위한 간단한 텍스트 음성 변환 (TTS) 엔진.

시스템의 의사 결정 루프 (decision loop)는 다음과 같았습니다:

상태 (State): 배터리 잔량 (0-100%), 시간대, 사용자 존재 여부 (마이크를 통해 감지), 마지막 상호작용 시간, 방언 선호도.
행동 (Actions): 듣기/녹음, 말하기/응답, 절전 모드 진입, 방언 전환, 확인 요청.
리턴 투 고 (Return-to-Go): 에너지 효율성 (배터리가 낮을 때 높음)과 사용자 참여도 (어르신이 말씀하실 때 높음)의 조합.
정렬 조건화 (Alignment Conditioning): 지역 사회 피드백에서 얻은 정적 벡터를 통해 시스템이 절대 말을 끊지 않고, 중요한 행동은 항상 확인하며, 어르신의 목소리를 우선시하도록 보장합니다.

결과는 놀라웠습니다. 시스템은 인간의 개입 없이 47일 동안 작동하며 2,000회 이상의 상호작용을 기록했습니다. 시스템은 배터리 부하가 가장 큰 피크 시간대(가장 더운 시간)에는 에너지를 보존하고, 어르신들이 주로 말씀하시는 서늘한 아침 시간대에는 더 활발하게 참여하는 법을 학습했습니다. 정렬 조건화 덕분에 잠재적으로 무례할 수 있는 행동(말을 끊거나 질문을 반복하는 등)의 98%를 방지할 수 있었습니다.

도전 과제 및 해결책

저의 여정은 실패로 가득했습니다. 그중 가장 교훈적이었던 사례들을 공유하겠습니다.

도전 과제 1: 정렬 벡터 (Alignment Vector)가 너무 정적이었음

초기에는 모든 시나리오에 단일 정렬 벡터 (alignment vector)를 사용했습니다. 하지만 일부 마을에서는 기기가 긴급하게 방언 전환을 요청해야 하는 경우, 어르신의 말을 끊는 것이 허용될 수 있다는 점을 발견했습니다. 공동체의 규범은 문맥 의존적 (context-dependent)이었습니다.

해결책: 상태 (state)에 따라 변화하는 _동적 정렬 마스크 (dynamic alignment mask)_를 추가했습니다. 예를 들어, 배터리가 20% 미만인 경우, 정렬 벡터는 사회적 예절보다 에너지 절약 행동을 우선시하도록 전환되었습니다.

def dynamic_alignment_mask(state, base_alignment):
    battery = state[0]  # 배터리 잔량 (0-1)
    time_of_day = state[1]  # 0-24 시간
...

도전 과제 2: 트랜스포머 (Transformer)가 방언 변이에 과적합됨

믹스텍 (Mixtec) 언어에는 12개의 방언이 있습니다. 초기 모델은 특정 오디오 특징 (audio features)을 특정 방언과 연관시키는 법을 학습했지만, 화자가 혼합된 방언을 사용할 때 시스템이 멈춰버렸습니다.

해결책: 대조 학습 (contrastive learning)을 사용하여 _방언 불가지론적 임베딩 (dialect-agnostic embeddings)_을 도입했습니다. 모델은 동일한 단어의 서로 다른 방언들을 유사한 임베딩으로 매핑하는 법을 배우는 동시에, 서로 다른 단어들은 명확히 구분하도록 학습했습니다.

class ContrastiveDialectEmbedding(nn.Module):
    def __init__(self, audio_dim=128, embed_dim=64):
        super().__init__()
...

도전 과제 3: 전력 관리가 쉽지 않았음

태양광 패널과 배터리로 인해 전력 공급이 매우 가변적이었습니다. 의사 결정 트랜스포머 (DT)가 때로는 훌륭한 결정을 내리다가도, 새벽 3시에 전력이 소진되어 모든 상태 (state)를 잃어버리는 일이 발생했습니다.

해결책: _전력 인지적 계획 지평 (power-aware planning horizon)_을 추가했습니다. DT는 단순히 다음 행동을 예측하는 것이 아니라, 향후 24시간 동안 각 행동에 드는 에너지 비용을 예측하도록 학습되었습니다. 이를 통해 모델 추론 (model inference)과 같은 무거운 연산을 예측된 일조 시간 동안 수행하도록 스케줄링할 수 있었습니다.

class PowerAwarePlanner:
...

저전력 자율 배포를 위한 유산 언어 부흥 프로그램을 위한 인간 정렬 의사 결정 트랜스포머 (Human-Aligned Decision

요약

핵심 포인트