arXiv논문2026. 06. 19. 11:52

대규모 언어 모델(LLMs)이 항상 읽기 쉬운 언어를 필요로 하는 것은 아니다

요약

LLM이 인간의 가독성을 희생하는 대신 의미 정보를 압축하여 전달할 수 있는 'BabelTele'라는 모델 중심적 텍스트 표현 방식을 제안합니다. 연구 결과, 텍스트를 27.9%로 압축해도 99.5%의 의미 충실도를 유지하며 컨텍스트 오버헤드를 줄일 수 있음을 확인했습니다.

핵심 포인트

BabelTele: LLM 간 통신을 위한 압축된 비표준 텍스트 형식 제안
텍스트 길이를 약 28% 수준으로 압축하면서도 높은 의미 충실도 유지
컨텍스트 오버헤드 감소를 통한 효율적인 모델 간 통신 및 메모리 활용 가능성
인간의 가독성과 모델의 의미론적 복구 가능성이 분리될 수 있음을 입증

대규모 언어 모델 (LLMs)은 의도된 독자가 다른 모델일 때조차도 일반적으로 인간이 읽을 수 있는 자연어 (natural language)로 프롬프트를 입력받고 인터페이스를 형성합니다. 본 논문은 의미 정보 (semantic information)가 인간의 가독성을 희생하는 대신 LLMs에 의해 복구 가능한 압축된 비표준 텍스트 형식으로 인코딩될 수 있는지 조사합니다. 우리는 이러한 모델 중심적 텍스트 표현 (model-centric textual representations) 클래스를 BabelTele라고 부르며, 이를 고정된 프로토콜이 아닌 LLMs가 이러한 표현을 생성하고 해석하는 능력에 대한 경험적 탐구 (empirical probe)로 접근합니다. 가독성 진단, 모델 가능도 측정 (model likelihood measures), 인간 설문 조사 및 다운스트림 작업 평가 (downstream task evaluations)를 통해, 우리는 BabelTele가 지시어 튜닝된 (instruction-tuned) LLMs를 위해 핵심 의미를 보존하면서 일반적인 자연어로부터 상당히 벗어날 수 있음을 발견했습니다. 작업 불가지론적 표현 패러다임 (task-agnostic representational paradigm)으로서, BabelTele는 텍스트 양이 원래 길이의 27.9%로 압축되었을 때도 99.5%의 의미 충실도 (semantic fidelity)를 유지하며 높은 정보 밀도를 보여줍니다. 우리는 더 나아가 교차 모델 전이 (cross-model transfer), 에이전트 메모리 (agent memory), 그리고 다중 에이전트 통신 (multi-agent communication)에서의 의미론적 견고성 (semantic robustness)을 평가합니다. 결과는 BabelTele가 컨텍스트 오버헤드 (context overhead)를 줄이면서도 일반적으로 신뢰할 수 있는 다운스트림 성능을 유지할 수 있음을 시사하지만, 그 효과는 압축기-독자 쌍 (compressor-reader pair)과 작업 설정에 따라 달라집니다. 이러한 발견은 인간의 가독성, 자연어 전형성 (natural-language typicality), 그리고 모델 측면의 의미론적 복구 가능성 (model-side semantic recoverability)이 부분적으로 분리될 수 있음을 나타내며, 향후 LLM 시스템 탐구에서 모델 네이티브 표현 (model-native representations)을 향한 길을 열어줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델(LLMs)이 항상 읽기 쉬운 언어를 필요로 하는 것은 아니다

요약

핵심 포인트

댓글