언어 모델의 구획화 문제 (Language models struggle with compartmentalization)

대규모 언어 모델 (LLMs)이 사용하는 학습 데이터 내에서, 동일한 잠재 개념 (latent concept)은 종종 여러 가지 서로 다른 방식으로 제시됩니다. 예를 들어, 동일한 사실이 영어와 스와힐리어로 나타나거나, 많은 함수가 Python과 Haskell 모두로 표현될 수 있으며, 명제를 형식 언어 (formal language)와 자연어 (natural language) 모두로 표현할 수 있습니다. 본 연구에서는 LLM이 통일된 개념의 서로 다른 표현들 사이에서 통계적 강점 (statistical strength)을 식별하고 공유하는 데 실패하는 구획화 (compartmentalization) 현상을 보일 수 있음을 보여줍니다. 최악의 경우, LLM은 개념의 각 표현에 대해 단순히 병렬적인 내부 표현 (internal representations)을 학습하며, 이로 인해 모델 용량 (model capacity)이 중복성으로 포화되고, 이러한 표현의 수가 늘어남에 따라 샘플 효율성 (sample efficiency)이 감소합니다. 또한 우리는 합성 병렬 데이터 (synthetic parallel data)가 그 자체로는 쉽게 학습됨에도 불구하고, 이러한 문제를 개선하는 데 실패할 수 있음을 입증합니다. 이 프레임워크 하에서, 우리는 소형 모델의 경우 초기 다국어 학습 (multilingual learning)이 거의 전적으로 구획화되어 있다는 것을 발견했습니다. 마지막으로, 우리가 연구한 모든 개입 (interventions)은 그 효과가 서로 다른 표현의 수에 따라 달라지는 상전이 (phase transition) 현상을 보이며, 이는 언어 모델링 목적 함수 (language modeling objective)가 표현을 통합하는 데 있어 일관되지 않을 수 있음을 시사합니다.

Insights

언어 모델의 구획화 문제 (Language models struggle with compartmentalization)

요약

핵심 포인트

댓글

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek

Solidity 컴파일러의 오컴파일 버그 탐지 및 이해

ORCAID: 연속 액션 공간을 위한 사선 규칙 기반 해석 정책 (Oblique Rule-Based Continuous-Action

Show GN: Lucene search core 기여 팀이 만든 Local-first AI Memory Workspace, Maek