arXiv중요논문2026. 04. 23. 22:50

작업 기억 제약이 트랜스포머의 데이터 부족 문제를 해결하는 방법

요약

본 연구는 인간의 작업 기억(working memory) 개념을 트랜스포머 아키텍처에 통합하여, 데이터가 부족한 환경에서도 모델 학습 성능을 개선하는 방법을 제시합니다. 고정 폭 윈도우 기반 및 시간 감쇠 기반 등 인지적으로 영감을 받은 어텐션 변형 기법들을 GPT-2와 같은 모델에 적용했습니다. 그 결과, 특히 데이터셋이 적은 상황에서 문법적 정확도가 크게 향상되었으며, 인간의 독해 속도 측정 지표와의 일치성도 높아지는 경향을 보였습니다. 이는 작업 기억 제약이 모델에게 유용한 귀납적 편향(inductive bias)으로 작용하여

핵심 포인트

작업 기억 개념을 트랜스포머에 통합한 새로운 아키텍처를 개발했습니다.
고정 폭 윈도우 기반 어텐션 등 인지적 제약이 데이터 부족 환경에서 문법 정확도를 높입니다.
제약된 모델은 인간의 언어 처리 메트릭과 더 높은 일치성을 보였습니다.
작업 기억 제약은 데이터가 적을 때 강력한 귀납적 편향 역할을 할 수 있습니다.

본 연구는 트랜스포머 아키텍처에 인간의 작업 기억(working memory) 개념을 도입하는 방안을 탐구했습니다. 이를 위해 고정 폭 윈도우 기반 및 시간 감쇠 기반 등 인지 과학에서 영감을 받은 다양한 어텐션 변형 기법들을 구현했습니다.

수정된 GPT-2 모델들은 개발 과정상 타당한 데이터셋(10M, 100M 단어)을 이용해 처음부터 학습되었습니다. 성능 평가는 문법 판단 과제(BLiMP)와 인간의 독서 시간 데이터를 활용하여 이루어졌습니다.

연구 결과에 따르면, 이러한 인지적 제약들, 특히 고정 폭 어텐션이 데이터가 부족할 때 문법 정확도를 크게 향상시키는 것으로 나타났습니다. 또한, 작업 기억을 고려한 모델들은 인간의 언어 처리 방식과도 더 높은 일치성을 보이는 경향을 보였습니다.

결론적으로, 이러한 제약 조건은 데이터가 제한적인 환경에서 모델이 더욱 견고하고 효과적인 언어 표현을 학습하도록 돕는 유익한 귀납적 편향(inductive bias) 역할을 할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

작업 기억 제약이 트랜스포머의 데이터 부족 문제를 해결하는 방법

요약

핵심 포인트

댓글