FERA: 대규모 언어 모델을 위한 불확실성 인식 연합 추론
요약
본 논문은 중앙 집중화가 어려운 분산된 사적 데이터를 활용하여 대규모 언어 모델(LLMs)의 추론 능력을 향상시키는 '불확실성 인식 연합 추론(FERA)' 프레임워크를 제안합니다. FERA는 서버가 클라이언트의 원시 데이터에 접근할 수 없는 환경에서, 반복적인 서버-클라이언트 공동 정제 과정을 통해 다단계 추론을 개선합니다. 핵심은 불확실성을 측정하고 이를 기반으로 신뢰도를 가중치화하여 이질적인 클라이언트 간의 충돌을 해결하는 '불확실성 인식 자체 비판 집계(UA-SCA)' 메커니즘입니다.
핵심 포인트
- FERA는 중앙 집중식 데이터 공유 없이 분산된 사적 데이터를 활용하는 연합 추론 기법이다.
- 반복적인 서버-클라이언트 공동 정제 과정을 통해 다단계 추론을 점진적으로 개선한다.
- 불확실성 인식 자체 비판 집계(UA-SCA)를 사용하여 클라이언트 간의 충돌을 해결하고 신뢰도를 가중치화한다.
- FERA는 이론적 수렴 보장을 제공하며, 다양한 벤치마크에서 기존 모델들을 능가하는 성능을 보인다.
대규모 언어 모델(LLMs)은 고품질 시연(demonstrations)에 의해 안내될 때 강력한 추론 능력을 보이지만, 이러한 데이터는 규제적, 독점적 또는 제도적 제약으로 인해 중앙 집중화할 수 없는 여러 조직에 분산되어 있는 경우가 많습니다. 우리는 연합 추론(federated reasoning)을 연구합니다. 이는 서버가 중앙 집중식 훈련이나 원시 데이터 공유 없이도 사적인 시연 데이터를 보유한 이질적인 클라이언트들과 협력하여 다단계 추론을 개선하는 방식입니다. 핵심 과제는 클라이언트의 신뢰도가 쿼리 의존적(query-dependent)인데, 서버가 어떤 기여가 신뢰할 수 있는지 판단하기 위해 클라이언트 데이터를 검사할 수 없다는 점입니다. 이를 해결하기 위해, 우리는 반복적인 서버-클라이언트 공동 정제(co-refinement)를 기반으로 하는 훈련이 필요 없는 프레임워크인 불확실성 인식 연합 추론(Uncertainty-Aware Federated Reasoning, FERA)을 제안합니다. 통신 라운드 전반에 걸쳐, 클라이언트는 경량의 불확실성 추정치와 함께 추론 흔적(reasoning traces)을 생성하고, 서버는 이를 종합하여 개선된 추론을 합성하며, 이는 다음 라운드의 컨텍스트로 재분배되어 서버 출력과 클라이언트 측 추론 모두를 점진적으로 개선합니다. 각 라운드 내에서, 불확실성 인식 자체 비판 집계(Uncertainty-Aware Self-Critique Aggregation, UA-SCA)는 쿼리 의존적 신뢰 가중치와 구조화된 크로스-클라이언트 검증을 통해 이질적인 클라이언트 흔적 간의 충돌을 해결합니다. 단순히 저품질의 흔적을 폐기하는 대신, UA-SCA는 결함이 있는 추론 단계를 수정하여 유용한 정보를 복구합니다.
우리는 제안된 반복 프로토콜이 수렴한다는 것과 불확실성 인식 가중치가 수렴 속도를 높인다는 것을 보여주는 이론적 보장을 제공합니다. 여러 추론 벤치마크에서의 실험 결과, FERA는 연합 학습(federated training) 및 비학습(training-free) 기준 모델 모두를 일관되게 능가하며, 통신 및 계산 효율성을 유지하면서 라운드별로 점진적으로 더 높은 정확도를 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기