DiARC: 양성 및 음성 샘플의 구분이 대규모 언어 모델(LLM)의 ARC 유사 추론 능력을 향상시키는 데 도움이 된다
요약
DiARC는 LLM의 ARC 유사 추론 능력을 높이기 위해 양성 샘플뿐만 아니라 음성 샘플을 활용하는 새로운 방법론을 제안합니다. 선호도 정렬 방식을 차용하여 모델이 정답과 오답을 구별하도록 학습시켜 추론 성능을 향상시킵니다.
핵심 포인트
- 양성 및 음성 샘플 구분을 통한 LLM 추론 능력 강화
- 선호도 정렬(Preference Alignment) 개념을 ARC 작업에 적용
- 시각적 변환, 규칙 반전 등 세 가지 음성 샘플 구축 방법 제안
- 기존 베이스라인 모델 대비 일관된 성능 향상 입증
Abstraction and Reasoning Corpus (ARC;~ extcite{chollet2019measure})는 제한된 그리드 샘플로부터 패턴을 요약하고 출력 그리드를 예측해야 하는 작업들을 포함하고 있습니다. 최근 많은 대규모 언어 모델 (Large Language Model, LLM) 기반의 접근 방식들이 이를 텍스트 기반 추론 작업으로 변환하려고 시도해 왔습니다. 그러나 오픈 소스 모델에 기반한 방법들은 일반적으로 만족스럽지 못한 결과를 냈으며, 폐쇄형 소스 모델에 의존하는 방식은 비용이 너무 많이 듭니다. 현재의 노력들은 주로 데이터 증강 (Data Augmentation), 즉 더 포괄적인 지도 미세 조정 (Supervised Fine-Tuning, SFT)을 위해 ARC 유사 데이터를 구축하는 데 집중되어 있습니다. 본 연구에서 우리는 ARC 유사 문제를 해결하기 위해서는 extit{양성 (positive)} 샘플의 지도뿐만 아니라, extit{음성 (negative)} 샘플을 구별함으로써 모델의 추론 능력을 향상시키는 능력 또한 필요하다고 주장합니다. 이를 위해 우리는 선호도 정렬 (Preference Alignment)의 아이디어를 차용하여, 모델이 샘플 간의 차이를 구별할 수 있도록 선호도 쌍 (Preference Pairs)을 구축하는 방법인 extsc{DiARC}를 제안합니다. 구체적으로, 우리는 출력 수준의 시각적 변환 (Output-level visual transformations), DSL 수준의 규칙 반전 (DSL-level rule inversion), 그리고 작업 특정적 규칙 편집 (Task-specific rule editing)을 포함하여 음성 샘플을 구축하는 세 가지 방법을 제안합니다. 결과적으로 생성된 음성 샘플은 관찰된 시연 (Demonstrations)은 변경하지 않으면서도 정보가 풍부한 근사 오류 (Near-miss) 대안을 제공합니다. 여러 ARC 유사 벤치마크에 걸친 실험 결과는 extsc{DiARC}가 베이스라인 모델들에 비해 성능을 일관되게 향상시킨다는 것을 보여줍니다. 코드는 https://github.com/szu-tera/DiARC に 공개되어 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기