arXiv논문2026. 05. 05. 16:41

Decoding-Time Debiasing via Process Reward Models: From Controlled Fill-in to

요약

본 논문은 대규모 언어 모델(LLM)이 학습 데이터의 사회적 편향을 흡수하여 고정관념을 강화하는 문제를 해결하기 위해, 모델 가중치를 수정하지 않고 디코딩 시간(추론 시간)에 편향을 완화하는 새로운 접근 방식을 제안합니다. 이 방법은 별도의 프로세스 보상 모델(PRM)이 후보 토큰들을 공정성과 유창성 측면에서 점수화하여 '판사' 역할을 수행하며, Best-of-N 선택, 순차적 비평 및 수정(Sequential critique-and-revise), 헌법적 자체 감사 등 세 가지 정교한 스키마를 설계했습니다. 실험 결과, 특히 순차적 디비아싱 기법이 가장 효과적이어서 평균 편향 점수를 크게 개선하면서도 언어의 유창성을 유지하거나 향상시키는 것으로 나타났습니다.

핵심 포인트

모델 가중치 수정 없이 추론(Decoding) 단계에서 LLM의 사회적 편향을 완화하는 새로운 방법론 제시.
별도의 프로세스 보상 모델(PRM)이 후보 토큰에 대한 공정성 및 유창성 점수를 매기는 '판사' 역할을 수행함.
제안된 세 가지 스키마 중, 순차적 비평 및 수정(Sequential critique-and-revise) 기법이 가장 높은 편향 감소 효과를 보임.
Open-ended Generation으로 확장 가능하며, 오버헤드를 최소화하기 위해 잠재적으로 편향된 단어에만 작동하는 경량 Bias Guard Gate를 제안함.
GPT-4o-mini와 같은 강력한 독점 모델은 프레임워크가 모델 능력에 따라 확장됨을 보여주며, 소규모 오픈 가중치 모델에서도 적용 가능함을 입증함.

대규모 언어 모델은 학습 데이터에서 사회적 편향을 흡수하여, 하류 응용 프로그램으로 이어지며 종종 성별, 인종, 종교, 장애, 연령, 사회경제적 지위와 관련된 고정관념을 강화하는 경향이 있습니다. 표준적인 해결책 (커리큘럼 데이터 재학습 또는 인간 피드백 기반 Fine-tuning) 은 비용이 많이 들고 모델 가중치에 접근해야 하며, 다른 작업에서 모델 성능 저하의 위험이 있습니다. 본 논문에서는 다른 접근법을 취합니다: 우리는 모델 가중치를 만지지 않고도 Decoding 시간 (추론 시간) 에서 편향을 완화하며, 이를 후보 토큰에 대한 구조화된 탐색으로 간주합니다. 별도의 Process Reward Model (PRM) 은 각 후보를 공정성과 유창성 측면에서 점수화하는 판사로 역할을 합니다. 우리는 세 가지 점점 더 정교한 스키엄을 설계했습니다 (Best-of-N 선택, Sequential critique-and-revise, Constitutional self-audit) 및 8 가지 편향 범주를 포함하는 영어와 우르두어双语 Benchmark 에서 200 프롬프트를 사용하여 네 가지 모델 (GPT-4o-mini, Llama 3.2 3B, Gemma 3 4B, Qwen 2.5 3B) 을 평가했습니다. Sequential Debiasing 이 가장 효과적임을 입증하며, Baseline 대비 평균 편향 점수를 최대 +0.40 향상시키고 유창성을 유지 (때로는 개선) 합니다. 우리는 모든 세 가지 스키엄을 토큰이 실시간으로 Debias되는 Open-ended Generation 으로 확장하고, 잘 조정된 모델에서 Overhead 가 2 배에 가까운 수준으로 유지되도록 잠재적으로 편향된 단어에만 발동하는 경량 Bias Guard Gate 를 소개합니다. 생성기 비용과 판사 비용을 분리하는 공식적인 Overhead Metric 은 Best-of-N 이 네이티브 구현에서 생성기 측면에서 효과적으로 무료임을 보여줍니다. GPT-4o-mini 는 강력한 Proprietary Anchor 로 포함되며, 프레임워크가 모델 능력에 따라 확장됨을 확인하며, 세 가지 Open-weight 모델은 현재 소규모 LLM 에서 여전히 어려움을 겪는 영역을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Decoding-Time Debiasing via Process Reward Models: From Controlled Fill-in to

요약

핵심 포인트

댓글