arXiv논문2026. 06. 16. 11:38

진실은 가족 안에 머문다: 모델 계보 내 상속된 진실 헤드(Truthful Heads)를 통한 문맥적 근거 강화(Contextual

요약

모델 계보 내에서 진실성(Truthfulness)이 헤드 수준에서 보존된다는 사실을 발견하고, 이를 강화하는 TruthProbe 기법을 제안합니다. 연구 결과, 특정 어텐션 헤드가 문맥적 근거를 찾는 역할을 하며, 이를 증폭함으로써 환각 현상을 효과적으로 줄일 수 있음을 입증했습니다.

핵심 포인트

모델 계보 내에서 진실성 점수가 강력하게 보존됨을 확인
문맥-진실 헤드가 쿼리 관련 증거에 어텐션을 수행함
TruthProbe를 통해 멀티모달 환각(Hallucination) 감소
소프트 게이팅 전략으로 모델의 문맥적 진실성 향상

최근 거대 언어 모델(LLMs)의 발전은 공통된 기초 LLM(foundational LLMs)을 공유하며 뚜렷한 모델 계보(model lineages)를 형성하는 많은 특화된 멀티모달 LLM(MLLMs)을 탄생시켰습니다. 기초 LLM과 다운스트림 변체(downstream variants) 사이에 근본적인 행동적 연결이 존재하는지는 여전히 불분명합니다. 우리는 헤드 수준의 문맥-진실성 점수(head-level context-truthfulness scores)를 정량화함으로써 이 질문을 조사합니다. Vicuna, Qwen2.5, LLaMA2, Mistral 기반 모델을 포함한 다양한 LLM 및 MLLM 계보에 걸쳐, 우리는 진실성 점수(Truth Scores)가 지시어 튜닝(instruction tuning)이나 멀티모달 적응(multimodal adaptation) 이후에도 모델 제품군 내에서 강력하게 보존된다는 것을 발견했습니다. 나아가 우리는 이러한 상속이 어텐션 헤드 가중치 보존(attention-head weight preservation)과 일치하며, 문맥-진실 헤드(context-truthful heads)가 쿼리 관련 증거(query-relevant evidence)에 어텐션을 수행한다는 것을 보여줍니다. 이러한 발견을 바탕으로, 우리는 다른 헤드의 기여를 유지하면서 문맥-진실 헤드를 증폭시키는 소프트 게이팅(soft-gating) 전략인 TruthProbe를 제안합니다. TruthProbe는 HaluEval에서 문맥적 진실성을 향상시키고 POPE 및 CHAIR에서 멀티모달 환각(multimodal hallucination)을 줄이며, 베이스-LLM(base-LLM)의 진실성 점수가 미세 조정된(fine-tuned) LLM 및 MLLM 후손들에게 효과적으로 전이됨을 보여줍니다. 코드는 https://github.com/miso-choi/TruthProbe 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

진실은 가족 안에 머문다: 모델 계보 내 상속된 진실 헤드(Truthful Heads)를 통한 문맥적 근거 강화(Contextual

요약

핵심 포인트

댓글