arXiv논문2026. 05. 29. 10:51

구조적 표현을 사용하여 자연어 질의로부터 인과 효과 예측하기

요약

LLM을 활용하여 자연어 질의로부터 인과 효과를 예측하는 Query2Effect 벤치마크와 2단계 프레임워크를 제안합니다. 구조적 표현 생성과 지도 학습 기반 인코더를 결합하여 기존 LLM 대비 예측 오차를 대폭 개선했습니다.

핵심 포인트

72,000개 이상의 자연어 질문으로 구성된 Query2Effect 벤치마크 공개
구조적 표현 생성과 수치 추정을 분리한 2단계 프레임워크 제안
미세 조정을 통해 기존 LLM 대비 절대 오차를 최대 71% 감소
의미론적 해석과 수치 추정 분리로 도메인 외 일반화 성능 향상

무작위 대조 시험 (Randomized controlled trials)은 인과 효과 (causal effects)에 대한 신뢰할 수 있는 추정치를 가능하게 하므로 의학과 사회 과학의 초석이 됩니다. 그러나 이를 수행하는 데는 많은 비용과 시간이 소요되며, 이는 기존의 실험적 증거로부터 인과 효과를 예측하려는 관심을 불러일으켰습니다. 최근 거대 언어 모델 (Large Language Models, LLMs)의 발전은 지식 집약적 작업에서 강력한 성능을 입증하였으며, 이러한 모델들이 인과 효과 크기를 예측하는 데 사용될 수 있는지에 대한 의문을 제기합니다. 이를 조사하기 위해, 우리는 Query2Effect를 소개합니다. 이는 실험 설명과 정렬된 72,000개 이상의 자연어 질문으로 구성된 새로운 대규모 벤치마크로, 암시성 (implicitness), 추상성 (abstraction), 모호성 (ambiguity)의 차원에 따라 질의의 구체성을 변화시켜 현실적인 정보 탐색 시나리오를 시뮬레이션하도록 제작되었습니다. 그런 다음 우리는 먼저 질의의 합성된 구조적 표현 (synthetic structured representation)을 생성한 후, 지도 학습 기반의 인코더 모델 (supervised encoder model)을 사용하여 효과 크기를 예측하는 2단계 프레임워크를 제안합니다. 실험 결과, 미세 조정 (finetuning)이 예측 성능을 향상시키는 데 결정적인 역할을 한다는 것을 보여주었으며, 프롬프트 기반의 즉시 사용 가능한 (out-of-the-box) LLM과 비교했을 때 절대 오차 (absolute error)가 -27%에서 최대 -71%까지 감소했습니다. 또한 우리의 2단계 프레임워크는 도메인 외 일반화 (out-of-domain generalization)에 유익하며, 이는 의미론적 해석 (semantic interpretation)과 수치적 효과 추정 (numerical effect estimation)을 분리하는 것의 이점을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

구조적 표현을 사용하여 자연어 질의로부터 인과 효과 예측하기

요약

핵심 포인트

댓글