본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 11:30

CoFEE: LLM 기반 특징 발견을 위한 추론 제어 프레임워크

요약

본 논문은 복잡한 비정형 데이터에서 예측력이 높은 특징(feature)을 추출하는 과정이 본질적으로 '추론 문제'임을 지적하며, 이를 해결하기 위한 프레임워크 CoFEE를 제안합니다. CoFEE는 LLM의 추론 과정을 구조화하고 인지적 행동(cognitive behaviors)을 강제하여, 단순한 무제한 생성 방식보다 훨씬 높은 품질과 효율성을 보여줍니다. 구체적으로, CoFEE는 평균 성공률 점수(Success Rate Score)를 기존 방식 대비 15.2% 향상시키면서도 특징 개수는 29% 줄이고 비용은 53.3% 절감하는 성

핵심 포인트

  • CoFEE (Cognitive Feature Engineering Engine)는 LLM의 추론 과정에 인지적 행동을 강제하여, 데이터에서 예측력이 높은 특징을 구조적으로 발견하게 합니다.
  • 추론 제어(reasoning control)를 적용한 결과, 평균 성공률 점수(Success Rate Score)가 기존 무제한 프롬프트 방식 대비 15.2% 향상되었습니다.
  • CoFEE는 특징 개수를 29% 줄이면서도 성능을 개선하여, 비용 절감 효과(53.3%)를 입증했습니다.
  • 프레임워크는 후방 추론(backward chaining), 하위 목표 분해(subgoal decomposition) 등 검증된 인지적 행동들을 구조화된 지식 기반으로 활용합니다.

복잡한 비정형 데이터에서 의미 있는 특징(feature)을 추출하는 과정은 단순히 정보를 나열하는 것이 아니라, 특정 결과에 예측력을 가지는 추상적인 개념을 식별하고 동시에 누수(leakage), 대리 변수(proxies), 사후 결과 신호(post-outcome signals)를 피해야 하는 고도의 '추론 문제'입니다.

최근 성능이 급격히 향상된 거대 언어 모델(LLMs)은 방대한 양의 정보를 처리하는 데 탁월하지만, 제약 없이 특징을 생성하도록 할 경우 예측력이 약하거나 비효율적인 결과물만 산출될 위험이 있습니다. 본 논문에서는 LLM의 추론 과정에 구조화된 통제(reasoning control)를 적용하여 이 문제를 해결하고자 합니다.

이를 위해 **CoFEE (Cognitive Feature Engineering Engine)**라는 새로운 추론 제어 프레임워크를 도입했습니다. CoFEE는 LLM이 특징을 발견하는 과정에서 인지적 행동(cognitive behaviors)을 의도적으로 강제합니다. 기계 학습(ML) 관점에서 볼 때, 이러한 인지적 행동은 모델이 생성할 수 있는 후보 특징 공간에 구조적인 귀납 편향(structured inductive biases)으로 작용합니다.

CoFEE가 활용하는 핵심 인지적 행동들로는 다음과 같은 것들이 있습니다:

  1. 후방 추론 (Backward Chaining from outcomes): 최종 목표 결과로부터 역추적하여 필요한 특징을 도출합니다.
  2. 하위 목표 분해 (Subgoal Decomposition): 복잡한 문제를 여러 개의 작은 하위 문제로 나누어 순차적으로 해결합니다.
  3. 관측 가능성 및 누수 기준 검증 (Verification against observability and leakage criteria): 추출된 특징이 실제로 관찰 가능한지, 그리고 결과에 대한 정보가 유출되지 않았는지 엄격하게 검토합니다.
  4. 명시적 백트래킹 (Explicit Backtracking of rejected reasoning paths): 추론 과정에서 실패하거나 부적절하다고 판단된 경로를 명확히 기록하고 되돌아가 재검토합니다.

실험 결과, CoFEE가 인지적 행동을 강제하여 생성한 특징들은 제약이 없는 바닐라(vanilla) LLM 프롬프트로 얻은 특징들보다 훨씬 높은 경험적 예측력(empirical predictability)을 보였습니다. 구체적으로, CoFEE는 평균 성공률 점수(Success Rate Score)를 기존 방식 대비 15.2% 향상시켰으며, 동시에 생성되는 특징의 개수는 29% 감소시키고 운영 비용은 53.3% 절감하는 놀라운 효율성을 입증했습니다.

나아가, 본 연구는 보유(held-out)된 특징 평가를 통해 CoFEE가 발견한 인지적 특징들이 학습에 사용되지 않은 데이터에서도 일반화되는지를 검증했습니다. 그 결과, 추론 제어 기법을 적용하는 것이 LLM 기반 특징 발견의 품질과 효율성 모두를 개선함을 명확히 보여주었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0