arXiv논문2026. 06. 15. 11:37

CARE: 과학 실험에서의 증거에 대한 감사 가능한 검토를 통한 LLM 생성 정책 제어

요약

과학 실험 최적화를 위해 LLM의 창의성과 기존 최적화 도구의 안정성을 결합한 CARE 시스템을 제안합니다. 증거 기반의 감사 가능한 검토 과정을 통해 LLM이 생성한 정책을 검증하며, 벤치마크 테스트에서 기존 방식보다 뛰어난 성능 향상을 입증했습니다.

핵심 포인트

LLM의 창의성과 기존 최적화 도구의 안정성을 결합한 CARE 시스템 소개
증거 기반 개입 게이트를 통해 LLM 생성 정책의 신뢰성 확보
Minerva/Olympus 및 ChemLex 벤치마크에서 기존 대비 성능 대폭 향상
LLM의 직접 제어보다 감사 가능한 컨트롤러 방식이 더 효과적임을 증명

비용이 많이 들고 되돌릴 수 없는 과학 실험에 LLM(Large Language Models)에게 직접적인 제어권을 부여하는 것은 안전하지 않은 탐색과 불안정한 성능으로 이어지지만, LLM의 창의성을 완전히 배제하는 것은 상당한 최적화 잠재력을 희생시킵니다. 우리는 고처리량 실험(High-Throughput Experimentation, HTE) 최적화를 위한 감사 가능한 컨트롤러인 CARE(Controlling LLM-Generated Policies through Auditable Review of Evidence in Scientific Experimentation)를 소개합니다. 이 시스템은 비-LLM 기존 최적화 도구(incumbent optimizer)를 기본 작업 경로로 유지하면서, LLM을 사용하여 도전적 순위 정책(challenger ranking policies)을 수정합니다. 각 결과가 공개되기 전에, 공개 증거 개입 게이트(public-evidence intervention gate)가 도전적 정책(challenger)과 기존 정책(incumbent)을 비교합니다. 이 게이트는 선택 전에 사용 가능한 증거가 변경을 뒷받침할 때만 도전적 정책의 선택을 승인하며, 해당 결정은 감사 로그(audit log)에 기록됩니다. CARE는 Minerva/Olympus 및 ChemLex 벤치마크에서 평가된 다른 모든 방법보다 뛰어난 성능을 보였으며, 기존 정책 대비 최종 최적값(final-best)이 Minerva/Olympus에서는 80.0에서 88.5로, ChemLex에서는 83.9에서 92.1로 향상되었습니다. 우리의 실험은 LLM의 자기 진화(self-evolution)가 실험을 직접 선택할 때보다 감사 가능한 컨트롤러 하에서 제안 공간(proposal space)을 확장할 때 더 신뢰할 수 있음을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

CARE: 과학 실험에서의 증거에 대한 감사 가능한 검토를 통한 LLM 생성 정책 제어

요약

핵심 포인트

댓글