Draw2Think: 제약 조건 엔진 (Constraint Engine) 상호작용을 통한 기하학적 추론 활용
요약
Draw2Think는 시각-언어 모델의 기하학적 추론 능력을 향상시키기 위해 GeoGebra 제약 조건 엔진과 에이전트적으로 상호작용하는 새로운 프레임워크를 제안합니다. '제안-그리기-검증(Propose-Draw-Verify)' 루프를 통해 모델의 가설을 실행 가능한 캔버스에 구현하고, 대수적 정의를 바탕으로 기하학적 관계를 강제하여 추론의 정확성과 검증 가능성을 확보합니다.
핵심 포인트
- 기존 시각-언어 모델의 잠재적(latent)인 공간 추론 문제를 해결하기 위해 GeoGebra 제약 조건 엔진을 활용한 외재화 방식 도입
- Propose-Draw-Verify 루프를 통해 모델의 가설을 캔버스에 구현하고, 정확한 기하학적 측정값을 모델에 다시 피드백하는 구조
- 구성 충실도(Construction Fidelity)와 측정 신뢰성(Measurement Faithfulness)이라는 두 가지 감사 가능한 속성 제공
- GeoGoal 및 GenExam-math 벤치마크에서 기존 방식 대비 높은 구성 정확도와 결과 정확도 향상 입증
시각-언어 모델 (Vision-language models)은 점점 더 높은 정확도로 기하학 문제를 해결하고 있지만, 모델의 중간 상태는 잠재적(latent)이며 검증이 불가능한 상태로 남아 있습니다. 즉, 텍스트 추론이나 드로잉 코드(drawing code)로 표현된 관계가 제약 조건을 충족하는 구성(configuration)으로 실제로 구현된다는 보장이 없습니다. 우리는 렌더링된 픽셀(rendered pixels)이나 원샷 스크립트(one-shot scripts)에 기반한 기존의 외재화(externalization) 방법들이 각 동작별로 정확한 기하학적 보장을 제공하지 못한다는 점을 관찰했습니다. 대수적 정의 (algebraic definition)를 통해 기하학적 관계를 강제함으로써 이러한 격차를 해소할 수 있습니다. 즉, 작업 공간 (workspace)이 제약 조건이 확인되는 진화하는 캔버스 (evolving canvas)가 되는 것입니다.
우리는 기하학적 추론을 잠재적인 공간 추론 (spatial inference)에서 GeoGebra 제약 조건 엔진 (constraint engine)과의 에이전트적 상호작용 (agentic interaction)으로 재구성하는 프레임워크인 Draw2Think를 제시합니다. 제안-그리기-검증 (Propose-Draw-Verify) 루프 내에서, Draw2Think는 가설을 실행 가능한 캔버스에 외재화하고, 정확한 기하학적 양을 측정하며, 구조화된 관찰 값을 모델에 다시 피드백합니다. 이를 통해 후속 추론은 공유된 작업 공간에 의해 근거가 마련된, 확인된 캔버스 상태로부터 진행됩니다. 이러한 외재화는 두 가지 속성을 각각 감사(auditable)할 수 있게 합니다: 모델 수준의 구성 충실도 (Construction Fidelity, 캔버스가 의도된 구성을 구현하는지 여부)와 엔진 수준의 측정 신뢰성 (Measurement Faithfulness, 캔버스 제약 조건으로부터 얻은 정확한 값과 관계)입니다.
구성, 결과 및 렌더링 평가 전반에 걸쳐, Draw2Think는 GeoGoal에서 술어 수준 (predicate-level) 95.9%, 엄격한 문제 수준 (strict problem-level) 84.0%의 구성 검사를 통과하는 캔버스를 구축하며, 평면/입체 벤치마크에서 결과 정확도를 최대 4.1%/16.4% 향상시키고, GenExam-math에서 68.2%/90.5%의 엄격/완화된 (strict/relaxed) 렌더링 점수를 달성했습니다. 프로젝트 페이지는 https://draw2think.github.io/ 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기