arXiv논문2026. 05. 08. 13:00

Process Matters more than Output for Distinguishing Humans from Machines

요약

대규모 언어 모델(LLM)과 자율 에이전트의 배포 증가로 인해 신뢰할 수 있는 인간-기계 구별 능력이 중요해지고 있습니다. 기존 방식은 출력 결과에 초점을 맞추지만, 본 연구는 인지과학적 관점에서 행동을 생성하는 '과정' 자체를 평가합니다. CogCAPTCHA30이라는 30개의 인지 과제 세트를 통해 과정 수준 특징이 단순한 성과 지표보다 인간과 에이전트를 더 강력하게 구별할 수 있음을 입증했습니다.

핵심 포인트

인간-기계 구별은 출력(Output) 중심에서 행동 생성 '과정'(Process) 중심으로 패러다임 전환이 필요하다.
CogCAPTCHA30이라는 30개의 인지 과제 세트는 과정 수준 특징을 추출하여 인간과 에이전트를 효과적으로 구분한다 (AUC = 0.88).
행동 수준(A-SFT) 및 과정 수준(P-SFT) 미세 조정 기법을 비교했을 때, P-SFT가 오프더쉘프 모델 대비 인간 유사한 과제 과정을 개선하는 경향이 있다.
과정 수준의 세밀 조정은 효과적이지만, 적절한 과제 특화 표현이 필요하며, 크로스 태스크 전이(Cross-Task Transfer) 시 일반화에 어려움이 있을 수 있다.

대규모 언어 모델 및 자율 에이전트가 온라인 환경에 배포됨에 따라 신뢰할 수 있는 인간-기계 구별이 점점 더 중요해지고 있습니다. 기존 접근법은 Alan Turing 이 지적한 지능 기준인 출력 강조를 따르며, 시스템이 인간의 행동이나 응답과 구별되지 않는지 평가합니다. 인지과학은 이에 대안적인 관점을 제시하며, 행동을 생성하는 과정을 평가합니다. 인지 과정이 인간과 기계의 구별에 신뢰할 수 있는지를 테스트하기 위해 우리는 성능이 일치하더라도 진단적 과정 수준 특징을 유도하도록 설계된 30 개의 인지 과제인 CogCAPTCHA30 을 소개합니다. 전체 배터리에서 과정 수준 특징은 성과 지표만으로는 더 강력한 구분 신호를 제공하며, 출력 매칭 하에도 인간과 에이전트를 신뢰할 수 있게 구별합니다 (평균 과정 특징 분류기 AUC = 0.88). 에이전트 과정 차이를 평가하기 위해 우리는 Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro 와 같은 오프더 Shelf 프론티어 에이전트와 Centaur (10.7M 인간 결정에 세밀 조정된 언어 모델) 을 비교하며, Qwen2.5-1.5B-Instruct 에 적용된 두 가지 과제 특화 세밀 조정 접근법인 행동 수준 세밀 조정 (A-SFT) 과 과정 수준 세밀 조정 (P-SFT) 을 추가했습니다. 인간 결정에 대한 광범위한 세밀 조정은 오프더 Shelf 에이전트에 비해 인간 유사한 과제 과정을 개선합니다. 그러나 supervised process targets 가 과제 간 자연스럽게 일반화되지 않는 경우, 이 장점은 크로스 태스크 전이 하에 감소합니다. 명시적 과정 수준 세밀 조정은 인간 행동 모방을 개선할 수 있지만, 적절한 과제 특화 과정 표현이 제공되는 경우에만 가능하여, 기계에서 인간 유사한 인지 과정을 달성하기 위해 과정 규격화가 병목 현상을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Process Matters more than Output for Distinguishing Humans from Machines

요약

핵심 포인트

댓글