본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 13:00

Process Matters more than Output for Distinguishing Humans from Machines

요약

대규모 언어 모델(LLM)과 자율 에이전트의 배포 증가로 인해 신뢰할 수 있는 인간-기계 구별 능력이 중요해지고 있습니다. 기존 방식은 출력 결과에 초점을 맞추지만, 본 연구는 인지과학적 관점에서 행동을 생성하는 '과정' 자체를 평가합니다. CogCAPTCHA30이라는 30개의 인지 과제 세트를 통해 과정 수준 특징이 단순한 성과 지표보다 인간과 에이전트를 더 강력하게 구별할 수 있음을 입증했습니다.

핵심 포인트

  • 인간-기계 구별은 출력(Output) 중심에서 행동 생성 '과정'(Process) 중심으로 패러다임 전환이 필요하다.
  • CogCAPTCHA30이라는 30개의 인지 과제 세트는 과정 수준 특징을 추출하여 인간과 에이전트를 효과적으로 구분한다 (AUC = 0.88).
  • 행동 수준(A-SFT) 및 과정 수준(P-SFT) 미세 조정 기법을 비교했을 때, P-SFT가 오프더쉘프 모델 대비 인간 유사한 과제 과정을 개선하는 경향이 있다.
  • 과정 수준의 세밀 조정은 효과적이지만, 적절한 과제 특화 표현이 필요하며, 크로스 태스크 전이(Cross-Task Transfer) 시 일반화에 어려움이 있을 수 있다.

대규모 언어 모델 및 자율 에이전트가 온라인 환경에 배포됨에 따라 신뢰할 수 있는 인간-기계 구별이 점점 더 중요해지고 있습니다. 기존 접근법은 Alan Turing 이 지적한 지능 기준인 출력 강조를 따르며, 시스템이 인간의 행동이나 응답과 구별되지 않는지 평가합니다. 인지과학은 이에 대안적인 관점을 제시하며, 행동을 생성하는 과정을 평가합니다. 인지 과정이 인간과 기계의 구별에 신뢰할 수 있는지를 테스트하기 위해 우리는 성능이 일치하더라도 진단적 과정 수준 특징을 유도하도록 설계된 30 개의 인지 과제인 CogCAPTCHA30 을 소개합니다. 전체 배터리에서 과정 수준 특징은 성과 지표만으로는 더 강력한 구분 신호를 제공하며, 출력 매칭 하에도 인간과 에이전트를 신뢰할 수 있게 구별합니다 (평균 과정 특징 분류기 AUC = 0.88). 에이전트 과정 차이를 평가하기 위해 우리는 Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro 와 같은 오프더 Shelf 프론티어 에이전트와 Centaur (10.7M 인간 결정에 세밀 조정된 언어 모델) 을 비교하며, Qwen2.5-1.5B-Instruct 에 적용된 두 가지 과제 특화 세밀 조정 접근법인 행동 수준 세밀 조정 (A-SFT) 과 과정 수준 세밀 조정 (P-SFT) 을 추가했습니다. 인간 결정에 대한 광범위한 세밀 조정은 오프더 Shelf 에이전트에 비해 인간 유사한 과제 과정을 개선합니다. 그러나 supervised process targets 가 과제 간 자연스럽게 일반화되지 않는 경우, 이 장점은 크로스 태스크 전이 하에 감소합니다. 명시적 과정 수준 세밀 조정은 인간 행동 모방을 개선할 수 있지만, 적절한 과제 특화 과정 표현이 제공되는 경우에만 가능하여, 기계에서 인간 유사한 인지 과정을 달성하기 위해 과정 규격화가 병목 현상을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0