터키어 증거형 (Evidential Morphology) 의 출처 민감성 검증: 신뢰도 조작 하에서 인간과 대형 언어 모델 (LLMs)

본 논문은 출처의 신뢰성이 터키어의 증거형 (evidential morphology) 을 형성하는지, 그리고 대형 언어 모델 (LLMs) 이 이러한 민감성을 추적하는지를 조사합니다. 우리는 정보 출처가 명시적으로 외부인 통제된 빈칸 채우기 (cloze) 문맥에서 -DI 와 -mIs 의 과거 영역 (past-domain) 대비를 연구했습니다. 이때 실제 출처의 신뢰성은 조작되지 않았으나, 그 인지된 신뢰성만 조작 (High-Trust 대 Low-Trust) 되었습니다. 인간 생성 실험에서 터키어 모국어 화자는 견고한 신뢰 효과 (trust effect) 를 보였습니다: High-Trust 문맥에서는 상대적으로 -DI 가 더 많이 사용되고, Low-Trust 문맥에서는 상대적으로 -mIs 가 더 많이 나타났으며, 이 패턴은 민감도 분석 (sensitivity analyses) 을 통해 안정적으로 유지되었습니다. 이어 우리는 10 개의 LLM 을 오픈 갭 필 (open gap-fill), 명시적 과거 시제 갭 필 (explicit past-tense gap-fill), 그리고 강제 선택 A/B (forced-choice A/B selection) 의 세 가지 프롬프팅 패러다임에서 평가했습니다. LLM 의 행동은 모델 및 프롬프트에 크게 의존합니다: 일부 모델에서는 약하거나 국소적인 신뢰 일관성 있는 변화 (trust-consistent shifts) 를 보이지만, 효과는 일반적으로 불안정하며, 종종 뒤집히거나 출력 준수 문제 (output-compliance problems) 와 강한 기본률 접미사 선호도 (strong base-rate suffix preferences) 에 가려집니다. 이러한 결과는 터키어 증거성 (evidentiality) 에 대한 신뢰/약속 기반 설명 (trust-/commitment-based account) 에 대한 새로운 증거를 제공하며, 출처 민감성 증거 추론 (source-sensitive evidential reasoning) 에서 명확한 인간-LLM 간 격차를 드러냅니다.

Insights

터키어 증거형 (Evidential Morphology) 의 출처 민감성 검증: 신뢰도 조작 하에서 인간과 대형 언어 모델 (LLMs)

요약

핵심 포인트

댓글

할당량을 다 써도 개발을 멈추지 않는 법 ─ 복사-붙여넣기로 돌리는 AI 2단계 개발

AI 코딩 에이전트를 위한 프로젝트 인텔리전스 레이어 구축하기

AI 에이전트가 '잘못된 도구'를 호출하는 이유는 설명문 때문이다 — 10분 만에 고치는 도구 기술 계약 입문

TAKT의 모델 구성, 실행하면 비용이 반드시 악화될까? 벤치마크 스코어 기반 5가지 구성 비교

할당량을 다 써도 개발을 멈추지 않는 법 ─ 복사-붙여넣기로 돌리는 AI 2단계 개발

AI 코딩 에이전트를 위한 프로젝트 인텔리전스 레이어 구축하기

AI 에이전트가 '잘못된 도구'를 호출하는 이유는 설명문 때문이다 — 10분 만에 고치는 도구 기술 계약 입문

TAKT의 모델 구성, 실행하면 비용이 반드시 악화될까? 벤치마크 스코어 기반 5가지 구성 비교