생성형 AI의 출력을 어떻게 추출할 것인가 — 출력 설계와 검증 게이트 - Insights | Molayo

1. 서론

도모(どーもりょう)상입니다. 저는 QA 엔지니어로, 평소 테스트 설계에 생성형 AI (Claude)를 사용하고 있습니다.

본 연재에서는 지금까지 생성형 AI가 '문서를 다루는 측'의 구조에 대해 6편의 글을 써왔습니다.

제1편: 생성형 AI는 문장을
어떻게 읽는가 — 17가지 인지 편향과 LLM 실증 -
제2편: 생성형 AI는
어떻게 행동하는가 — 12가지 행동 축 -
제3편:
할루시네이션(Hallucination)은 왜 발생하는가 — 구조적 분류와 불가피성 -
제4편: 생성형 AI에게
사양을 어떻게 읽히게 할 것인가 — 1 spec 입력 설계 (Layer A-D) -
제5편: 생성형 AI에게 전달할
프로젝트 자산을 어떻게 조직화할 것인가 — 매크로 코퍼스 (Corpus) 설계 -
제6편: 생성형 AI에게
어떻게 근거를 남기게 할 것인가 — 할루시네이션(Hallucination) 대책 이야기

제4-5편은 "입력 측", 제6편은 **출력 측 중 rationale 역추적 (근거를 남기게 하는 설계)**에 초점을 맞춘 것이었습니다. 본고 (제7편)는 그 속편으로서 "출력 측 전반"을 다룹니다. AI가 무언가를 내놓은 뒤, 그것을 어떻게 추출하고, 어떻게 검증 게이트(Verification Gate)를 설정할 것인가에 대한 이야기입니다.

범위를 명확히 해두겠습니다. 본고는 "AI 출력을 운영 루프에 태우기 위한 설계"를 다룹니다. 입력을 아무리 잘 정돈하더라도, 출력을 그대로 믿어버리면 제1-3편에서 다룬 편향(Bias), 행동, 할루시네이션(Hallucination)이 모두 하류(Downstream)로 흘러 들어갑니다. 본고는 그 출구에 대책을 세우는 이야기입니다.

또한 본고에서 언급하는 대책도 제4-5편과 마찬가지로, 서브 에이전트(Sub-agent)의 시스템 프롬프트(System Prompt) 측에組み込まれており(組み込ま여져) 있어, 일상적인 이용 시에는 "테스트 설계해줘"라고 쓰는 것만으로 백그라운드에서 작동합니다. 이 기사 역시 Claude를 사용하여 작성했습니다.

2. 왜 AI 출력을 그대로 믿어서는 안 되는가

제4편에서는 "AI는 사양을 얕게 읽는다"는 구조를 4가지로 정리했습니다. 출력 측에서도 동일한 성질이 작용합니다.

유창성의 함정(Mahowald et al. 2024, DOI:10.1016/j.tics.2024.01.011): AI의 출력은 유창하고 설득력이 있기 때문에, 읽는 이는 "제대로 생각되었구나"라고 착각합니다. 유창함은 내용의 정확성을 보장하지 않습니다 -
confident hallucination(Bansal et al. 2021 CHI, DOI:10.1145/3411764.3445717): AI가 설명을 제시하면 인간의 과신 (overreliance)이 증가하여, 오류가 수정되지 않는다는 것이 실증되었습니다 -
자기 수정의 한계(Huang et al. 2024 ICLR, arXiv:2310.01798): 동일한 컨텍스트 (Context) 내에서 "방금 낸 출력을 리뷰해줘"라고 해도, 편향 (Bias)이 이어지기 때문에 자기 수정은 기능하지 않습니다 -
인간 리뷰 측의 한계(Clark et al. 2021 ACL, aclanthology.org/2021.acl-long.565): 인간이 AI 생성 문장과 인간의 문장을 구별하는 태스크는 훈련 없이 chance level (~50%), 훈련 후에도 55% 정도밖에 오르지 않습니다

즉 "AI가 출력함 → 인간이 봄 → OK라면 그대로 진행"이라는 플로우는 어느 단계에서도 구조적으로 구멍이 나 있습니다. 출력을 신뢰할 수 있는 것으로 변환하려면 "읽는 법을 강제하는 것" (제4편)과 마찬가지로, "검증 게이트를 구조로 강제하는 것"이 필요합니다.

본고에서는 검증 게이트 설계를 제4편 Layer A-D의 후속으로서 Layer E-H의 4개 층으로 정리합니다.

Layer E: 출력을 구조화하기 — 자유 문장이 아니라 스키마 (Schema)에 밀어 넣기 -
Layer F: 출력에 확신도를 병기하게 하기 — "확신 있음 / 추정"을 구분하게 하기 -
Layer G: 출력에 근거를 남기게 하기 — 각 판단의 트레이스 (Trace)를 남기기 -
Layer H: 출력을 별도 컨텍스트에서 검증하기 — Layer 3 독립 검증 게이트

3. Layer E: 출력을 구조화하기

"테스트 관점을 뽑아줘"라고 말하면, AI는 자유 문장 형태의 단락으로 답합니다. 읽기에는 편해 보이지만, 하류 처리 (집계, 차분, 정합성 검사)에 활용할 수 없습니다. 그 이전에, 단락 안에서 중요한 관점이 다른 문장에 묻혀 잘 보이지 않는 문제가 발생합니다.

제4편 A13 Lost in the Middle (Liu et al. 2024, DOI:10.1162/tacl_a_00638)을 입력 측에서 대책을 세웠더라도, 출력이 단락 형태 그대로라면 동일한 문제가 출력 측에서 재발합니다.

원칙: 출력은 스키마 (schema)에 밀어 넣는다.

구체적으로는:

테스트 관점·테스트 케이스·지적 사항은 표 형식 (Markdown table 또는 JSON)으로 1항목당 1행 작성
필수 항목 명시: ID / 내용 / 기대 결과 / 확신도 / 근거
AI가 자유 형식의 단락 요약을 반환하게 하지 말 것: "관점을 한 줄씩 작성하라"고 명시

부수적인 효과로, 구조화된 출력은 스키마 강제 (schema enforcement) 라이브러리 (Outlines, Willard & Louf 2023, arXiv:2307.09702 / LMQL, Beurer-Kellner et al. 2023 PLDI, arXiv:2212.06094)를 통해 기계적으로 강제할 수 있습니다. AI가 "ID 열을 채우는 것을 잊거나", "기대 결과란을 공란으로 두는" 것을 방지할 수 있습니다.

단, 강력한 스키마 제약에는 부작용도 있습니다. Tam et al. 2024 (EMNLP 2024 Industry Track, arXiv:2408.02442)는 출력을 JSON/XML과 같은 구조에 강력하게 맞출수록 LLM의 추론 능력 (reasoning capability)이 유의미하게 떨어진다는 것을 입증했습니다. 구체적으로는——(1) 영향을 받는 것은 정형화 그 자체보다 추론을 요하는 태스크 (다단계 논리 전개나 수식 계산)이며, 분류와 같은 가벼운 과제보다 하락 폭이 크다, (2) **제약이 강할수록 (자유롭게 쓰게 하지 않고 즉시 지정된 포맷을 따르게 할수록) 저하도 크다. "생각할 여지"를 빼앗으면 정형화는 지킬 수 있어도 내용의 추론은 빈약해진다는 트레이드오프 (trade-off)가 존재합니다.

따라서 "모든 출력을 즉시 완전한 JSON으로 만드는 것"은 역효과를 낼 수 있습니다. 먼저 자유 기술로 추론·고찰을 내놓게 한 뒤, 후단에서 그 결과를 표/스키마로 정형화·파싱(parse)한다 (reason-then-format). 집계나 차이 분석의 대상이 되는 부분만 구조화하고, 추론이나 자유 고찰은 별도 섹션으로 분리하는——이러한 2단계 구성으로 하면 구조화의 장점과 추론 성능을 양립할 수 있습니다.

4. Layer F: 출력에 확신도를 병기하게 하기

AI는 모르는 것도 유창하게 대답합니다. 제3편에서 다루었던 할루시네이션 (hallucination)입니다. 이는 "AI가 자신의 불확실성을 신고하지 않는" 설계에서 기인합니다.

여기서 말하는 확신도는 AI가 얼마나 자신감이 있는지 (주관)가 아니라, 그 판단이 원전(original source)에 얼마나 충실한가 = 사양(specification)에 어디까지 근거를 붙일 수 있는가로 정의합니다. "명시되어 있음 / 관행으로부터 추측함 / 불명"이라는 원전과의 거리 그 자체가 확신도이며, 모델의 "기분"을 신고하게 하는 값이 아닙니다.

원칙: 모든 판단에 이 "원전과의 거리"를 확신도 태그로서 붙이게 한다.

태그 어휘를 3~4단계로 고정: "고확신 (사양 명시)", "추정 (구현 관행으로부터)", "불명 (확인 필요)"
"불명" 사용 권장: "모르면 '불명'이라고 써라, 추측해서 쓰지 마라"고 명시
불명한 부분은 자동으로 질문화 (제4편 A6 WYSIATI 대책의 출력 측 버전): "불명으로 처리된 항목은 QST-로 분류하여 인간 리뷰로 넘긴다"

확신도 태그의 효과에는 한계도 있습니다. Li et al. 2024 (arXiv:2402.07632)는 AI가 나타내는 확신도가 실제 정답과 어긋나 있으며 (miscalibration), 인간의 의존이 오히려 부적절해지고, 게다가 그 어긋남은 인간이 간파하기 어렵다는 것을 보여주었습니다. 나아가 Lanham et al. 2023 "Measuring Faithfulness in Chain-of-Thought Reasoning" (arXiv:2307.13702)은 "AI의 추론 프로세스에 대한 자기 설명이 실제 의사결정 경로와 괴리된다"는 것을 입증했습니다. 즉, "AI가 스스로 '이것은 추정입니다'라고 쓴 것"조차 그 자체로 사후 정당화 (post-hoc justification)일 가능성이 있다는 것입니다. 따라서 이 태그는 "AI가 그렇게 느꼈다"에서 끝내지 말고, 주장마다 원전의 인용 출처를 붙이게 하고, 그 트레이스 (trace)가 실재하는지를 Layer G에서 기계적으로 검증해야 비로소 신뢰할 수 있습니다.

그럼에도 확신도 태그를 넣을 가치는 있습니다. 이유는 두 가지입니다.

태그가 있으면 인간이 선택적 리뷰를 할 수 있다: 전수 리뷰는 현실적이지 않지만, "추정", "불명" 항목만 중점적으로 리뷰할 수 있습니다.
태그가 없는 것보다 반드시 낫다: 완전히 정확한 확신도를 얻을 수는 없더라도, "모든 것이 동일한 어조로 단정적으로 쓰인 출력"보다는 "스스로 추정이라고 신고한 출력"이 후속 단계에서 오검출을 줄이는 데 유리합니다.

SelfCheckGPT (Manakul et al. 2023, arXiv:2303.08896)나 FActScore (Min et al. 2023, arXiv:2305.14251)와 같은 사후 탐지 (post-detection) 기법도 병용할 수 있지만, 우선은 출력 시점에 AI가 스스로 신고하게 하는 것이 첫걸음입니다.

5. Layer G: 출력에 근거를 남기게 하기 (※제6편에서 상세 기술)

원칙: 모든 판단에 근거 (rationale)를 병기하게 한다. 단순히 쓰게 하는 것에 그치지 않고, 쓰게 한 근거를 기계적으로 검증 가능한 형태로 만든다.

이 계층은 본 연재에서 가장 상세하게 다룰 논점이므로, 제6편 「생성형 AI에 어떻게 근거를 남기게 할 것인가 — 할루시네이션 (Hallucination) 대책 이야기」를 독립된 한 편으로 할애하여 상세히 기술했습니다.

사상적 원류는 Chain-of-Verification (Dhuliawala et al. 2023, arXiv:2309.11495)나 RAG (Lewis et al. 2020 NeurIPS, arXiv:2005.11401)입니다. Layer G와 인접한 Layer H의 경계 정리는 다음 절 §6 서두에 정리하겠습니다.

6. Layer H: 별도의 컨텍스트에서 검증하기

Layer G와 Layer H는 혼동하기 쉬우므로, 먼저 경계를 명시해 두겠습니다.

계층	담당 주체	판단 재료	역할
Layer G (제6편)	생성형 AI 본인 + 기계 검증	동일 세션 출력 + 원전의 구조화된 ID	생성 시 근거를 출력에 동봉, 기계 검증
Layer H (본 절)	별도의 AI sub-agent + 원전	타인의 출력 + 원전의 생정보 (raw information)	생성 후의 출력을 별도의 컨텍스트에서 재검증

양자는 보완 관계에 있으며, Layer G가 '근거를 남기는' 역할을, Layer H가 '근거로부터 재계산하는' 역할을 담당합니다. 제4편 Layer D에서 '읽기 결과는 별도의 컨텍스트에서 검증한다'라고 썼는데, Layer H는 그 출력 측의 쌍(pair)입니다.

원칙: 출력 (테스트 관점 / 테스트 케이스)의 검증은 별도의 sub-agent / 별도의 채팅에서 실시한다.

동일 세션 내에서 "지금 낸 관점을 리뷰해줘"는 기능하지 않음: Huang 2024가 실증
검증 전용 sub-agent에는 출력 + 원전을 전달: 출력만 전달하면 제4편 Layer A 위반 (요약화 문제가 출력 측에서 재발)
검증 sub-agent는 '날조된 근거'를 우선적으로 탐지: Layer G의 기계 검사를 보강하는 인간의 관점

이는 제가 운용하고 있는 테스트 설계 플로우에서도 'Layer 3 독립 검증 게이트'로서 구현하고 있는 사고방식의 일반화입니다. AI에게 출력을 시킨 후, 다른 AI sub-agent에게 원전을 일차 정보로서 전달하고, 검증 목적만을 위한 프롬프트로 읽게 하는 것입니다. Wallas (1926)의 「The Art of Thought」(Internet Archive)에서 설명하는 'incubation effect(부화 효과)'가 "다음 날 다시 보면 다른 것이 보인다"는 현상을 기술하는 것과 같은 형태이며, AI 문맥에서는 시간이 아닌 **컨텍스트적 격리 (contextual isolation)**로 대체합니다 (Sio & Ormerod 2009 Psychological Bulletin, DOI:10.1037/a0014212).

Multi-Agent Debate (Du et al. 2024 ICML, arXiv:2305.14325)나 Self-Refine (Madaan et al. 2023 NeurIPS, arXiv:2303.17651), Reflexion (Shinn et al. 2023 NeurIPS, arXiv:2303.11366)도 방향성은 같지만, 이들은 '동일한 context window 내에서의 self-loop'인 경우가 많으며, 순수하게 내재적인 (intrinsic) 자기 수정의 유효성을 주장하는 것이 아님에 주의해야 합니다. Cemri et al. 2025 (arXiv:2503.13657)의 MAST taxonomy는 multi-agent system이 실패하는 14가지 모드를 정리하고 있으며, "단순히 여러 AI를 나열한다고 해서 검증이 되는 것은 아니다"라고 경고하고 있습니다.

요점은 세 가지입니다:

검증 sub-agent에는 원전을 전달: 출력만 전달하면 입구에서 왜곡됨
검증 sub-agent의 프롬프트에는 '비판적 읽기'를 명시: "관점 누락을 찾아라", "근거를 의심하라"라고 작성
검증 sub-agent의 출력에도 Layer E-G를 적용: 검증 결과 또한 구조화 + 확신도 + 근거를 포함하여 반환하게 함

7. 부록: 인간 리뷰의 한계와 그럼에도 필요한 이유

지금까지 설명한 총 4개 계층 (Layer E-H)은 AI 측면의 대책입니다. "마지막에 사람이 확인하면 괜찮겠지"라고 생각하기 쉽지만, 인간 리뷰 측면에도 한계와 고유한 가치가 존재합니다. 양측의 관점을 나열합니다.

한계 측면의 근거 (Evidence):

Clark et al. 2021 (ACL) (§2 기출): AI 생성 문장을 인간의 문장과 구별하는 태스크는 chance level이며, 훈련 후에도 55%에 불과함
Bansal et al. 2021 (CHI) (§2 기출): AI의 설명이 있으면 인간의 과신(overconfidence)이 증가하여 오정정률(error correction rate)이 낮아짐
Buçinca et al. 2021 (CSCW) (DOI:10.1145/3449287): 설명 가능한 AI (XAI)는 인간의 판단 정확도를 오히려 떨어뜨리는 경우가 있어 인지적 강제 (cognitive forcing)가 필요함
Fok & Weld 2023 (arXiv:2305.07722): AI의 설명이 인간의 판단을 돕는 것은 "인간이 AI의 정답 여부를 검증할 수 있는 범위"에 국한됨. 설명 그 자체보다 검증 가능성 (verifiability)이 더 중요함
Mäntylä & Lassenius 2009 (IEEE TSE) (DOI:10.1109/TSE.2008.103): 코드 리뷰에서 실제로 검출되는 결함의 약 75%는 "미래의 유지보수성 (evolvability)"와 관련되어 있으며, 기능적 버그 검출률은 생각보다 높지 않음

그럼에도 리뷰에 가치가 있다는 근거 (Evidence):

Sauer, Jeffery, Land, Yetton 2000 (IEEE TSE) (DOI:10.1109/32.825764): 잘 운영되는 리뷰(well-run review)는 60-70%의 결함 검출을 보이지만, 교육·준비·팀 구성에 따라 크게 변동함 ("제대로 운영하면 효과적이지만, 조건이 무너지면 효과가 없다"는 양면성을 제시)
Bacchelli & Bird 2013 (ICSE) (DOI:10.1109/ICSE.2013.6606617) + Rigby & Bird 2013 (ESEM) (DOI:10.1145/2652524.2652543): 현대적인 경량 코드 리뷰 (lightweight code review)의 주요 가치는 결함 검출 + 설계 개선 + 지식 전이의 복합적 작용임
Russo et al. 2024 (ACM TOSEM) (DOI:10.1145/3641399): 대규모 혼합 방법론 (mixed-methods) 연구를 통해, 코드 리뷰는 시간 압박과 인력 선발의 제약 하에서도 지식 공유와 설계 개선 측면에서 여전히 강건하게 (robust) 작용함을 보여줌

주: 개별 심리학적 구성 개념에는 재현 실패 (replication failure) 사례도 있습니다 (예: Baumeister의 자아 고갈 (ego-depletion) 효과는 Hagger et al. 2016 Perspectives on Psychological Science (DOI:10.1177/1745691616652873)의 사전 등록된 다기관(multi-lab) 추적 연구에서 재현에 실패함). 본고는 리뷰 한계의 근거를 중앙 병목 (central bottleneck) / 과도한 의존 (overreliance) / 결함 분포 (defect distribution) 등 실증 결과가 비교적 안정적인 측면에 두고 있으며, 자아 고갈 계열의 설명은 채택하지 않았습니다 (자세한 내용은 제9편 참조).

종합하면, 인간 리뷰는 빼놓을 수 없습니다. 그 이유는 "기계적 검증으로는 포착할 수 없는 목적·의도 수준의 타당성 판단"이 필요하기 때문이며 (Sauer 2000이 지지), Layer E-G에서 남겨진 근거 (rationale) / 확신도 / 구조화된 ID를 해석하여 최종 승인하는 역할은 인간만이 수행할 수 있기 때문입니다. 반면, 모든 건을 리뷰하는 것은 현실적이지 않으므로, Layer E-G를 통해 인간이 확인해야 할 부분을 좁히는 설계가 필요합니다.

「추정」, 「불명」 태그가 붙은 관점은 전수 리뷰
「고확신」 및 「근거 있음」은 샘플링 리뷰만 수행
Layer H 검증 sub-agent가 「Critical」로 평가한 관점은 전수 리뷰

이것이 입력 + 출력 + 검증 + 인간 리뷰를 통과한 확장 가능한 (scalable) 운영 설계입니다.

8. 요약 — 입출력 8계층 스캐폴딩 (scaffolding)

제4편과 본고를 나란히 놓으면, 입력 4계층 + 출력 4계층 = 총 8계층이 됩니다.

계층	종류	역할
Layer A	입력	입력 정형(shaping) 그 자체를 오염시키지 않음 (원전 유지)
...

관통하는 발상은 제4-5편과 동일한 "AI에게 마음대로 하게 두지 않는다"와 "인간의 판단을 흔적으로 남긴다"입니다. 본고는 이를 출력 측면으로 전개했습니다.

AI의 "유창하게 쓰지만 의미는 이해하지 못함", "추종함", "환각 (Hallucination) 발생"과 같은 성질은 원리적으로 제로(0)로 만들 수 없습니다. 따라서 "제대로 검증해줘"라고 부탁하는 것이 아니라, "검증 게이트 (Verification Gate)를 구조적으로 강제하는" 설계가 필요합니다.

이 프레임워크는 테스트 설계에 국한되지 않고, 코드 생성, 사양 리뷰 (Specification Review), 계약서 해석, 조사 자료 요약 등 AI의 출력을 운영 루프 (Operation Loop)에 태우는 모든 상황에서 유효합니다. 출력을 그대로 믿는 운영과 Layer E-H를 거치는 운영 사이에는 장기적인 오류 축적 속도에서 큰 차이가 발생합니다.

신뢰성에 관한 보충

본 기사에서 인용한 논문은 서지 정보 (제목·저자·연도·학술대회/저널·DOI/arXiv)를 공식 링크를 통해 검증했습니다. 고전 (Wallas 1926 / Bacchelli 2013 등)은 교과서 및 이차 정보를 경유하였고, 최신 머신러닝 (Machine Learning) 및 자연어 처리 (NLP) 계열 (Huang 2024 / Cemri 2025 / Tam 2024 / Lanham 2023 등)은 arXiv preprint 또는 채택된 논문을 통해 원전을 확인했습니다. Cemri 2025 MAST는 NeurIPS 2025 Datasets & Benchmarks에 채택되었으나, 데이터셋 계열 벤치마크의 결론은 향후 재현 실험 (Replication Study)에 따라 구체적인 수치가 변동될 수 있음을 부기합니다.

참고 문헌

인지과학 · 심리학

Wallas, G. (1926).
The Art of Thought. Harcourt, Brace & Co. Internet Archive - Sio, U. N., & Ormerod, T. C. (2009). Does Incubation Enhance Problem Solving? A Meta-Analytic Review.
Psychological Bulletin, 135(1), 94-120. DOI:10.1037/a0014212

인간 리뷰 / 코드 리뷰의 한계와 가치

Sauer, C., Jeffery, D. R., Land, L., & Yetton, P. (2000). 소프트웨어 개발 기술 리뷰의 효과성: 행동 중심 연구 프로그램 (The Effectiveness of Software Development Technical Reviews: A Behaviorally Motivated Program of Research).
IEEE Transactions on Software Engineering, 26(1), 1-14. DOI:10.1109/32.825764 - Mäntylä, M. V., & Lassenius, C. (2009). 코드 리뷰에서 실제로 발견되는 결함의 유형은 무엇인가? (What Types of Defects Are Really Discovered in Code Reviews?)
IEEE Transactions on Software Engineering, 35(3), 430-448. DOI:10.1109/TSE.2008.103 - Bacchelli, A., & Bird, C. (2013). 현대적 코드 리뷰의 기대, 결과 및 과제 (Expectations, Outcomes, and Challenges of Modern Code Review).
ICSE 2013. DOI:10.1109/ICSE.2013.6606617 - Rigby, P. C., & Bird, C. (2013). 수렴하는 현대적 소프트웨어 동료 리뷰 관행 (Convergent Contemporary Software Peer Review Practices).
ESEM 2013 / ESEC/FSE 2013 시리즈. DOI:10.1145/2652524.2652543 - Hagger, M. S., et al. (2016). 자아 고갈 (Ego-Depletion) 효과에 대한 다중 실험 사전 등록 복제 연구 (A Multilab Preregistered Replication of the Ego-Depletion Effect).
Perspectives on Psychological Science, 11(4), 546-573. DOI:10.1177/1745691616652873 — 심리학 측면의 자아 고갈 (ego-depletion) 구성 개념의 사전 등록된 재현 실패 논문 (본 연재는 자아 고갈 (ego-depletion)이 아니라 중앙 병목 (central bottleneck) / 작업 전환 (task switching) / 과도한 의존 (overreliance) 측면에 의거하는 근거) - Bansal, G., et al. (2021). 전체가 부분의 합보다 큰가? AI 설명이 상호 보완적인 팀 성과에 미치는 영향 (Does the Whole Exceed its Parts? The Effect of AI Explanations on Complementary Team Performance).
CHI 2021. DOI:10.1145/3411764.3445717 / arXiv:2006.14779 - Buçinca, Z., Malaya, M. B., & Gajos, K. Z. (2021). 신뢰할 것인가 생각할 것인가: 인지적 강제 함수 (Cognitive Forcing Functions)는 AI 보조 의사결정에서 AI에 대한 과도한 의존 (Overreliance)을 줄일 수 있는가 (To Trust or to Think: Cognitive Forcing Functions Can Reduce Overreliance on AI in AI-assisted Decision-making).
CSCW 2021. DOI:10.1145/3449287 - Fok, R., & Weld, D. S. (2023). 검증 가능성을 찾아서: 설명은 AI 권고 의사결정에서 상호 보완적 성과를 거의 가능하게 하지 못한다 (In Search of Verifiability: Explanations Rarely Enable Complementary Performance in AI-Advised Decision Making). arXiv:2305.07722
Clark, E., August, T., Serrano, S., Haduong, N., Gururangan, S., & Smith, N. A. (2021). '인간적인' 것이 모두 금은 아니다: 생성된 텍스트에 대한 인간 평가의 평가 (All That's 'Human' Is Not Gold: Evaluating Human Evaluation of Generated Text).
ACL 2021. aclanthology.org/2021.acl-long.565 - Russo, D., Stol, K-J., & van der Meer, A. (2024). 대규모 코드 리뷰에 대한 혼합 방법론 연구 (Mixed-methods studies of code review at scale).
ACM TOSEM. DOI:10.1145/3641399

생성형 AI의 출력을 어떻게 추출할 것인가 — 출력 설계와 검증 게이트

요약

핵심 포인트