생성형 AI의 효과를 어떻게 측정할 것인가 — 첫 번째 숫자에 속지 않는 「측정의 함정」 - Insights | Molayo

1. 서론 — 지금까지의 방향을 한 번 뒤집기

도모 료상(りょうさん)입니다. 저는 QA 엔지니어로, 평소 테스트 설계에 생성형 AI (Claude)를 사용하고 있습니다.

본 연재에서는 지금까지 8회에 걸쳐, 생성형 AI를 어떻게 다룰 것인가——어떻게 읽고, 어떻게 행동하며, 어디에서 할루시네이션 (Hallucination)을 일으키는지, 입력과 출력을 어떻게 설계하고 각 공정에서 무엇을 내놓는지——를 써왔습니다. 전부 "AI 측"의 이야기입니다.

이번에는 방향을 한 번 뒤집겠습니다. 테마는 "AI의 효과를 측정하는 당신 자신"입니다.

AI를 업무에 도입하면 반드시 "효과가 있었나?"를 측정하고 싶어집니다. "이 시도로 테스트 관점이 늘어났다", "이 프롬프트로 정밀도가 올라갔다". 그리고 처음 나온 숫자를 무심코 액면 그대로 믿어버립니다.

하지만——본 연재가 계속 "AI의 출력을 액면 그대로 믿지 마라"고 말해온 것과 전혀 같은 이유로, 자신의 측정 또한 액면 그대로 믿어서는 안 됩니다. AI의 출력이 유창하면서도 틀리는 것처럼, 측정도 "그럴듯한 숫자"를 내놓으며 틀립니다. 이번에는 자신의 도구를 측정하다가 실제로 한 번 뒤집혔던 이야기를 2가지, 솔직하게 공개합니다. 결론부터 말씀드리자면——

이것은 연재의 자매 축입니다. 제1~8회가 "AI를 어떻게 다룰 것인가 (읽는 이로서의 리터러시)"라면, 본고는 "AI의 효과를 어떻게 측정할 것인가 (평가자로서의 리터러시)"입니다. 그리고 대책은 결국 지금까지와 같습니다——공평한 조건 · 여러 번의 시도 · 독립적인 검산을 통해, 처음의 겉모습을 반증 가능하게 만드는 것입니다.

2. 함정 A: 교란(Confounding) — 「가설이 반증된」 것처럼 보였던 이야기

검증하고 싶었던 것

LLM에는 "Lost in the Middle"이라는 버릇이 있습니다 (Liu et al. 2023, arXiv:2307.03172). 긴 문서를 건네주면, 서두와 말미는 잘 읽는데 중간 부분이 부실해집니다. 사양서가 길면 중간쯤의 요구사항을 조용히 읽기 넘겨버립니다.

그래서 한 가지 가설을 세웠습니다. "관점마다 한 명씩 '전담 독자'를 세워 합성한다면, 한 명이 중간 부분을 놓치더라도 다른 독자가 잡아내어 중간 부분의 부실함을 보완할 수 있지 않을까". 이는 인간의 리뷰 기법인 Perspective-Based Reading (Basili et al. 1996)을 AI의 읽기 방식으로 번역한 것입니다. "1회의 통독"보다 "관점을 나눈 여러 번의 읽기"가 중간 부분에 더 강할 것이라는 예측입니다.

측정했더니, 결과가 반대로 나왔다

먼저 짧은 사양(약 200행)으로 측정했을 때는, 중간 부분에서 잡아낼 수 있는 행이 베이스라인(보통대로 1회 읽기) 대비 +2행뿐이었습니다. "△, 효과는 한정적".

다음으로 긴 사양(약 470행, 중앙 1/3 = 중간 부분을 잘라내어 측정)에서, 3명의 전담 독자를 세워 측정했습니다. 그랬더니——

베이스라인(1회 읽기) 쪽이 중간 부분을 더 넓게 커버하고 있었습니다. 전담 독자의 합성이 중간 부분에서 잡아낸 행(즉, 베이스라인이 잡아내지 못한 중간 요구사항 행)이 적어서, 숫자상으로는 "가설이 반증된" 것처럼 보였습니다.

여기서 "역시 독립 독자는 중간 부분에 효과가 없는 건가"라고 결론 내렸다면, 그것은 틀린 것이었습니다.

정체는 교란(Confounding)이었다

멈춰 서서 조건을 재검토하니, 비교가 공정(Fair)하지 않았습니다. 베이스라인은 8개의 관점을 한 번에 보고 있는데, 전담 독자는 3개 관점 분량밖에 세우지 않았습니다. 즉, "중간 부분을 몇 행 커버하는가"는 독립 독자의 효과가 아니라, 관점의 수(독자의 인원수)에 지배되고 있었습니다. 3대 8로 인원수가 다르면, 커버 행수는 인원수가 많은 쪽이 이기는 것이 당연합니다. **이것이 교란(Confounding)**입니다——측정하고 싶었던 효과(독립 독자)와는 다른 변수(관점 수)가 결과를 만들고 있었던 것입니다.

(흔히 드는 비유로 "아이스크림 매출이 늘면 익사 사고가 늘어난다"가 있습니다. 하지만 실제로는 "기온(여름)"이 양쪽을 모두 끌어올리는 것일 뿐, 아이스크림과 사고 사이에는 직접적인 관계가 없습니다. 이 "기온"처럼, 측정하려는 원인과 결과 양쪽에 몰래 영향을 미치는 다른 변수를 교란 요인이라고 부릅니다. 함정 A에서는 "관점 수"가 그 "기온 역할"을 하고 있었습니다.)

그래서 8개 관점으로 맞춰 공정하게 재측정했습니다. 독자 측도 전체 8개 관점을 세워 커버 범위를 베이스라인과 같은 운동장 위로 올렸습니다. 그러자 결과가 뒤집혔습니다:

중간 부분에서, 합성 측이 베이스라인의 놓친 부분 26행을 추가로 포착
반대로, 베이스라인만이 잡아낸 중간 행은 0행 (중간 부분에서의 일방적인 우위)

＝독립적인 독자가 중반부를 보완할 수 있다는 당초의 가설을 지지하는 방향으로 결론이 반전된 것입니다. 처음의 '반증된 것처럼 보였던 숫자'가 오히려 교란(Confounding)이 만들어낸 신기루였습니다. (단, 이 또한 사양 1건·1회의 측정이며, 심지어 '포착할 수 있었던 양'만을 본 한쪽 방향의 숫자입니다. 따라서 '확인되었다'가 아니라 '반전되었다/지지되었다, 추가 검증 필요'까지입니다. 함정 B에서 경계하는 단정을 스스로 하지 않기 위해서입니다.)

이 함정의 교훈

측정이 가설을 부정하는 것처럼 보일 때, 가장 먼저 의심해야 할 것은 가설이 아니라 측정의 공정성입니다. 비교하고 있는 두 대상이 정말로 측정하고자 하는 변수(Variable)만 다른 것인가? 아니면 다른 변수(여기서는 관점의 수)가 몰래 작용하고 있지는 않은가? AI의 효과 검증은 조건이 조금만 어긋나도 쉽게 부호가 반전됩니다. 다시 말해——제대로 통제된 A/B 테스트가 되고 있는가(A군과 B군에서 바꾸고자 하는 1가지 요인 외에는 동일한가)를 확인해야 합니다. '한 번에 하나의 요인만 바꾸고 나머지는 고정한다'는 통제 실험(Controlled Experiment)의 기본을 깨는 순간, 효과 검증은 이와 같이 '역'을 가리키게 됩니다.

3. 함정 B: 소수 시행의 흔들림 — 「결정적으로 효과가 있었다」처럼 보였던 이야기

또 다른 개입, 또 다른 함정

또 하나, 다른 장치를 측정했을 때의 이야기입니다. 테스트 설계의 판단 과정 끝에 "잠깐. 다시 한번 해당 사양을 읽고 나서 판단하라"라는 문구(

그리고 무서운 점은, **둘 다 "그럴싸해 보인다"**는 것입니다. 교란된(Confounded) 숫자도, 흔들리는 숫자도 그래프로 그리면 아름답고, 결론을 적으면 설득력이 있습니다. 본 연재에서 반복해 온 "구조화될수록 오류가 훌륭해 보인다"는 현상이, 측정 측면에서도 발생하는 것입니다. AI의 유창한 오류와 마찬가지로, 매끄러운 숫자일수록 액면 그대로 믿으면 위험합니다.

대책은 지금까지의 연재와 맥을 같이 하는 세 가지입니다:

공정한 조건 (교란 제거) — 비교하는 두 대상이 측정하고자 하는 변수만 다른가? 다른 변수(관점의 수, 입력량, 상류 단계의 차이)를 통제했는가? 통제한 후 다시 측정한다.
다회 시행 (변동성 제거) — 한두 번의 결과로 결론 내리지 않는다. 횟수를 늘려 결과가 양극단으로 갈리는지(운에 따라 좋고 나쁨이 갈리는지) 확인한다. 차이가 남더라도 정직한 통계를 통해 "얼마나 확실한가"를 산출한다.
독립적인 검산 (자신의 측정을 다른 방법으로 확인) — 숫자를 낸 본인이 "효과가 있었다"라고 말하는 데 그치지 않고, 다른 지표, 다른 측정기, 가능하다면 다른 사람 또는 다른 컨텍스트(Context)에서 재계산한다.

이것은 본 연재가 AI에 대해 말해왔던 것—자기 보고를 믿지 말고, 별도의 컨텍스트에서 독립적으로 검증하며, 근거를 반증 가능하게 만들라—의 평가자 버전입니다. AI의 출력을 액면 그대로 믿지 않는 것과 동일한 규율을, 자신의 측정에도 적용하는 것입니다. 측정 또한 검증 아키텍처(Verification Architecture)를 필요로 하는 출력물입니다.

5. 요약 — 측정자의 리터러시

첫 측정값을 액면 그대로 믿지 않는다. 가설을 부정하는 것처럼 보여도 (함정 A), 긍정하는 것처럼 보여도 (함정 B), 우선 교란과 변동성을 의심한다.
함정 A: 교란 (Confounding). "반증된" 것처럼 보였던 숫자가 다른 변수(관점의 수)의 산물이었던 경우. 공정한 조건으로 다시 측정했더니 결론이 반전되어 가설을 지지하는 방향으로 기울었다 (1개 사양, 추가 시험 필요).
함정 B: 변동성 (Fluctuation). "결정적"으로 보였던 차이가 소수 시행의 운이었던 경우. 횟수를 늘리자 양극단으로 갈리는 현상이 드러났고, 현재 데이터로는 유의 수준(Significance level)에 도달하지 못해 = "효과가 있다"라고 말할 수 없음 (판단 보류) 상태로 귀결되었다.
대책 = 공정한 조건 · 다회 시행 · 독립적인 검산. = AI를 향해 가졌던 "자기 보고를 믿지 말고 반증 가능하게 하라"는 규율을, 평가하는 자신에게도 적용한다.

AI의 효과를 측정하는 것은 AI에게 테스트 설계를 시키는 것만큼이나, 방법에 따라 결론이 바뀌는 작업입니다. 첫 숫자는 가설이 아니라, 아직 검증되지 않은 주장입니다. 거기서부터 교란과 변동성을 제거해야 비로소 그 숫자가 "효과가 있다/없다"를 말할 수 있습니다.

——본 연재는 지금까지 "AI를 어떻게 다룰 것인가"를 써왔습니다. 본고는 그 거울로서 "AI를 어떻게 측정할 것인가"를 놓습니다. 다루는 쪽도 측정하는 쪽도, 결국은 하나의 지점으로 귀결됩니다—매끄러운 출력(AI의 문장이든, 자신의 숫자든)을 액면 그대로 믿지 않는 것—입니다.

참고 문헌

Liu et al. 2023「Lost in the Middle: How Language Models Use Long Contexts」(arXiv:2307.03172) — 긴 문맥의 중간 부분을 읽지 못하는 현상. 함정 A의 대상 현상
Basili et al. 1996「The Empirical Investigation of Perspective-Based Reading」(Empirical Software Engineering 1(2), DOI:10.1007/BF00368702) — 관점 기반 독해 (Perspective-Based Reading), 독립적 검토자 기법의 원류
Muennighoff et al. 2025「s1: Simple test-time scaling」(arXiv:2501.19393) — budget forcing ("Wait" 삽입). 함정 B 개입의 아이디어 원천 (메커니즘은 다르나 발상을 차용)

생성형 AI의 효과를 어떻게 측정할 것인가 — 첫 번째 숫자에 속지 않는 「측정의 함정」

요약

핵심 포인트