내 AI 도구의 점수가 100점 만점에 35점이 나왔다. 무엇을 수정했는지 공개한다.

점수: 100점 만점에 35점

나는 sabialibrarian.com을 우리가 자체적으로 사용하는 평가기(evaluator) — 학교 사서들이 AI로 생성된 학생들의 과제물을 평가할 때 사용하는 것과 동일한 도구 — 에 돌려보았고, 100점 만점에 35점을 받았다.

뼈아픈 결과였다.

점수 자체가 절대적으로 낮아서가 아니라, 나는 지난 몇 달 동안 우리의 평가기가 신뢰할 수 있고, 논리적이며, 실제 사서들의 방법론(methodology)을 기반으로 구축되었다고 사람들에게 말해왔기 때문이다. 그런데 정작 우리 자신에게 그 도구를 적용했더니 35점이라는 점수를 내놓는 것을 지켜봐야 했다.

자기 평가(self-evaluation)에 대해 말하자면, 이는 건너뛰기 쉽다. 제품을 출시하고

기준	상태	이유
최신성 (Currency)	통과 (PASS)	사이트가 활성화되어 유지 관리되고 있으며, 현재 도메인 등록이 되어 있음
...
5가지 기준 중 2개가 완전히 실패했다. 그중 하나인 정확도(Accuracy)는 코드 수준에서 작동하지 않았다. 목적성(Purpose)은 통과했지만, 실행 자체가 명확하지 않았음에도 의도가 읽을 수 있었기 때문일 뿐이었다.

실제로 문제가 되었던 부분

1. 평가 도구가 sabialibrarian.com에서 충돌함

점수 산정 로직에 히어로 섹션(hero section) 평가에 버그가 있었다. 코드가 현재 배포 버전에는 존재하지 않는 함수를 호출하고 있었다. 사용자가 홈페이지에 접속하여 평가를 실행하면, 결과가 반환되기 전에 도구가 오류를 일으켰다. 이것은 낮은 점수가 아니었다. 그것은 _작동하지 않는 도구_였다.

2. 기준별 분석이 연결되지 않았음

평가가 실행되었을 때조차도, 기준별 통과/실패 분석—사서 사용자에게 가장 중요한 부분—이 결과에 표시되지 않았다. 점수는 나왔지만, 그 이유가 나오지 않은 것이다. 이것은 성적표를 받으면서 등급만 받고 과목별 점수를 받지 못한 것과 같다.

3. /about 페이지에서 404 오류가 발생함

이것을 쓰기가 민망하지만: 우리에 대한 가장 중요한 정보를 제공하고 사서들이 우리가 왜 신뢰해야 하는지를 확립하는 데 필요한 /about 페이지가 실제로 배포되지 않았다. 404 오류가 반환되었다. 우리는 몇 주 동안 '창업자 소개' 페이지에 대해 이야기해 왔다. 그것은 서버에 존재한 적이 없었다.

4. 방법론 페이지가 존재하지 않았음

평가 도구는 사용자들에게 그 추론 과정을 신뢰하도록 요구한다. 하지만 출처를 어떻게 평가하는지 설명할 수 없다면, 결과물은 책임감 없이 주장만 하는 AI에 불과하다. 우리는 공개적인 방법론 페이지가 없었다—CRAAP 프레임워크가 도구의 맥락에서 무엇을 의미하는지, 통과 또는 실패로 간주되는 것이 무엇인지, 점수 산정 방식이 어떻게 작동하는지를 보여주는 아무것도 없었다.

수정하기 위해 배포한 내용

평가 도구 충돌 문제 해결 (5월 27일)

히어로 평가 모듈의 깨진 함수 호출을 교체했다. 동적 콘텐츠가 있는 페이지를 위한 가드 절(guard clause)을 추가했다. 이제 평가는 오류를 발생시키지 않고 완료된다.

기준별 분석 기능 구현 (5월 28일)

기준별 합격/불합격 (pass/fail) 결과가 이제 올바르게 표시됩니다. 사용자는 점수가 왜 그렇게 나왔는지, 즉 어떤 기준을 통과했고 어떤 기준을 통과하지 못했는지, 그리고 도구가 어떤 증거를 찾아냈는지를 확인할 수 있습니다. 이것은 출시 시점에 이미 존재했어야 할 기능입니다.

/about 페이지 배포 (5월 28일)

/about 페이지가 sabialibrarian.com/about에 공개되었습니다. 여기에는 공공 및 학술 사서로서의 제 배경, M.L.I.S. (문헌정보학 석사) 자격, 그리고 평가 도구의 방법론적 근거가 되는 구체적인 경험이 포함되어 있습니다. 이 도구를 평가하는 사서들이라면 우리(us) 또한 평가할 수 있어야 합니다.

/methodology 페이지 추가 (5월 29일)

평가기가 CRAAP 프레임워크를 정확히 어떻게 적용하는지 설명하는 방법론 (methodology) 페이지입니다. 각 기준이 무엇을 측정하는지, 무엇이 합격 또는 불합격으로 간주되는지, 그리고 점수가 실제로는 무엇을 의미하는지를 다룹니다. 신뢰성을 평가한다고 주장하는 도구에게 투명한 방법론은 선택 사항이 아닙니다.

CRAAP 참조 시트 (5월 29일)

인쇄 가능한 CRAAP 참조 PDF를 /resources 페이지에서 확인할 수 있습니다. 이를 통해 사서들은 전체 도구를 사용하지 않더라도 학생들과 함께 활용할 수 있는 자료를 갖게 됩니다.

남아있는 솔직한 한계점들

100점 만점에 35점이라는 점수는 제가 아닌 평가기 (evaluator)가 매긴 것입니다. 평가기가 무엇을 찾아냈는지는 설명할 수 있지만, 아직 무엇을 다루지 못하고 있는지에 대해서는 솔직해질 필요가 있습니다.

실시간 웹 크롤링 (web crawling) 불가: 평가기는 콘텐츠 신호와 구조적 패턴을 분석하지만, 실시간 페이지 검증은 수행하지 않습니다. 인용 문구와 도메인 등록 정보는 실행 시점에 확인될 뿐, 실시간 기록과 대조되지는 않습니다.
부분적인 다국어 평가: 이 도구는 영어, 스페인어, 포르투갈어에서 작동하지만, 모든 콘텐츠 유형에 대해 동일하게 잘 작동하지는 않습니다.
예외 케이스에 대한 신뢰도 보정 (confidence calibration) 부재: 합격과 불합격의 경계에 있는 출처들도 불확실성을 나타내지 않은 채 점수가 매겨집니다. "38/100"이라는 점수는 평가기가 권위성 (Authority) 기준에 대해 다른 판단을 내릴 뻔했다는 사실을 전달하지 못합니다.

이것들은 변명이 아닙니다. 이것들은 평가기가 찾아낸 사실이며, 다음 단계의 개선 사항을 가리키고 있습니다.

직접 여러분의 사이트에서 시도해 보세요

만약 여러분이 학교 사서이거나, AI 리터러시 (AI literacy) 도구를 구축하고 있는 사람이라면, sabialibrarian.com에 있는 평가기를 통해 여러분의 사이트를 직접 실행해 보세요.

만약 점수가 낮게 나온다면, 그것은 유용한 정보입니다. 모든 낮은 점수가 "나쁘다"는 것을 의미하지는 않습니다. 때로는 "미완성"임을 의미하기도 합니다. 저는 추측하기보다는 제가 무엇을 보고 있는지 아는 편을 선호합니다.

D. Ceabron Williams, M.L.I.S.는 은퇴한 공공 및 학술 사서입니다. Sabia Librarian 평가기는 CRAAP 프레임워크를 기반으로 구축되었으며, AI가 생성한 콘텐츠와 웹 소스를 평가하는 학교 사서들을 위해 설계되었습니다. sabialibrarian.com에서 직접 시도해 보세요.