직접 만든 니치(Niche) 라이브러리의 기술 사양서를 Lapras AI에게 평가시켜 본 결과

요약

니치한 라이브러리의 기술 사양서를 Lapras AI에게 평가하게 하여 AI의 문맥 이해 능력을 실험한 결과입니다. AI는 내용의 의도나 배경보다는 Markdown 구조와 기술적 형식에 반응하여 모순된 평가를 내리는 '즉물적 시스템'임을 확인했습니다.

핵심 포인트

AI는 문맥보다 정돈된 형식과 기호에 반응함
동일한 기술 요소에 대해 상충되는 평가를 내릴 수 있음
AI 활용 시 입력 데이터의 형식과 해상도가 중요함
AI는 고도의 지식을 가진 외부 뇌로서 인간의 해석 능력이 필수적임

갑작스럽지만, 필자는 과거 PSO2NGS용 심볼 아트를 파싱(Parse)하는 라이브러리인 「symbol-art-parser」를 개발했다. 이 라이브러리의 타겟 유저는 「PSO2NGS를 플레이하면서 심볼 아트를 사용한 Web 서비스를 만들고 싶다」는, 극히 한정적이고 특이한 사람들에 국한된다. 비즈니스 가치는 완곡하게 말해서 **제로(Zero)**이다.

그래서 지난달, 이 라이브러리의 기술 사양서(Technical Specification)를 Qiita에 게시했다. 다만, 목적은 인간에게 읽히려는 것이 아니라, Lapras의 AI가 어떤 평가를 내리는가라는 일종의 성능 시험이다.

결과는...

실용성: 4 (초우수)

완벽하게 걸려들었다.

평가 내용의 상세를 읽어보면, 일관성 없음이 눈부시게 빛나고 있다. 아래에 대표적인 사례를 소개한다.

논리성 평가:

「JSON Schema에 대한 설명이 본체와 분리되어 있어, TypeScript 타입 정의(Type Definition)와의 관련성이 명확하지 않습니다.」

실용성 평가:

「JSON Schema 설명도 실용적이며, VSCode에서의 보완 기능 활용 방법을 이해할 수 있습니다.」

동일한 JSON Schema 기술에 대해, 한쪽에서는 「관련성이 불명확함」이라고 말하고, 다른 한쪽에서는 「실용적이고 알기 쉬움」이라고 찬양하고 있다. 이것을 인간이 했다면 다중 인격을 의심받을 수준이다.

「게임 문화적인 각주가 많아...」

기사의 제목에도 서두에도 「PSO2NGS의 심볼 아트를 해석하는 라이브러리」라고 명시했다. 게임 이야기가 나오는 것에 놀라는 것은, 만두피 안에 만두 속이 들어있는 것에 놀라는 것과 같다.

「캡슐화(Encapsulation)를 선택한 것인지, ArrayBuffer를 선택한 이유」

라이브러리 설계의 기본 원칙으로서, 파일의 입출력 책임을 라이브러리 본체에 두지 않는다는 것이 있다. ArrayBuffer를 받는 형태로 만든 것은, Node.js에서도, 브라우저에서도 동작시키기 위한 의도적인 설계 판단이다. 평가 AI는 이 부분을 의문점으로 꼽고 있지만, 의문을 가져야 할 쪽은 AI가 아니라... 아니, 그만두자.

「기술 사양서로서의 명확성은 높지만, 게임 문화적인 배경 설명이 많이 포함되어 있어...」

게임 라이브러리라고 몇 번을 말해야 알아듣는 걸까.

이번 실험에서 도출된 결론은 명확하다.

AI는 즉물적인 시스템이다.

아무리 니치하고 실용성 제로인 내용이라도, Markdown 구조가 정돈되어 있고, JSON Schema나 타입 정의가 곁들여져 있으며, 사양서다운 형식을 갖추고 있다면, AI는 「기술 평가 4: 초우수」를 수여한다. 입력된 기호에 반응하고 있을 뿐이며, 그 배경에 있는 문맥(Context)이나 의도는 관여하지 않는다. 이번 실험을 통해 얻은 유익한 지견이기도 하다.

다만, 이것은 AI에 국한된 이야기가 아니다. 형식만을 읽고 판단하고, 문맥을 무시하고 반응하는 —— 그러한 거동은 대부분의 상황에서 인간에게도서 발견된다. AI는 그 경향을 가시화하기 쉬울 뿐, 본질적인 문제는 사용하는 측의 해상도에 있다.

결국, AI란 고도의 지식을 가진 외부 뇌와 같은 것이다. 무엇을 입력하고 출력을 어떻게 해석할지는 완전히 인간 측에 맡겨져 있다. 「설계도를 읽었다고 해서 반드시 같은 것을 만들 수 있는 것은 아니다」와 마찬가지로, AI를 사용한다고 해서 무언가를 이해할 수 있는 것도, 올바르게 평가할 수 있는 것도 아니다.

본 기사 공개 후, 필자는 본 기사를 게시하기 위한 밑밥으로 X에 「기사로 해킹한다」라고 게시했다. 의도는 말할 것도 없이, 「기사를 사용하여 AI의 스코어링을 검증한다」라는 본 기사의 취지를 가리킨 것이다. 결과적으로 즉시 경고를 받았고, 최소 8시간의 계정 정지 처분을 받았다.

이어서 이 건을 Gemini에게 상담했더니, 여러 채팅 세션이 얼마 지나지 않아 기능 정지되었다.

「해킹(Hacking)」이라는 단어가 포함되어 있었기 때문이다. 그 외의 이유는 없다.

필자는 정확히 한 달 전, 다른 기사에서 BeReal의 인시던트(Incident)를 예로 들며 이렇게 주장했다. 규칙은 「What(무엇을 하지 마라)」이 아니라 「Why(왜 하지 마라)」로 설계해야 한다고.

이번에 X와 Gemini도 「해킹」이라는 단어에 기계적으로 히트하여 반응했다. 문맥 —— 즉 「Why」 —— 는 참조되지 않았다.

자신이 비판했던 문제를, 자신이 비판한 직후에, 자신이 겪었다.

『코드 기아스』에서 루루슈가 의도치 않게 기아스를 발동시켜 비극을 초래한 에피소드가 있는데, 지금의 심경은 그와 비슷하다.

기록으로 남겨둔다.

AI가 인간의 업무를 대체하기까지는, 적어도 수년 단위의 시간이 걸릴 것으로 보인다.

AI 자동 생성 콘텐츠

원문 바로가기

직접 만든 니치(Niche) 라이브러리의 기술 사양서를 Lapras AI에게 평가시켜 본 결과

요약

핵심 포인트

댓글