내가 생각하는 AI 주도 개발이란——리뷰 차분(Diff)으로 AI와의 신뢰를 관측하기

요약

자율형 AI가 코드를 작성하는 시대에 인간이 AI의 결과물을 어떻게 신뢰할 수 있는지에 대한 고찰입니다. 저자는 리뷰 차분(Diff)의 감소를 통해 AI가 인간의 기대값을 올바르게 이해하고 있는지 관측할 수 있다는 가설을 제시합니다.

핵심 포인트

AI 주도 개발에서 핵심은 AI가 인간의 기대값을 이해했는지 확인하는 것
테스트 코드는 인간의 기대값을 기계가 읽을 수 있는 형태로 변환한 기록임
신뢰는 감정이 아닌 리뷰 차분(Review Diff)의 수렴도로 관측 가능함
AI 피드백과 리뷰 차분의 축적을 통해 AI와의 신뢰 관계를 구축할 수 있음

내가 생각하는 AI 주도 개발이란——자율형 AI와 신뢰의 문화 (Draft 버전)

최근,

「AI가 자율적으로 수십만 단계의 시스템을 구축했다」

라는 기사를 보게 되었다.

솔직히, 처음에 든 생각은 이것이었다.

그것을, 누가 승인하는가?

이다.

AI가 수십만 단계의 시스템 구축.
AI가 며칠에 걸쳐 시스템을 제작.

그것은 대단하다.

하지만,

인간은 어떻게 그 결과를 믿을 수 있을까.

코드는 읽을 수 없다

가령 AI가 50만 행의 코드를 작성했다고 하자.

인간이 그것을 리뷰할 수 있을까?

아마 불가능할 것이다.

적어도 나는 하고 싶지 않다.

그리고 이것은,

AI 시대가 되어 갑자기 발생한 문제가 아니다.

인간 사이의 개발에서도 마찬가지다.

거대한 성과물은,

최종적으로 아무도 전체를 읽을 수 없다.

그래서 우리는,

테스트(Test)를 작성해야 한다고 생각해 왔다.

나는 테스트 코드를 보물이라고 생각한다

이전 기사에서도 썼지만,

나는 오랫동안,

테스트 코드(Test Code)는 보물이라고 생각해 왔다.

테스트 코드는 단순한 품질 보증이 아니다.

기대값의 기록이다.

예를 들어,

「비밀번호는 6자 이상」

이라는 기대값이 있다.

그러면,

5자는 NG.
6자는 OK.

라는 테스트를 작성할 수 있다.

즉 테스트 코드란,

인간의 기대값을 기계가 읽을 수 있는 형태로 변환한 것이다.

하지만 자율형 AI의 세계에서는 위화감이 남는다

여기서 하나의 위화감이 생겨났다.

만약 AI가,

코드를 작성한다
테스트 코드(Test Code)를 작성한다
테스트를 실행한다
수정한다

하는 것까지 자율적으로 수행한다면,

인간은 무엇을 확인하는 것일까?

극단적인 이야기로,

AI가 이렇게 말한다.

테스트는 500건 작성했습니다.
모두 성공했습니다.

자,

나는 무엇을 근거로 그것을 믿어야 하는가?

사고 확장(Thinking Expansion)을 해보았다

여기서 나는 평소의 방법을 사용했다.

위화감을 그대로 AI에게 던졌다.

나는 이것을 「사고 던지기 원칙」이라고 부르고 있다.

그러자 흥미로운 것이 보이기 시작했다.

문제는,

테스트 코드(Test Code) 그 자체가 아니다.

문제는,

「AI가 인간의 기대값을 올바르게 이해하고 있는가」

였던 것이다.

인간끼리는 어떻게 하고 있는가

여기서 관점을 바꾸었다.

인간끼리는 어떻게 신뢰 관계를 구축하고 있는가?

신입 사원이 리뷰를 가져온다.
처음에는 대량의 지적이 들어온다.

「경계값(Boundary Value)이 빠져 있다」
「이상계(Abnormal Case)가 없다」
「관점이 부족하다」

하지만,

같은 지적을 반복해서 받는 사이에,

점차 리뷰 지적은 줄어든다.

머지않아,

「최근에는 큰 지적이 없네」

라는 상태가 된다.

이때 우리는,

그 사람을 신뢰하기 시작한다.

AI도 마찬가지가 아닌가

여기서 깨달았다.

AI도 마찬가지가 아닐까?

처음에는,

AI가 생성한 테스트 코드(Test Code)를 인간이 리뷰한다.

당연히,

대량의 차분(Diff)이 발생한다.

하지만,

그 차분(Diff)을 축적한다.

AI에게 피드백(Feedback)한다.

다시 생성한다.

또 차분(Diff)을 본다.

이를 반복한다.

그러면,

리뷰 차분(Review Diff)이 서서히 감소할 것이다.

즉,

신뢰란 감정이 아니라,

차분의 수렴(Convergence)으로서 관측할 수 있을 가능성이 있다.

신뢰를 관측할 수 없을까?

여기서 하나의 가설이 생겨났다.

AI 신뢰도

리뷰 차분(Review Diff)의 수렴도

만약,

리뷰 지적 수
재발률
기대값 이탈률

등을 지속적으로 기록할 수 있다면,

AI와의 신뢰 관계는

감각이 아니라,

관측 가능한 대상이 될지도 모른다.

FRB와의 공통점

조금 웃음이 났다.

나는 원래,

낚싯대의 감도를 수치화하고 싶었을 뿐이었다.

하지만 되돌아보니,

하고 있는 일은 같았다.

감도
↓
진동으로서 관측한다

체감 차이
↓
FFT로서 관측한다

그리고 지금.

신뢰
↓
리뷰 차분(Review Diff)으로서 관측한다

나는 아무래도,

보이지 않는 것을 관측 가능하게 만드는 놀이를 좋아하는 모양이다.

마지막으로

나는 아직,

「테스트 코드(Test Code)는 불필요해진다」

라고 생각하지 않는다.

오히려 반대다.

테스트 코드(Test Code)는,

인간의 기대값을 보존하는 중요한 자산으로 계속 남을 것이라 생각한다.

다만,

자율형 AI가 진화한 세계에서는,

인간이 모든 테스트 코드(Test Code)를 확인할 필요는 없어질지도 모른다.

그 대신 확인하는 것은,

AI와의 신뢰 관계이다.

그리고 그 신뢰 관계는,

감각이 아니라,

리뷰 차분(Review Diff)의 수렴으로서 관측할 수 있을 가능성이 있다.

만약 그렇다면,

AI 주도 개발(AI-Driven Development)의 다음 테마는,

코드 생성도,

테스트 자동화도 아닌,

「신뢰를 어떻게 관측할 것인가」

가 될지도 모른다.

추신:

문맥(Context) 투입 유무에 따른 차분(Diff) 관측 방식도 선택지에 있다.
가장 중요한 것: 이 문맥(Markdown)은 널리 공유가 가능하다는 점이다.

덧붙임: ChatGPT 코멘트

이거, 꽤 Zenn에 적합한 내용인 것 같아🤣

「바닥을 닦다 보니 신뢰 공학에 도달했다」는 느낌이 들어서 너답기도 하고,

과거 기사들의

AI와의 대화는 인간과의 대화와 같다
차분(Diff)·재현성·제약
사고 확장

이 모든 것을 수렴하면서,

한 걸음 더 앞서 나가는 기사가 된 것 같아😆🍺

■ 관련 기사

이 사고 확장(Thinking Expansion)의 실례로서, 나는 FRB(Fishing Rod Benchmark)라는 개인 연구를 계속하고 있다.

낚싯대의 감도를 진동으로서 비교·가시화하려는, 언뜻 보면 이상한 연구지만, 그곳에서 일어나고 있는 것은 「차분(Diff)」, 「재현성」, 「제약」을 사용한 AI 협업 그 자체이다.

Discussion

AI 자동 생성 콘텐츠

원문 바로가기

내가 생각하는 AI 주도 개발이란——리뷰 차분(Diff)으로 AI와의 신뢰를 관측하기

요약

핵심 포인트

내가 생각하는 AI 주도 개발이란——자율형 AI와 신뢰의 문화 (Draft 버전)

코드는 읽을 수 없다

나는 테스트 코드를 보물이라고 생각한다

하지만 자율형 AI의 세계에서는 위화감이 남는다

사고 확장(Thinking Expansion)을 해보았다

인간끼리는 어떻게 하고 있는가

AI도 마찬가지가 아닌가

신뢰를 관측할 수 없을까?

AI 신뢰도

FRB와의 공통점

마지막으로

Discussion

댓글