AI 에이전트에게 장시간 작업을 맡길 때, 인간은 무엇을 확인해야 하는가

서론

AI 에이전트에게 장시간 작업을 맡길 수 있게 되면, 인간의 역할은 조금 변합니다.

이전에는 인간이 직접 움직이고, AI는 질문에 답하는 보조 역할을 했습니다.

하지만 Codex와 같은 coding agent에게 덩어리가 큰 작업을 맡기면, 인간은 모든 절차를 지켜보는 것이 아니라, 중간의 판단 지점과 최종적인 차분 (diff)을 보는 입장이 됩니다.

이 기사에서는 AI 에이전트에게 장시간 작업을 맡길 때, 인간이 어디를 보면 좋은지를 정리합니다.

결론부터 말하자면, 봐야 할 것은 작업 시간이 아니라 다음의 5가지입니다.

목적이 어긋나지 않았는가
작업 범위가 너무 넓어지지 않았는가
검증 결과가 남아 있는가
...

1. 목적이 어긋나지 않았는가

장시간 작업에서 가장 먼저 봐야 할 것은 목적입니다.

AI 에이전트는 도중에 발견한 정보를 바탕으로 다음 작업을 제안하거나, 추가 조사를 수행합니다.

이는 편리하지만, 최초의 목적에서 조금씩 벗어날 때가 있습니다.

예를 들어, 최초의 의뢰가 "테스트 실패 원인을 조사해줘"였더라도, 도중에 다음과 같이 확장될 수 있습니다.

테스트 실패 원인을 조사한다
관련된 설정도 확인한다
주변 코드의 노후화가 신경 쓰인다
...

이 흐름은 자연스럽지만, 장시간 작업에서는 위험하기도 합니다.

인간이 봐야 할 것은 AI가 똑똑하게 움직이고 있는가가 아니라, 최초의 목적을 향해 전진하고 있는가입니다.

2. 작업 범위가 너무 넓어지지 않았는가

다음에 봐야 할 것은 변경 범위입니다.

AI 에이 에이전트는 필요하다고 판단하면 여러 파일을 읽거나 수정합니다.

그 자체는 나쁘지 않습니다.

다만, 장시간 작업에서는 "조사를 위해 읽은 파일"과 "실제로 변경한 파일"을 나누어서 볼 필요가 있습니다.

확인할 때는 먼저 다음과 같이 나누면 이해하기 쉽습니다.

읽기만 한 파일
변경한 파일
새로 만든 파일
...

특히 삭제, 대규모 치환, 설정 변경, 운영 환경에 영향을 주는 파일 변경은 주의해서 봅니다.

장시간 실행된 작업일수록 차분 (diff)의 양이 늘어납니다.

차분이 많을 때는 전부 한꺼번에 읽는 것이 아니라, 먼저 파일 단위로 "이 변경이 이번 목적에 필요한가"를 확인하는 것이 좋습니다.

3. 검증 결과가 남아 있는가

장시간 작업을 맡기려면, 검증 결과가 남아 있는 것이 중요합니다.

"수정했습니다"라고만 하는 것은 부족합니다.

무엇을 확인했고, 어떤 결과였는지가 필요합니다.

최소한 다음 정보는 보고 싶습니다.

실행한 커맨드 (command)
성공한 확인
실패한 확인
...

AI 에이전트는 구현이나 조사를 진행할 뿐만 아니라, 검증 커맨드 (command)도 실행할 수 있습니다.

그렇기에 마지막 보고에서는 "무엇을 시도했는가"를 반드시 확인하도록 하고 있습니다.

만약 검증되지 않았다면, 그것 자체를 문제로 취급합니다.

검증되지 않은 채로 완료하지 않는 편이 안전합니다.

4. 위험한 조작을 하고 있지 않은가

장시간 작업에서는 위험한 조작에 대한 확인도 필요합니다.

특히 봐야 할 것은 다음과 같은 것들입니다.

비밀 정보를 출력하고 있지 않은가
인증 정보를 써넣고 있지 않은가
불필요한 로그를 공개 대상으로 포함하고 있지 않은가
...

AI 에이전트는 편리하지만, 작업 대상의 문맥을 모두 인간과 같은 무게로 판단할 수 있는 것은 아닙니다.

특히 기사화나 공개 작업에서는 내부 로그, 개인 정보, API 키, 지나치게 구체적인 운영 정보가 섞여 있지 않은지 확인합니다.

코드든 문장이든, 공개 전 체크는 인간이 마지막에 가져야 할 책임입니다.

5. 인간이 판단할 수 있는 형태로 끊겨 있는가

마지막으로 봐야 할 것은 작업이 끊겨 있는가입니다.

장시간 작업은 중간 경과가 길어지기 쉽습니다.

그대로 마지막에 대량의 차분 (diff)만 전달받으면 인간은 판단할 수 없습니다.

좋은 마무리 방식은 예를 들어 다음과 같은 형태입니다.

변경한 것
확인한 것
확인할 수 없었던 것
...

이런 형태가 되어 있다면 인간은 다음 판단을 내리기 쉬워집니다.

반대로 작업 로그만 길게 남아 있고 결론이 없는 경우는 위험합니다.

그럴 경우에는 작업을 더 진행하기 전에 "일단 요약해줘"라고 요청하는 것이 좋습니다.

장시간 작업을 요청할 때의 템플릿

본인이 장시간 작업을 요청한다면, 처음에 다음과 같이 작성합니다.

목적:
최종적으로 알고 싶은 것, 또는 만들고 싶은 것을 적는다.
허가하는 작업:
...

포인트는 세세한 절차를 전부 적는 것이 아닙니다.

AI 에이전트가 스스로 조사하며 움직일 여지를 남겨두면서도, 인간이 책임을 지는 경계를 미리 정해두는 것입니다.

인간의 역할은 리뷰만이 아니다

AI 에이전트에게 장시간 작업을 맡기면, 인간은 리뷰 담당자가 되는 것처럼 보입니다.

하지만 실제로는 그뿐만이 아닙니다.

인간의 역할은 작업의 의미를 결정하는 것입니다.

무엇을 성공으로 볼 것인가
어디까지 하면 충분한가
어떤 리스크는 허용할 수 없는가
...

이 부분을 모호하게 둔 채 장시간 실행하게 하면, AI는 열심히 일하고 있음에도 불구하고 인간에게는 다루기 힘든 결과물이 될 수 있습니다.

반대로 목적과 경계가 명확하다면, AI 에이전트는 상당히 믿음직한 파트너가 됩니다.

요약

AI 에이전트에게 장시간 작업을 맡길 때, 인간이 확인해야 할 것은 "몇 시간 동안 작동했는가"가 아닙니다.

확인해야 할 것은 목적, 범위, 검증, 안전성, 그리고 구분점입니다.

장시간 작동할 수 있는 AI일수록, 처음에 경계를 정해주고 마지막에는 인간이 판단할 수 있는 형태로 정리하도록 만드는 것이 중요합니다.

AI 에이전트는 작업을 대신 수행해 줍니다.

단, 무엇을 좋은 작업으로 정의할 것인지를 결정하는 것은 여전히 인간의 몫입니다.