본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 27. 02:53

지식 노동을 위한 진화하는 전략: Human-In-the-Loop에서 Human-Before-the-Loop로

요약

Andrej Karpathy의 autoresearch 프로젝트를 통해 Human-In-the-Loop를 넘어선 Human-Before-the-Loop 전략을 소개합니다. 인간은 목표와 지표를 설정하고, AI 에이전트는 최적의 결과를 위해 자율적으로 실험을 반복하며 최적화하는 새로운 지식 노동 모델을 제시합니다.

핵심 포인트

  • Human-Before-the-Loop: 인간은 방향을 설정하고 AI는 실행을 반복함
  • Autoresearch: 목표, 코드베이스, 지표를 기반으로 한 자율 연구 루프
  • Ralph Wiggum Plus: 단순 완료를 넘어 지표 개선을 목표로 하는 에이전트 패턴
  • 지식 노동의 변화: 정밀한 지표 정의가 AI 활용의 핵심 역량이 됨

지식 노동을 위한 진화하는 전략: Human-In-the-Loop에서 Human-Before-the-Loop로

Andrej Karpathy의 autoresearch 프로젝트 = Ralph Wiggum+ (인간이 결정/설명하고, AI가 목표를 향해 나아가는 것을 유지하며 반복적으로 수정/테스트함)

당신은 어젯밤 목표를 설정하고 잠자리에 들었습니다. 아침이 되자, 당신의 AI 연구원(AI researcher)은 그 목표를 쫓기 위해 100번의 실험을 수행했습니다. 접근 방식을 시도하고, 결과를 측정하며, 실패한 것은 버리고, 다시 반복했습니다. 당신은 연구의 단 한 단계도 직접 실행하지 않았습니다. 당신은 무엇을 원하는지, 그리고 그것을 찾았을 때 어떻게 알 수 있는지 기술한 텍스트 파일 하나를 작성했을 뿐입니다.

이것은 사고 실험이 아닙니다. 이번 주에 공개된 Andrej Karpathy의 "autoresearch" 프로젝트입니다. [1]

기술적인 세부 사항은 엔지니어들에게 흥미롭습니다. 전략적 함의는 그 외의 모든 사람들에게 흥미롭습니다. 따라서 전자에 대해서는 한 단락만 할애하고, 나머지 기사는 후자에 집중하겠습니다.

이 전략의 실체

Karpathy는 AI 학습(AI training) 작업에 기반하여 자율적인 연구 루프(autonomous research loop)를 구축했습니다. 에이전트(agent)에게 목표, 수정할 코드베이스(codebase), 그리고 최적화할 단일 지표(metric)를 부여합니다. 에이전트는 변경 사항을 제안하고, 짧은 실험을 실행하며, 지표가 개선되었는지 평가하고, 승리한 결과물은 유지하고 나머지는 버린 뒤 과정을 반복합니다. GPU가 탑재된 최신 Mac이라면 하룻밤 사이에 대략 100번의 사이클을 수행할 수 있습니다. 인간의 유일한 기여는 연구 방향—무엇을 최적화할지, 어떤 제약 조건이 적용되는지, 무엇을 진전으로 간주할지—을 기술한 문서입니다. [1]

기업가 Garry Tan이 표현했듯이: "경기장(arena)을 설계하고, AI가 반복하게 하라(design the arena, let AI iterate)." [2]

이 문구는 전략을 완벽하게 포착합니다. 하지만 autoresearch에 관한 많은 논의에서 놓치고 있는 점이 있습니다. Karpathy가 설계한 경기장은 AI 모델을 학습시키기 위한 것이지만, 이 전략은 기계가 인식할 수 있을 정도로 "더 나음(better)"을 정밀하게 정의할 수 있는 모든 분야에서 작동한다는 것입니다. 이는 좁은 범주가 아닙니다. 지식 노동자(knowledge workers)가 하는 일의 대부분이 여기에 해당합니다.

첫 번째 루프는 아니지만, 힘을 더해주는 루프

자율형 AI 루프 (Autonomous AI loops)는 새로운 것이 아닙니다. 2025년 Geoffrey Huntley에 의해 대중화된 "Ralph Wiggum" 패턴 [3]은 구조적으로 유사한 방식을 취합니다. 즉, AI 에이전트 (AI agent)에게 프롬프트 (prompt)를 제공하고, 매 회차마다 완료 기준 (completion criterion)을 확인하며, 작업이 완료될 때까지 계속 진행하는 단순한 루프입니다. 테스트가 통과됩니다. 빌드가 성공합니다. 체크리스트 항목들이 해결됩니다. Ralph Wiggum은 AI 에이전트를 위한 while (not done) 루프이며, 널리 사용될 뿐만 아니라 작업 완료를 위해 진정으로 강력한 힘을 발휘합니다.

Autoresearch는 한 단계 격상된 요소 하나를 추가합니다. "이것저것 계속 시도해 보고, 다 됐는지 확인하는 방법은 이렇다"라고 말하는 대신, "최적화해야 할 지표 (metric)는 이것이다... 지표를 이전보다 더 좋게 만드는 것들을 계속 유지하면서 계속 조정하라"라고 개요를 설명합니다. 이를 Ralph Wiggum Plus라고 부를 수 있습니다.

Ralph Wiggum은 "다 끝났나요?"라고 묻고 답이 '예'일 때 멈춥니다. Ralph Wiggum Plus는 "이전보다 나아졌나요?"라고 묻고 개선이 가능한 한 계속해서 탐색을 이어갑니다. 이 차이는 미묘하게 들릴 수 있지만, 그렇지 않습니다. 명확한 결승선이 있을 때는 이진 체크 (binary check)가 완벽하게 작동하며, 실제로 많은 작업에는 명확한 결승선이 있습니다. 반면 목표가 최적화 (optimization)일 때, 즉 결승선은 없고 항상 개선될 수 있는 점수만이 존재할 때는 연속적인 지표 (continuous metric)가 작동합니다. 대부분의 진지한 R&D (연구개발)는 전자보다는 후자에 더 가깝습니다.

정형화된 점수 산정 (formalized scoring)은 작업 완료 루프를 연구 루프 (research loop)로 전환시키는 핵심입니다. 또한 이는 많은 연습 과정에서 인간 참여형 (human-in-the-loop) 방식을 유지해 온 주요 이유이기도 합니다. 즉, 인간은 판단을 내리고 상황이 제대로 진행되고 있는지 확인하기 위해 그곳에 존재합니다. 점수가 매겨지는 지표가 있다면, 우리는 인간 선행형 (human-before-the-loop)으로 이동합니다. 점수 산정 방식이 사전에 정의되어 있기 때문에, 알고리즘이 평가를 수행할 수 있기 때문입니다 (이는 알고리즘 참여형 (algorithm-in-the-loop)이기도 합니다... 정확하지만 메타적인 개념입니다). 이를 성공적으로 달성하기 위해 인간의 역할은 기계가 당신에게 아무것도 묻지 않고 밤새도록 추적할 수 있을 만큼 점수 산정 방식을 명확하게 정의하는 것입니다.

모든 지식 노동 영역에 숨겨져 있는 패턴

모든 지식 집약적 분야는 동일한 기본 루프(loop)를 실행합니다: 가설을 세우고, 실험을 수행하고, 결과를 측정하고, 반복(iterate)하는 것입니다. 분야마다 차이가 나는 점은 실험에 소요되는 시간과 비용입니다. 구조는 동일합니다.

이는 자동 연구(autoresearch) 패턴이 직접적으로 적용되거나 쉽게 확장될 수 있음을 의미합니다:

  • 법률 조사 (Legal research): "이 10,000개의 사건 파일에서 다음 기준에 부합하는 판례를 검색하고, 사실관계가 얼마나 일치하는지에 따라 순위를 매기세요."
  • 금융 시나리오 분석 (Financial scenario analysis): "이 50가지 시장 가설을 우리 포트폴리오에 적용하여 실행하고, 우리의 리스크 모델을 무너뜨리는 구성을 찾아내세요."
  • 신약 개발 (Drug discovery): "이 200,000개의 화합물 변이체가 이 표적 단백질에 대해 결합 친화도 (binding affinity)를 갖는지 스크리닝하고, 가장 높은 것을 기록하세요."
  • 전략 컨설팅 (Strategy consulting): "이 30가지 시장 세분화 가설을 이 고객 데이터에 대해 테스트하고, 가장 방어 가능한 가설을 식별하세요."
  • 경쟁 정보 (Competitive intelligence): "이 500개의 데이터 소스를 밤새 모니터링하고, 우리의 시장 가설이 틀렸음을 시사하는 모든 것을 찾아내세요."

모든 경우에 있어, 과거에는 인간이 실험을 설계하고, 실험을 수행하고, 결과를 평가하고, 다음 실험을 설계하며 이를 반복했습니다. 이제 그 루프는 자율적(autonomous)입니다. 혹은 대부분의 커리어 계획이 예상하는 것보다 더 빠르게, 분야별로 자율화될 것입니다.

Karpathy의 루프에 있는 인간은 연구를 하거나 코드를 작성하지 않으며, 심지어 AI에게 무엇을 할지 지시하지도 않습니다. 대신, 그들은 마크다운 (markdown) 파일에 성공을 측정하는 방법과 함께 목표를 결정하고 기술합니다. 그러면 AI는 밤새 100번의 수정을 거치며 목표를 향해 나아가는 전략들을 유지합니다.

병목 현상 (bottleneck)의 위치가 이동했습니다. 이제 병목은 "누가 실험을 수행할 수 있는가 (또는 코드를 작성할 수 있는가)"에 있지 않습니다. 그것은 "누가 실행할 올바른 실험을 프레임화 (frame)할 수 있는가"에 있습니다.

명세(Spec)가 곧 업무다: 탐색 공간 (Search Space) 정의하기

Karpathy의 시스템은 단 하나의 산출물, 즉 연구 프로그램(research program)을 기술하는 문서를 통해 이를 구체화합니다. [4] 이는 코딩 어시스턴트(coding assistant)에게 주는 지침이 아닙니다. 탐색할 가치가 있는 가설들의 제한된 범위(bounded space), 에이전트(agent)가 진전과 노이즈를 구분하기 위해 필요한 성공 기준(success criteria), 그리고 실험의 유효성을 유지하는 제약 조건(constraints)을 담은 연구 브리프(research brief)입니다.

그 문서는 대부분의 지식 노동자들이 본능적으로 수행하면서도 이름조차 붙이지 못했을 무언가를 수행하고 있습니다. 바로 탐색 공간(search space)의 형태를 정의하는 것입니다.

공간을 너무 넓게 정의하면 에이전트는 무관한 영역에서 사이클(cycles)을 낭비하게 됩니다. 너무 좁게 정의하면 당신의 가정에서 단 한 단계 밖에 있는 결과를 놓치게 됩니다. 성공 지표(success metric)를 잘못 설정하면, 에이전트는 잘못된 것을 최적화하여 아무도 묻지 않은 질문에 답하는 100개의 실험 결과를 가져다줄 것입니다.

연구 결과물의 품질은 연구 질문의 품질에 의해 제한됩니다.

이는 언제나 사실이었습니다. 유능한 연구 디렉터(research director)는 항상 빠른 실험가(experimentalist)보다 더 가치 있는 존재였습니다. 하지만 실험이 느리고 비용이 많이 들 때는 실험가의 기술이 여전히 매우 중요했습니다. 제한된 횟수의 실행(runs)에서 통찰을 짜낼 수 있는 사람이 필요했기 때문입니다. 반면 실험이 빠르고 저렴하며 자율적(autonomous)으로 이루어질 때, 실험가의 기여도는 0에 수렴하며 연구 디렉터의 업무가 유일하게 중요한 병목(bottleneck)이 됩니다.

자율 연구(autoresearch)는 하룻밤 사이에 100개의 실험을 수행합니다. 여기서 유일한 인간의 기여는 성공이 어떤 모습인지를 기술하는 문서입니다. 그것은 각주가 아닙니다. 그것이 바로 신호(signal)입니다.

지식 노동자들에게 일어나는 일

어려움을 겪게 될 지식 노동자들은 가치가 주로 실행 계층(execution layer)에 머무는 사람들입니다. 즉, 분석을 수행하고, 데이터를 추출하며, 초안 수준의 종합(synthesis)을 작성하고, 결과물을 반복(iterate)하는 이들입니다. 이러한 작업들은 사라지는 것이 아닙니다. 대부분의 사람들의 커리어 계획이 예상하는 것보다 더 빠르게 자율 루프(autonomous loops)로 흡수되고 있습니다.

번창할 지식 노동자들은 상류(upstream)에 머물거나 그곳으로 이동합니다. 구체적으로는 다음과 같습니다:

  • 문제 프레이머 (Problem framers): 모호한 비즈니스 질문을 받아 이를 검증 가능한 가설로 분해하는 사람들입니다. 단순히 "어떻게 매출을 올릴 것인가?"가 아니라, "여섯 개의 고객 세그먼트 중 어떤 것이 가장 낮은 가격 탄력성 (price elasticity)을 보이며, 고객 획득 비용 (acquisition cost)의 차이는 무엇인가?"라고 질문합니다.
  • 지표 설계자 (Metric designers): 기계가 매 단계마다 인간에게 묻지 않고도 평가할 수 있을 만큼 충분히 정밀하게 "더 나은 상태"가 무엇인지 정의하는 사람들입니다. 하나의 숫자, 일관성, 그리고 거짓말을 하지 않는 지표를 만듭니다.
  • 제약 조건 설정자 (Constraint setters): 어떤 제약 조건이 실험을 유효하게 만드는지, 그리고 어떤 것이 단순한 조직적 습관인지 구분할 줄 아는 사람들입니다. 에이전트 (Agent)는 당신이 허용한 것은 무엇이든 실행합니다. 무엇을 금지해야 하는지 아는 것이 바로 전문성입니다.
  • 해석자 (Interpreters): 100개의 실험 결과를 보고 어떤 것이 의미 있는 결과인지, 어떤 것이 설정상의 오류 (artifacts)인지 식별하며, 발견된 내용을 의사결정으로 전환하는 사람들입니다. 에이전트는 설정된 지표에 따라 승자를 찾아냅니다. 하지만 그 지표가 올바른 것을 포착했는지는 인간이 결정합니다.

이 중 어느 것도 새로운 기술이 아닙니다. 이것들은 이러한 기술들이 존재하기 전부터 유능한 연구자와 탁월한 연구자를 구분 짓던 기술들입니다. 지금의 차이점은 이것들이 연구 수준에서 유일하게 중요한 기술이 되었다는 점입니다. 그 아래의 실행 계층 (execution layer)은 사라졌습니다.

그렇다고 해서 우리가 신입 사원 채용을 계속 중단해야 한다는 뜻은 아닙니다. 우리는 성장하여 상류 (upstream)의 연구 디렉터 역할로 이동하고, 이러한 기술들을 배울 수 있는 사람들이 필요합니다. 채용 구조는 피라미드형에서 집 모양(또는 오벨리스크 모양)으로 계속 변화할 것이며, 더 적은 수의 인원을 더 오래 유지하기 위한 새로운 교육과 인센티브 체계가 도입될 것입니다.

AI의 GPS 모먼트 (AI's GPS Moment)

GPS가 어디에나 존재하게 되었을 때, 지도를 읽는 법은 하나의 호기심 거리로 전락했습니다. 중요해진 기술은 길을 찾는 능력이 아니라, 당신이 어디로 가고 싶은지를 아는 능력이었습니다. 지도를 읽을 줄 모르는 사람들도 GPS가 있다면 괜찮았습니다. 길을 잃는 사람은 오직 목적지를 모르는 사람들뿐이었습니다.

자율적인 연구 루프 (Autonomous research loops)는 지식 노동에 있어 바로 그 GPS 모먼트입니다. 길 찾기(Navigation)는 처리되었습니다. 목적지를 정하는 것은 여전히 당신의 몫입니다.

자율 연구 (autonomous research)의 세계에서 당신에게 필요한 기술은 작업의 목표와 성공을 위한 평가 기준 (scoring criteria)을 기술하는 연구 브리프 (research brief)를 작성하는 능력입니다.

좋은 소식은, 좋은 연구 질문을 구성하는 능력 (framing)은 학습 가능하다는 것입니다. 이는 당신이 실제로 알아내고자 하는 것이 무엇인지, 무엇이 좋은 답변으로 간주될 것인지, 그리고 어떤 제약 조건 (constraints)이 탐색을 제한하는지에 대해 집요할 정도로 정밀해짐으로써 연습됩니다. 이는 어떤 도구를 사용하기 전에 "우리가 무엇을 테스트하는가"와 "우리가 그것을 어떻게 테스트하는가"를 분리하는 습관입니다.

이는 도메인(domain)마다 다릅니다. 스스로에게 물어보십시오. 당신에게 묻지 않고도 자율 시스템 (autonomous system)에게 실험의 성공 여부를 알려줄 수 있는 단 하나의 지표 (single metric)는 무엇입니까? 만약 당신이 그것에 답할 수 있다면, 당신은 이미 연구 디렉터 (research director)처럼 생각하고 있는 것입니다. 그것이 살아남을 직무 기술서 (job description)입니다.

핵심 요약 (The Bottom Line)

Karpathy의 자율 연구 (autoresearch)는 단 한 대의 머신에서 밤새 100개의 실험을 실행합니다. 인간의 기여는 성공이 어떤 모습인지를 기술하는 문서입니다. 100번의 머신 실행과 1개의 인간 브리프라는 이 비율이 바로 지식 노동이 나아가고 있는 형태입니다. 이 환경에서 번창하는 사람들은 더 빠른 실험가들이 아닙니다. 그들은 더 나은 질문 구성가 (question-framers), 지표 설계자 (metric-designers), 그리고 탐색 공간 설계자 (search-space-architects)입니다. 연구실은 결코 잠들지 않을지 모르지만, 여전히 목표를 결정하고 성공을 기술할 인간을 필요로 합니다.

당신의 분야에서 당신에게 확인하지 않고도 자율 시스템에게 실험의 성공 여부를 알려줄 수 있는 단 하나의 지표는 무엇입니까? 비기술적 분야의 사람들이 Karpathy가 했던 것처럼 그것을 정밀하게 정의할 수 있는지, 그리고 만약 정의할 수 없다면 그것이 그들의 도메인에 대해 무엇을 드러내는지 진심으로 궁금합니다.

참고 문헌 (References)

참고 문헌 (References)

  1. GitHub: karpathy/autoresearch — AI agents running research on single-GPU nanochat training automatically
  2. Garry Tan on Threads: "design the arena, let AI iterate"
  3. Geoffrey Huntley: The Ralph Wiggum Technique
  4. autoresearch/program.md at master — karpathy/autoresearch
  5. Andrej Karpathy on X: "I packaged up the 'autoresearch' project..."

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0