Chain-of-Thought가 핵심이 아닐 수도 있습니다. 어쩌면 Specification이 핵심일지도 모릅니다.

어떤 생각을 소리 내어 정리해 보고 싶습니다. 이 내용이 다른 분들에게도 공감이 될지, 아니면 제가 혼자만의 생각에 빠져 있는 것인지 진심으로 알고 싶습니다.

최근 저는 완전히 떨쳐낼 수 없는, 반쯤 형성된 아이디어 같은 직감을 쫓고 있습니다. 이것은 프롬프팅 (prompting)에 관한 것입니다. 구체적으로는, 왜 우리가 프롬프팅에 대해 지금과 같은 방식으로 이야기하는지, 그리고 모두가 신봉하는 기술들이 실제로 우리가 생각하는 대로 작동하고 있는지에 대한 것입니다. 저는 답을 찾아 나섰고, 만약 이것이 사실이라면 제가 이 문제를 생각해 온 방식을 뒤엎을 만한 무언가를 발견했습니다. 그러니 이것을 결론을 발표하는 것이 아니라, 제가 도출해 나가는 과정을 보여드리는 것으로 받아들여 주시기 바랍니다.

시작은 이랬습니다. 프롬프트 엔지니어링 (prompt engineering)은 이제 꽤 표준적인 도구 모음을 축적했습니다. Chain-of-thought (사고의 사슬). Few-shot examples (퓨샷 예시). Persona framing (페르소나 프레이밍) — "당신은 전문 임상의입니다"와 같은 식의 것들 말이죠. 그리고 떠도는 대부분의 조언은 "이것들을 충분히 쌓으면 결과가 좋아진다"는 식의 변형된 버전들입니다. 저는 그것이 왜 사실이라고 여겨지는지 이해하고 싶었습니다. 깔끔한 설명을 찾을 것이라 예상했습니다. 하지만 대신 제가 발견한 것은, 그것이 대체로... 사실이 아니라고 시사하는 논문이었습니다. 이는 저를 예상치 못한 곳으로 이끌었습니다.

처음에 제가 생각했던 방향

이 질문에 접근하게 된 저만의 방식은 뜻밖에도 교육학, 구체적으로는 Bloom의 Taxonomy (블룸의 교육 목표 분류학)에서 시작되었습니다. 이는 교육자들이 질문이 실제로 어떤 종류의 사고를 요구하는지 분류하기 위해 사용하는 프레임워크입니다. 기억하기, 이해하기, 적용하기, 분석하기, 평가하기, 창조하기. "제1차 세계 대전의 원인을 나열하시오"는 기억하기를 요구합니다. 반면 "왜 제1차 세계 대전이 방지되지 않고 발생했는가"는 분석하기를 요구합니다. 같은 주제이지만, 인지적 요구 사항은 완전히 다릅니다.

그리고 이것은 프롬프팅 (prompting)에 거의 지나치게 깔끔하게 맞아떨어지는 방식으로 매핑되었습니다. "이 문서를 요약하세요" — 기억/이해. "이 논증을 비판하세요" — 평가. 저는 프롬프팅의 실제 기술이 "올바른 기법을 선택하는 것"이 아니라, 마치 훌륭한 교사가 학생이 수행하기를 원하는 정확한 인지적 움직임(cognitive move)을 중심으로 질문을 설계하는 것처럼, "올바른 _종류_의 사고를 요구하는 것"이 아닐까 궁금해지기 시작했습니다.

저는 이 아이디어가 매우 마음에 들었습니다. 지금도 여전히 어느 정도는 그렇습니다. 하지만 그것은 목적지가 아닌 우회로임이 드러났습니다. 왜냐하면 진짜 놀라운 사실은 저의 비유가 아니라 데이터 속에 있었기 때문입니다.

내가 테스트하고 있다는 사실조차 깨닫지 못했던 믿음

여기 저를 포함하여 최근까지 LLM (Large Language Models)을 활용해 무언가를 만들고 있는 우리 대부분이 품고 있는 믿음이 하나 있습니다. 그것은 바로 프롬프팅 기법 (technique) — 사고의 사슬 (chain-of-thought), 페르소나 (personas), 영리한 문구 패턴 등 — 이 진정한 레버리지 (leverage)가 존재하는 곳이라는 믿음입니다. 확실히 대부분의 콘텐츠는 그곳에 집중되어 있습니다. "실제로 효과가 있는 10가지 프롬프팅 트릭"과 같은 모든 게시물은 이 버전의 무언가를 판매하고 있습니다.

그러던 중 저는 이 점을 정면으로 테스트한 UConn의 연구를 접하게 되었고, 그 결과를 매우 명확하게 해석했습니다. 연구진은 LLM이 텍스트 내의 심리학적 구성 개념 (psychological constructs)을 분류하도록 시도했습니다. 예를 들어, 언어의 표면에 가깝고 발견하기 비교적 쉬운 '감사'와 같은 개념과, 무엇을 찾고 있는지 알기도 전에 실제적인 해석적 거리와 정밀한 이론적 정의가 필요한 '부정적 핵심 신념 (negative core beliefs)'과 같은 개념을 대조했습니다.

그들은 페르소나, 사고의 사슬 (chain-of-thought), 설명, 퓨샷 예시 (few-shot examples) 등 모든 도구 상자를 동원했습니다. 하지만 흥관심로운 지점은 그들이 베이스라인 작업 설명 (baseline task description) 자체를 또한 체계적으로 변화시켰다는 것입니다. 즉, 정의와 지침을 수십 가지의 다른 방식으로 재구성하고, 실제로 무엇이 유의미한 영향을 미치는지 측정했습니다.

그리고 대중적인 기법들은... 대부분 그렇지 않았습니다. 페르소나 프레이밍 (Persona framing), 생각의 사슬 (Chain-of-thought) — 논문은 이러한 기법들의 개선 효과가 작고 일관성이 없으며, 전반적으로 통계적 유의성 (statistically significant)조차 없다고 설명합니다. 압도적인 차이로 실제로 중요했던 것은, _당신이 요청하는 대상에 대한 정의 (definition of the thing you're asking for)_를 정확하게 작성하는 것이었습니다. 가장 어려운 구성 요소에서, 가장 잘 작성된 프롬프트와 가장 못 작성된 프롬프트 사이의 격차는 F1 점수(F1 score)에서 28점 차이가 났습니다. 오로지 문구(wording)만으로 말이죠. 어떤 영리한 트릭도 포함되지 않았습니다.

따라서 어쩌면 허수아비 공격 (strawman)은 "사람들이 프롬프팅을 가르치는 것이라고 생각한다"가 아닐지도 모릅니다 — 저는 누구도 그것을 진지하게 믿는다고 생각하지 않습니다. 제가 생각하는 진짜 허수아비 공격은 "사람들이 기법 (technique)이 지렛대라고 생각한다"에 더 가까우며, 이 논문은 그것이 대부분 그렇지 않다는 매우 강력한 근거를 제시합니다. 대신 명세 (Specification)가 대부분의 역할을 수행하고 있는 것일지도 모릅니다.

실제로 저의 관점을 재정립해 준 발견

그 논문에는 제가 예상치 못했던 두 번째 결과가 있는데, 그것은 제가 처음에 가졌던 교육학적 (pedagogy) 질문에 대한 답을 결국 제시해 주었습니다 — 다만 제가 생각했던 방향과는 달랐을 뿐입니다.

그들이 테스트한 71개의 서로 다른 프롬프트 구성 요소 중에서, 정밀도 (precision)와 재현율 (recall)을 동시에 개선한 것은 단 세 가지뿐이었습니다. 거의 모든 다른 것들은 트레이드오프 (trade-off) 관계였습니다 — 한 종류의 오류를 수정하면, 다른 종류의 오류가 발생했습니다. 문맥 (context)을 추가하는 것은 공짜가 아니었습니다. 그것은 문자 그대로의 통계적 의미에서 편향 (bias)처럼 작동했습니다. 즉, 거의 매번 결과를 이쪽 혹은 저쪽으로 기울게 만들었습니다.

그 무렵 저의 Bloom's 스레드도 스스로 해결되었습니다. 예상치 못했지만 아마 그랬어야 했을, 즉 무너짐으로써 말이죠. Bloom's는 _발달 (development)_을 위해 구축되었습니다. 전체 구조는 학습자가 무언가를 이해하기 전에는 그것을 신뢰성 있게 분석할 수 없다고 가정하며, 따라서 커리큘럼은 몇 주 또는 몇 달에 걸쳐 인지적 요구 (cognitive demand)를 순차적으로 배치합니다. LLM은 학생이 한 학기 동안 발달하는 방식처럼 대화 과정에서 실제로 발달하지 않습니다. 먼저 이해도를 입증한 뒤 평가를 받을 '준비가 되어가는' 과정이 아닙니다. 그래서 제가 실제로 관심을 가졌던 Bloom's의 부분인 — 순차적 배치 (sequencing) — 는 그대로 적용되지 않습니다. 남은 것은 일종의 레이블 세트, 즉 당신이 어떤 종류의 연산을 요구하는지 명명하는 방식에 가깝습니다. 여전히 유용하다고 생각하지만, 원래 기대했던 것보다는 규모가 작습니다.

적어도 제가 보기에는, 이것이 가리키는 방향

기술이 예상보다 덜 중요하고, 맥락이 측정 가능한 편향 (bias)처럼 작동한다는 이 두 가지 발견을 모두 설명할 수 있는 학문을 이름 붙여야 한다면, 저는 그것이 교육 (teaching)은 아니라고 생각합니다. 그것은 조사 방법론 (survey methodology)이나 구조화된 인터뷰 (structured interviewing)와 더 유사하게 느껴집니다. 즉, 당신의 질문이 은밀하게 답변을 형성하지 않도록 하면서 누군가로부터 진정한 신호 (signal)를 끌어내려는 실천법 말입니다.

좋은 설문 조사 질문이 실제로 무엇을 하려고 하는지 생각해 보십시오. "응답자를 내가 듣고 싶은 방향으로 유도하는 것"이 아닙니다. 오히려 그 반대입니다. 답변이 가능할 만큼 정밀하면서도, 응답자가 당신이 바랄 것이라고 추측하는 내용이 아니라 그 사람이 실제로 생각하는 것을 반영할 수 있을 만큼 중립적이어야 합니다. 잘 짜인 구조화된 인터뷰도 같은 방식으로 작동합니다. 잘 만들어진 심리 측정 (psychometric) 테스트 문항도 마찬가지입니다. 이 모든 것들을 관통하는 공통된 실마리는 '누출 없는 유도 (elicitation without leakage)'와 같습니다. 즉, 질문하는 행위가 신호를 오염시키지 않으면서 실제 신호를 끌어내는 것입니다.

이는 프롬프트가 제대로 작동할 때 실제로 일어나는 현상을

Insights

Chain-of-Thought가 핵심이 아닐 수도 있습니다. 어쩌면 Specification이 핵심일지도 모릅니다.

요약

핵심 포인트

처음에 제가 생각했던 방향

내가 테스트하고 있다는 사실조차 깨닫지 못했던 믿음

실제로 저의 관점을 재정립해 준 발견

적어도 제가 보기에는, 이것이 가리키는 방향

댓글

무료 도구를 사용하여 NextJS 웹사이트에 AI 챗봇 배포하기

AI 규칙을 스스로 검증 가능하게 만든 방법

MiniMax M3: 100만 토큰 컨텍스트와 최첨단 코딩 능력을 갖춘 최초의 오픈 웨이트 (Open-Weight) 모델

H-DenseUNet: CT 볼륨에서 간 및 종양 분할을 위한 하이브리드 밀집 연결 UNet (Hybrid Densely Connected

무료 도구를 사용하여 NextJS 웹사이트에 AI 챗봇 배포하기

AI 규칙을 스스로 검증 가능하게 만든 방법

MiniMax M3: 100만 토큰 컨텍스트와 최첨단 코딩 능력을 갖춘 최초의 오픈 웨이트 (Open-Weight) 모델

H-DenseUNet: CT 볼륨에서 간 및 종양 분할을 위한 하이브리드 밀집 연결 UNet (Hybrid Densely Connected