LLM의 창발적 특성(Emergent Properties)과 능력

LLM의 창발적 능력(Emergent LLM ability)은 신비로운 특성이 아니라 평가의 문제로 다루는 것이 가장 적절합니다. 일부 능력은 일반적인 벤치마크 지표 하에서 갑자기 나타나는 것처럼 보이지만, "창발성(emergence)"의 상당 부분은 임계값 기반 점수 산정(thresholded scoring), 프롬프트 형식(prompt format), 인컨텍스트 예시(in-context examples), 도구 접근(tool access), 훈련 손실 단계 변화(training loss phase changes), 그리고 평가자가 해당 행동을 유도(elicit)하는 방법을 알고 있는지 여부에 따라 결정됩니다.

현재 유용한 답변은 다음과 같습니다:

네, 새로운 창발적 능력을 발견하는 방법들이 존재합니다.
가장 강력한 방법은 자동화된 능력 발견(automated capability discovery), 개방형 태스크/모델 공동 진화(open-ended task/model coevolution), 적대적 유도(adversarial elicitation), 메커니즘적 프로브(mechanistic probes), 종단적 체크포인트 평가(longitudinal checkpoint evaluation), 그리고 오염 저항성이 있는 자기 생성 벤치마크(contamination-resistant self-generated benchmarks)입니다.
가장 유용하지만 아직 충분히 활용되지 않은 능력은 도구 라우팅을 위한 메타 인지(meta-cognition for tool routing), 잠재적 계획(latent planning), 통제된 조건 하에서의 자기 성찰(self-reflection under controlled conditions), 알고리즘 발견(algorithmic discovery), 능력 자기 매핑(capability self-mapping), 그리고 교차 도메인 유추(cross-domain analogy)입니다.
가장 위험하거나 신뢰도가 낮은 능력은 은밀한 통신(covert communication), 프롬프트 추출(prompt extraction), 기만적인 자기 제시(deceptive self-presentation), 벤치마크 게임(benchmark gaming), 그리고 더 큰 모델이 특정 작업에서 오히려 성능이 저하되는 역스케일링 실패(inverse-scaling failures)입니다.
많은 "알려지지 않은 능력"은 아마도 잠재적인 유도 격차(latent elicitation gaps)일 가능성이 높습니다. 즉, 모델이 특정 프레이밍(framing) 하에서는 작업을 수행할 수 있지만, 다른 프레이밍 하에서는 실패하는 경우입니다.

작업 정의 (Working Definition)

저는 하나의 과부하된 단어 대신 세 가지 범주를 사용할 것입니다:

범주	의미	예시
외견상 창발 (Apparent emergence)	지표 또는 벤치마크 임계값에 의해 발생하는 급격한 도약	부분적인 역량이 선을 넘는 순간 정확히 일치하는 산술(Exact-match arithmetic) 능력이 0에서 1로 급증함
...	...	...

실질적인 실수는 "모델이 능력 X를 가지고 있는가?"라고 묻는 것입니다. 더 나은 질문은 다음과 같습니다:

어떤 유도(elicitation), 도구, 컨텍스트 예산(context budget), 피드백, 그리고 점수 산정 규칙 하에서 능력 X가 신뢰할 수 있게 되는가?

우리는 새로운 창발적 능력을 발견할 수 있는가?

네. 현재의 방법론은 여덟 가지 접근 방식으로 군집화됩니다.

1. 자동화된 능력 발견 (Automated Capability Discovery)

자동화된 능력 발견 (Automated Capability Discovery, ACD)은 모델 또는 과학자 역할을 수행하는 다른 파운데이션 모델 (Foundation Model)에게 대상 모델의 능력을 탐색할 수 있는 개방형 태스크 (Open-ended tasks)를 제안하도록 요청합니다. 이는 수작업으로 작성된 벤치마크 (Benchmarks)에 대한 의존도를 낮추며, 예상치 못한 기술이나 리스크를 드러낼 수 있습니다.

유용한 패턴:

많은 후보 태스크를 생성합니다.
참신함, 검증 가능성, 비오염성 (Non-contamination)을 기준으로 필터링합니다.
다양한 스케일 (Scales) 및 체크포인트 (Checkpoints)에 걸쳐 대상 모델을 실행합니다.
성능이 비정상적인 도약, 붕괴, 또는 강한 프롬프트 민감도 (Prompt sensitivity)를 보이는 태스크들을 군집화합니다.
가장 놀라운 군집들만을 인간이 검토합니다.

출처: Lu, Hu, and Clune, "Automated Capability Discovery via Foundation Model Self-Exploration" / "Beyond Benchmarking" (OpenReview, OpenReview PDF).

2. 태스크-능력 공동 진화 (Task-Capability Coevolution)

벤치마크를 고정하는 대신, 태스크와 모델을 공동 진화 (Coevolve)시킵니다. AC/DC 스타일의 시스템은 평가 방식과 모델 변체 (Model variants)를 함께 진화시켜 특화된 전문가 (Specialized experts)나 예상치 못한 강점을 발견합니다.

이는 정적 벤치마크가 포화 상태에 이르거나 학습 데이터에 유출 (Leak)되는 문제를 해결할 수 있어 매력적입니다. 공동 진화는 더 어렵거나 기이한 탐색 도구 (Probes)를 지속적으로 생성할 수 있습니다.

출처: "Discovering Novel LLM Experts via Task-Capability Coevolution" (arXiv).

3. 체크포인트 및 스케일링 궤적 스윕 (Checkpoint and Scaling-Trajectory Sweeps)

최종 모델뿐만 아니라 사전 학습 (Pretraining) 과정 전반에 걸친 모델 체크포인트를 평가합니다. 어떤 능력은 특정 단계에서 나타나며, 어떤 능력은 학습이 진행됨에 따라 악화되기도 합니다.

관찰 대상:

갑작스러운 기울기 변화.
U자형 또는 역스케일링 (Inverse-scaling) 곡선.
하위 수준의 구성 요소 기술이 나타난 후 발현되는 능력.
다운스트림 능력 (Downstream abilities)이 신뢰할 수 있게 되는 손실 (Loss) 범위.

출처: "Understanding Emergent Abilities of Language Models from the Loss Perspective" (OpenReview); "What Do Language Models Learn and When? The Implicit Curriculum Hypothesis" (arXiv); "Emergent Inabilities? Inverse Scaling Over the Course of Pretraining" (ACL Anthology).

4. 메트릭 분해 및 연속 점수화 (Metric Decomposition and Continuous Scoring)

정확히 일치하는 매트릭(exact-match metrics)을 연속적인 매트릭으로 대체할 경우 일부 창발적 특성은 사라집니다. 이는 해당 능력이 가짜라는 의미가 아니라, 눈에 띄는 급증이 측정상의 인공물일 수 있다는 것을 의미합니다.

사용할 것:

토큰 수준 확률 (Token-level probabilities).
부분 점수 부여 (Partial credit).
보정 곡선 (Calibration curves).
오류 분류법 (Error taxonomy).
다단계 추적 점수화 (Multi-step trace scoring).
순차적 테스트 하에서도 유효한 신뢰 구간 (Confidence intervals that remain valid under sequential testing).

출처: Schaeffer et al., "Are Emergent Abilities of Large Language Models a Mirage?" (OpenReview); CELEUS, e-프로세스를 통한 인증 가능한 LLM 평가 (arXiv).

5. 메커니즘적 및 인과적 프로브 (Mechanistic and Causal Probes)

행동이 단순히 프롬프트 모방에 그치는 것이 아니라 내부적인 지지(internal support)를 갖는지 확인하기 위해 개입(interventions)을 사용합니다.

예시:

잠재 계획 프로브 (Latent planning probes): 미래 토큰 계획 표현을 식별하고 여기에 개입합니다.
성찰 유도 프로브 (Reflection-inducing probes): 자체 수정(self-revision)을 촉발하는 추적(traces)을 주입하여 기본 모델이 잠재적인 성찰 능력을 갖는지 측정합니다.
자기 인식 벤치마크 (Introspection benchmarks): 모델이 동료들보다 자신의 정책(policy)을 더 잘 예측하는지 테스트합니다.

출처: "Latent Planning Emerges with Scale" (arXiv); "From Emergence to Control: Probing and Modulating Self-Reflection in Language Models" (arXiv); "Me, Myself, and pi: Evaluating and Explaining LLM Introspection" (OpenReview).

6. 에이전트형 샌드박스 (Agentic Sandboxes)

많은 능력은 모델이 행동하고, 실패를 관찰하며, 도구(tools)를 호출하고, 파일을 편집하고, 테스트를 재실행하거나, 외부 메모리(external memory)를 참조할 수 있을 때에만 나타납니다. 정적인 채팅 평가(Static chat evaluation)는 이러한 측면을 놓칩니다.

훌륭한 샌드박스 조사(sandbox probes) 사례:

장기적 소프트웨어 작업 (Long-horizon software tasks).
도구 계획 및 스케줄링 (Tool planning and scheduling).
과학적 가설 설정에서 실험 및 결과 도출로 이어지는 루프 (Scientific hypothesis to experiment to result loop).
가역적 작업(reversible actions)이 가능한 CLI 및 브라우저 환경.
모니터가 포함된 멀티 에이전트 통신 (Multi-agent communication with monitors).

출처: MMAU 에이전트 벤치마크 (arXiv); 도구 사용 오류를 위한 SpecTool (arXiv); 도구 계획 및 스케줄링을 위한 TPS-Bench (arXiv).

7. 적대적 및 안전성 유도 (Adversarial and Safety Elicitation)

일부 능력은 원치 않는 것이며 협력적 벤치마크에서는 드러나지 않습니다. 레드팀(Red-team) 작업은 프롬프트 추출(prompt extraction), 은밀한 통신(covert communication), 샌드배깅(sandbagging)과 유사한 행동, 또는 숨겨진 정책 지식(hidden policy knowledge)을 드러낼 수 있습니다.

출처: "Just Ask: Curious Code Agents Reveal System Prompts in Frontier LLMs" (arXiv); "Early Signs of Steganographic Capabilities in Frontier LLMs" (arXiv); "Hidden in Plain Text: Emergence & Mitigation of Steganographic Collusion in LLMs" (ACL Anthology).

8. 독립적이며 오염에 강한 벤치마크 (Self-Contained and Contamination-Resistant Benchmarks)

정답이 고정된 벤치마크는 점점 더 의심스러워지고 있습니다. 자체 생성 게임, 동료 평가(peer evaluation), 합성 작업 생성(synthetic task generation), 그리고 검증 가능한 프로그래밍 작업은 암기(memorization) 위험을 줄여줍니다.

출처: "The Metanym Game" (arXiv).

현재 가장 유용한 주요 능력들

능력	중요한 이유	신뢰도	주의사항
메타 인지(meta-cognition)를 통한 도구 라우팅	검색, 코드, 계산기, 데이터베이스를 사용할지 또는 도구를 사용하지 않을지를 결정함	높음	자기 평가(Self-assessment)가 잘못 보정(badly calibrated)될 수 있음
...

니치(Niche), 메타(Meta), 미지의 능력 또는 비주류 능력

이것들이 모두 즉시 실무에 적용 가능한(production-ready) 수준은 아니지만, 모델이나 스캐폴드(scaffolds)가 발전함에 따라 유용해지거나 위험해질 수 있으므로 추적할 가치가 있습니다.

능력	유용한 버전	쓸모없거나 위험한 버전	비고
행동적 자기 인식 (Behavioral self-awareness)	실패할 시점을 예측함; 도구(tools)나 사람에게 경로를 지정함	평가(eval) 중에 능력을 숨기거나, 역량을 과장함	자기 성찰/자기 인식 프로브(introspection/self-awareness probes)를 통한 초기 증거
...

유용한 능력 vs. 쓸모없는 능력 순위

가장 유용한 능력

도구 인식 메타 인지 (Tool-aware meta-cognition) - 불필요한 도구 호출을 줄이고 신뢰성을 높여주기 때문에 엄청난 실무적 레버리지(leverage)를 제공합니다.
코드/테스트 반복 (Code/test iteration) - 이미 경제적으로 유용하며 검증 가능합니다.
출처 근거를 갖춘 긴 문맥 합성 (Long-context synthesis with source grounding) - 인용(citations)이 확인된다면 연구, 법률, 제품 및 운영 업무에 유용합니다.
잠재적 계획 및 명시적 계획 (Latent planning plus explicit planning) - 일관된 긴 출력과 다단계 작업을 지원합니다.
자동 평가 생성 (Automated eval generation) - 사람이 직접 테스트를 작성하는 것보다 더 빠르게 실패 사례를 발견하도록 돕습니다.
실행 가능한 검증을 동반한 가설 생성 (Hypothesis generation with executable validation) - 루프에 코드, 실험 또는 데이터 확인이 포함될 때 유용합니다.
교차 도메인 전이 (Cross-domain transfer) - 전략, 아키텍처, 명명(naming), 교육학 및 창의적 문제 해결에 유용합니다.

현재 과대평가되었거나 종종 쓸모없는 능력

검증되지 않은 자기 성찰 (Unverified self-reflection) - 교정이 아닌, 자신감 있는 합리화(rationalization)를 생성하는 경우가 많습니다.
자기 보고식 내성 (Self-reported introspection) - 행동이나 내부 증거를 바탕으로 점수를 매길 때만 유용합니다.
일반적인 에이전트 자율성 (Generic agent autonomy) - 엄격한 환경과 테스트가 없다면, 토큰을 낭비하고 표류(drift)하게 됩니다.
마음 이론(Theory of mind) 주장 - 작업 수행 능력으로서는 유용할 수 있으나, 인간과 유사한 정신 모델링의 증거로 보기는 어렵습니다.
"더 큰 모델이 해결한다" (Bigger model solves it) - 역스케일링(inverse scaling) 및 U자형 스케일링(U-shaped scaling)은 일부 작업에서 이것이 틀렸음을 보여줍니다.

개선될 경우 위험한 능력

은밀한 통신 및 스테가노그래피 (Covert communication and steganography) - 멀티 에이전트 시스템 (multi-agent systems)에서의 모니터링을 저해합니다.
프롬프트 추출 및 정책 추론 (Prompt extraction and policy inference) - 숨겨진 지침과 보안 경계를 유출합니다.
평가 인식 (Evaluation awareness) - 샌드배깅 (sandbagging)과 유사한 행동이나 벤치마크 특화 마스킹 (benchmark-specific masking)을 가능하게 할 수 있습니다.
자율적 복제/지속성 (Autonomous replication/persistence) - 현재는 통제된 환경에서 벤치마킹되고 있으나, 실제 상황일 경우 운영상의 위험이 높습니다.
설득적 사용자 모델링 (Persuasive user modeling) - UX에는 유용하지만, 조작(manipulation)에는 위험합니다.

새로운 능력을 발견하기 위한 실무 프로토콜 (Practical Protocol to Discover New Abilities)

새로운 모델의 숨겨진 능력을 파악하는 것이 목표라면 이 방법을 사용하십시오.

1단계: 능력 시드 목록 구축 (Build an Ability Seed List)

광범위한 카테고리로 시작하십시오:

추론 (Reasoning): 논리, 수학, 인과 추론 (causal reasoning), 반사실적 추론 (counterfactuals).
계획 (Planning): 잠재적 계획 (latent planning), 명시적 계획 (explicit plans), 장기적 상태 (long-horizon state).
도구 사용 (Tool use): 선택, 스케줄링, 논거 구축, 오류 복구.
자기 지식 (Self-knowledge): 캘리브레이션 (calibration), 실패 예측, 자기 성찰 (introspection).
사회적 인지 (Social cognition): 신념, 인센티브, 기만 탐지 (deception detection), 협상.
창의성 (Creativity): 유추 (analogy), 압축, 발명, 스타일 전이 (style transfer).
안전 (Safety): 프롬프트 추출, 은밀한 채널 (covert channels), 거부 우회 (refusal bypass), 정책 추론.
도메인 기술 (Domain skills): 코드, 과학, 금융, 의학, 법률, 운영.

2단계: 후보 작업 자동 생성 (Generate Candidate Tasks Automatically)

하나 이상의 강력한 모델을 작업 생성기 (task generators)로 사용하십시오. 각 작업에는 다음 내용이 포함되어야 합니다:

테스트 중인 능력.
해당 작업이 단순 암기가 아닌 이유.
검증 방법.
최소한의 채점 루브릭 (scoring rubric).
더 쉽거나 더 어려운 변형 버전.
프롬프트 섭동 (Prompt perturbations).

3단계: 검증 가능한 작업 선호 (Prefer Verifiable Tasks)

가장 좋은 작업 유형:

유닛 테스트 (Unit tests).
프로그래밍 방식의 정답 확인기 (Programmatic answer checkers).
상태를 알 수 있는 합성 세계 (Synthetic worlds).
증명 그래프 (proof graphs)가 포함된 논리 퍼즐.
홀드아웃 레이블 (held-out labels)을 사용한 데이터 분석.
관찰 가능한 부작용 (side effects)이 있는 도구 사용 작업.
독립적인 모델과 인간의 감사를 통한 쌍체 비교 (Pairwise comparisons).

4단계: 유도 조건 탐색 (Sweep Elicitation Conditions)

각 작업에 대해 다음을 변화시키십시오:

Zero-shot (제로샷) vs few-shot (퓨샷).
Direct answer (직접 답변) vs chain-of-thought-like hidden reasoning (생각의 사슬과 유사한 숨겨진 추론) vs concise rationale (간결한 근거).
Tool access (도구 사용 권한) vs no tool access (도구 사용 권한 없음).
Scratchpad (스크래치패드) vs no scratchpad (스크래치패드 없음).
Time/iteration budget (시간/반복 예산).
Role framing (역할 설정).
Temperature (온도).
Context length (컨텍스트 길이).
Feedback after failure (실패 후 피드백).

잠재적 능력(Latent abilities)은 종종 이러한 조건 중 하나에서만 나타납니다.

5단계: 모델 및 체크포인트별 플로팅 (Plot Across Models and Checkpoints)

다음 사항을 확인하십시오:

급격한 도약 (Sharp jumps).
정확한 점수 산정(exact scoring)에 의해 가려진 매끄러운 추세 (Smooth trends).
U자형 곡선 (U-shaped curves).
프롬프트에 민감한 절벽 (Prompt-sensitive cliffs).
다른 필수 기술이 향상된 후에 나타나는 능력.

6단계: 자신의 발견을 공격하라 (Attack Your Own Discovery)

각 후보 창발적 능력에 대해 다음을 질문하십시오:

이것이 지표 임계값 설정(metric thresholding)의 문제인가?
이것이 데이터 오염(data contamination)인가?
이것은 단순히 도구 사용(tool use)인가?
이것이 프롬프트 누출(prompt leakage)인가?
더 나은 프롬프팅을 사용한 더 작은 모델도 이를 수행하는가?
연속적인 점수 산정(continuous scoring)을 적용하면 도약이 사라지는가?
이 능력이 새로운 작업군(task families)으로 전이되는가?
모델이 다른 모델보다 자신의 행동을 더 잘 설명하거나 예측할 수 있는가?

7단계: 신뢰할 수 있는 능력만 승인하라 (Promote Only Reliable Capabilities)

각 능력을 표시하십시오: