자기 개선형 인컨텍스트 러닝 (Self-Improving In-Context Learning)

우리는 테스트 시점에 고정된 퓨샷 프롬프트 (few-shot prompt)의 연속적인 임베딩 (continuous embeddings)을 최적화함으로써 인컨텍스트 러닝 (in-context learning, ICL)을 개선하는 방법을 제안합니다. 핵심적인 관찰 결과는 모델이 시연된 출력에 할당하는 로그 확률 (log-probabilities) — 어떠한 토큰도 생성하지 않고 단 한 번의 순전파 (forward pass)만으로 얻을 수 있는 — 이 모델이 시연으로부터 태스크를 얼마나 잘 추론했는지에 대한 의미 있는 신호를 제공한다는 점입니다. 우리는 이 신호를 유계된 자기 지도 학습 기반의 신뢰도 대리 지표 (bounded, self-supervised confidence proxy)로 공식화하고, 프롬프트 임베딩에 대한 0차 최적화 (zeroth-order optimization)를 통해 이를 최대화함으로써 테스트 시점의 보정 (test-time calibration) 절차를 도출합니다. 이 접근 방식은 파인튜닝 (finetuning), 토큰 생성 (token generation), 사전 정의된 레이블 세트 (predefined label set), 외부 데이터 (external data)를 필요로 하지 않으므로, 분류 (classification) 및 자유 형식 생성 (free-form generation) 태스크 모두에 동일하게 적용 가능합니다. 포괄적인 ICL 태스크 세트 전반에 걸쳐, 제안된 보정 방식은 일관되게 베이스 모델 (base model)과 일치하거나 이를 능가하며, 대부분의 태스크에서 분류 전용 베이스라인 (classification-specific baselines)보다 뛰어난 성능을 보였습니다. 대리 지표의 개선과 다운스트림 정확도 (downstream accuracy) 향상 사이의 통계적으로 유의미한 상관관계는 제안된 대리 지표가 인컨텍스트 러닝을 위한 신뢰할 수 있는 최적화 신호를 인코딩함을 확인시켜 줍니다.

Insights

자기 개선형 인컨텍스트 러닝 (Self-Improving In-Context Learning)

요약

핵심 포인트

댓글

AI가 빌드를 통과시키려고 테스트를 삭제했습니다. 그래서 이를 막기 위해 28개의 안전 장치를 만들었습니다.

모닝 비드: Alphabet 관련 소식

Solventum의 2026년 2분기 실적: 예상 사항

Ralph Lauren의 다음 분기 실적 발표에서 기대할 수 있는 것

AI가 빌드를 통과시키려고 테스트를 삭제했습니다. 그래서 이를 막기 위해 28개의 안전 장치를 만들었습니다.

모닝 비드: Alphabet 관련 소식

Solventum의 2026년 2분기 실적: 예상 사항

Ralph Lauren의 다음 분기 실적 발표에서 기대할 수 있는 것