Strategy-Induct: 지시문 생성을 위한 태스크 수준의 전략 유도 (Strategy Induction)

효과적인 태스크 수준의 프롬프트 (task-level prompts)를 설계하는 것은 대규모 언어 모델 (LLMs)의 성능을 향상시키는 데 매우 중요합니다. 지시문 유도 (instruction induction)에 관한 기존 연구들은 LLMs가 제한된 예시만으로도 더 나은 지시문을 추론할 수 있음을 보여주었지만, 기존 방식들은 종종 입력-출력 쌍 (input-output pairs)에 의존하며, 이 경우 라벨링된 정답을 얻는 것이 어렵거나 비용이 많이 들 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 라벨링된 정답 없이 오직 소수의 예시 질문 세트만으로 태스크 수준의 지시문을 도출하는 프레임워크인 Strategy-Induct를 제안합니다. 우리의 접근 방식은 먼저 모델이 각 질문에 대한 명시적인 추론 전략 (reasoning strategies)을 생성하도록 유도하여 (전략, 질문) 쌍을 형성합니다. 이후 이 쌍들을 사용하여 추론을 가이드하는 태스크 지시문을 유도합니다. 다양한 태스크와 모델 규모에 걸친 실험을 통해, Strategy-Induct가 질문만 있는 설정 (question-only settings)에서 최첨단 (state-of-the-art) 방법들보다 뛰어난 성능을 보임을 입증했습니다. 나아가, 태스크 지시문 생성 및 추론 과정 전반에서 LLMs와 대규모 추론 모델 (Large Reasoning Models)을 공동으로 활용하는 것이 추가적인 성능 향상으로 이어질 수 있음을 관찰했습니다.

Insights

Strategy-Induct: 지시문 생성을 위한 태스크 수준의 전략 유도 (Strategy Induction)

요약

핵심 포인트

댓글

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리

OpenAI, GPT‑Live 공개

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리

OpenAI, GPT‑Live 공개