allenai/lumos
요약
AllenAI에서 발표한 Lumos는 통합된 데이터 형식과 모듈형 설계를 갖춘 오픈 소스 언어 에이전트 프레임워크입니다. Llama-2 기반의 계획, 접지, 실행 모듈을 통해 GPT-4와 대등하거나 더 큰 규모의 오픈 소스 에이전트를 능가하는 성능을 보여줍니다.
핵심 포인트
- 모듈형 아키텍처(계획, 접지, 실행)를 통한 효율적 설계
- GPT-4를 활용해 추출한 56K개의 고품질 하위 목표/행동 데이터셋 활용
- Mind2Web, HotpotQA 등 주요 벤치마크에서 GPT 시리즈와 대등한 성능 달성
- 멀티모달 및 수학 작업에서 대규모 오픈 소스 에이전트 능가
🖋 저자 (Authors): Da Yin, Faeze Brahman, Abhilasha Ravichander, Khyathi Chandu, Kai-Wei Chang, Yejin Choi, Bill Yuchen Lin
우리는 🪄Lumos, 통합된 (Unified) 데이터 형식, 모듈형 (Modular) 설계, 그리고 오픈 소스 (Open-Source) LLM을 갖춘 언어 에이전트(Language Agents)를 소개합니다. Lumos는 일련의 복잡한 상호작용 작업(interactive tasks)을 통합하며, GPT-4/3.5 기반 에이전트 및 더 큰 규모의 오픈 소스 에이전트들과 경쟁할 만한 성능을 달성합니다.
Lumos는 다음과 같은 특징을 가집니다:
-
🧩
모듈형 아키텍처 (Modular Architecture):- 🧩
Lumos는 LLAMA-2-7B/13B 및 기성 API (off-the-shelf APIs)를 기반으로 구축된 계획 (planning), 접지 (grounding), 실행 (execution) 모듈로 구성됩니다. - 🤗
Lumos는 여러 작업 유형을 아우르는 통합된 데이터 형식을 활용하여, 개발된 에이전트 프레임워크가 다양한 상호작용 작업들을 편리하게 지원할 수 있도록 합니다. -
🧩
-
🌍
다양한 학습 데이터 (Diverse Training Data):- 🌍
Lumos는 기존 벤치마크의 정답 추론 단계(ground-truth reasoning steps)로부터 GPT-4를 사용하여 추출한 약 56K개의 다양한 고품질 하위 목표/행동 (subgoal/action) 주석으로 학습되었습니다. - ⚒️
Lumos 데이터는 복잡한 상호작용 작업을 위한 오픈 소스 에이전트 개발 분야의 향후 연구에 도구로서 기여할 수 있습니다. -
🌍
-
🚀
경쟁력 있는 성능 (Competitive Performance):- 🚀
Lumos는 웹/복잡한 QA 작업인 Mind2Web 및 HotpotQA에서 GPT 시리즈 (GPT-series) 에이전트와 대등하거나 심지어 능가하며, 수학 및 멀티모달 (multimodal) 작업에서는 **더 큰 규모의 오픈 에이전트 (larger open agents)**를 능가합니다. - 🚀
Lumos는 해당 도메인의 HotpotQA, Mind2Web 및 ScienceQA 주석으로 **미세 조정 (fine-tuned)**된 FiReAct, AgentLM, AutoAct와 같은 동시대 에이전트들을 능가합니다. - 🚀
Lumos는 생각의 사슬 (chain-of-thoughts) 및 통합된 (integrated) 학습을 포함한 오픈 에이전트 베이스라인 공식들보다 더 나은 성능을 보여줍니다. - 🚀
Lumos는 미학습 작업(unseen tasks)인 WebShop 및 InterCode_SQL에서 더 큰 규모의 오픈 LLM 에이전트 및 도메인 특화 에이전트들을 앞섭니다. -
🚀
이 연구가 귀하의 연구와 관련이 있다고 판단되시면, 언제든지 저희의 연구를 인용해 주세요!
@article{yin2023lumos,
title={{Agent Lumos: Open-Source 언어 에이전트를 위한 통합 및 모듈형 학습 (Unified and Modular Training for Open-Source Language Agents)}},
author={Yin, Da and Brahman, Faeze and Ravichander, Abhilasha and Chandu, Khyathi and Chang, Kai-Wei and Choi, Yejin and Lin, Bill Yuchen},
...
[2024, Mar 18] 최신 Lumos 버전을 출시합니다:
-
📑
새로운 멀티모달 (multimodal) 작업과 13B 규모 모델 실험을 다루는 Lumos 논문 - 🤗
Lumos의 계획 (planning) 및 접지 (grounding) 과정을 보여주는 Lumos 데모 -
📑
[2023, Nov 8] Lumos의 학습 및 평가를 위한 주요 항목들을 출시합니다: -
💻
주석 생성 (annotation generation), 학습 및 평가를 위한 Lumos 코드 - 🤗
7B 모델 크기의 Lumos 체크포인트 (checkpoints) - 🤗
Lumos 학습 주석 (training annotations) 및 원천 데이터 (raw data) -
💻
./setup.sh
setup.sh에 있는 cudatoolkit 버전이 귀하의 로컬 cuda 버전과 일치하는지 확인해 주세요.
저희는 모든 학습 주석, 원천 데이터, 그리고 프롬프트로 변환된 주석을 하나의 Google Drive 폴더에 모아두었습니다. 아래 명령어로 다운로드할 수 있습니다.
cd data
python -c "import gdown; gdown.download_folder('https://drive.google.com/drive/folders/1ASFhOkhezgewVxR01dQg-8KUVR8IdBlY?usp=sharing', quiet=True)"
또한 🤗 Huggingface Datasets를 통해 계획 (planning) 및 접지 (grounding) 모듈을 위해 생성된 주석들을 제공합니다.
| 데이터셋 이름 (Dataset Names) | 🤗 Huggingface 링크 (Huggingface Links) |
|---|---|
| lumos_complex_qa_iterative | Planning, Grounding |
| ... |
./train.sh [MODULE] [FORMULATION]
[MODULE]은
plan
또는
ground
가 될 수 있습니다. [FORMULATION]은
iterative
또는
onetime
이 될 수 있습니다.
scripts/train에 있는 finetune_llama2_plan_iterative.sh와 같은 학습 스크립트에서 미세 조정 (fine-tuning) 하이퍼파라미터와 미세 조정하고자 하는 특정 작업을 조정할 수 있습니다.
또한 미세 조정된 계획 (planning) 및 접지 (grounding) 모듈 체크포인트를 🤗 Huggingface에서 제공합니다.
| 모델 이름 (Model Names) | 🤗 Huggingface 링크 (Huggingface Links) |
|---|---|
| lumos_complex_qa_iterative | Planning, Grounding |
| ... |
다양한 데이터셋에 대한 평가 (Evaluation) 스크립트는 scripts/eval 아래에 있습니다.
. 예를 들어, 다음 명령어를 실행하여 HotpotQA 데이터셋에 대해 Lumos를 평가할 수 있습니다:
./scripts/eval/hotpotqa.sh
저희는 기존의 가공되지 않은(raw) 벤치마크를 바탕으로 처음부터 학습용 주석 (training annotations)을 생성하기 위한 코드를 제공합니다.
주석을 생성하기 전에, 먼저 정답(ground-truth) 중간 추론 단계 (intermediate reasoning steps)를 제공하는 기존 벤치마크를 다운로드해야 합니다. 가공되지 않은 데이터는 이 Google Drive 폴더를 통해 다운로드할 수 있습니다.
python -m data.prompt_convertion \
--domain DOMAIN \
--data_fn DATA_FN \
...
domain은 수학 (maths), 복합 질의응답 (complex QA), 웹 에이전트 (web agent), 멀티모달 (multimodal)을 포함합니다. data_fn은 가공되지 않은 벤치마크가 저장된 경로입니다.
멀티모달 태스크 주석 생성 (multimodal task annotation generation)을 위해, data/train/multimodal/raw_data에 COCO 2017 학습 이미지 (train images)를 다운로드한 후 압축을 해제해 주세요.
LLAMA-2를 미세 조정 (finetune)할 수 있는 멋진 코드를 제공해 준 Tulu 팀에 깊은 감사를 드립니다. 또한 빠른 GPT 프롬프팅 (GPT prompting), HTML 전처리 (HTML preprocessing) 및 평가 도커 환경 (evaluation docker environment)을 제공해 준 zeno-build, Mind2Web, WebShop의 기여자분들께도 진심으로 감사드립니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub AI Coding Assistants의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기