allenai/lumos

🖋 저자 (Authors): Da Yin, Faeze Brahman, Abhilasha Ravichander, Khyathi Chandu, Kai-Wei Chang, Yejin Choi, Bill Yuchen Lin

우리는 🪄Lumos, 통합된 (Unified) 데이터 형식, 모듈형 (Modular) 설계, 그리고 오픈 소스 (Open-Source) LLM을 갖춘 언어 에이전트(Language Agents)를 소개합니다. Lumos는 일련의 복잡한 상호작용 작업(interactive tasks)을 통합하며, GPT-4/3.5 기반 에이전트 및 더 큰 규모의 오픈 소스 에이전트들과 경쟁할 만한 성능을 달성합니다.

Lumos는 다음과 같은 특징을 가집니다:

🧩
모듈형 아키텍처 (Modular Architecture):- 🧩
Lumos는 LLAMA-2-7B/13B 및 기성 API (off-the-shelf APIs)를 기반으로 구축된 계획 (planning), 접지 (grounding), 실행 (execution) 모듈로 구성됩니다. - 🤗
Lumos는 여러 작업 유형을 아우르는 통합된 데이터 형식을 활용하여, 개발된 에이전트 프레임워크가 다양한 상호작용 작업들을 편리하게 지원할 수 있도록 합니다.
🧩
🌍
다양한 학습 데이터 (Diverse Training Data):- 🌍
Lumos는 기존 벤치마크의 정답 추론 단계(ground-truth reasoning steps)로부터 GPT-4를 사용하여 추출한 약 56K개의 다양한 고품질 하위 목표/행동 (subgoal/action) 주석으로 학습되었습니다. - ⚒️
Lumos 데이터는 복잡한 상호작용 작업을 위한 오픈 소스 에이전트 개발 분야의 향후 연구에 도구로서 기여할 수 있습니다.
🌍
🚀
경쟁력 있는 성능 (Competitive Performance):- 🚀
Lumos는 웹/복잡한 QA 작업인 Mind2Web 및 HotpotQA에서 GPT 시리즈 (GPT-series) 에이전트와 대등하거나 심지어 능가하며, 수학 및 멀티모달 (multimodal) 작업에서는 **더 큰 규모의 오픈 에이전트 (larger open agents)**를 능가합니다. - 🚀
Lumos는 해당 도메인의 HotpotQA, Mind2Web 및 ScienceQA 주석으로 **미세 조정 (fine-tuned)**된 FiReAct, AgentLM, AutoAct와 같은 동시대 에이전트들을 능가합니다. - 🚀
Lumos는 생각의 사슬 (chain-of-thoughts) 및 통합된 (integrated) 학습을 포함한 오픈 에이전트 베이스라인 공식들보다 더 나은 성능을 보여줍니다. - 🚀
Lumos는 미학습 작업(unseen tasks)인 WebShop 및 InterCode_SQL에서 더 큰 규모의 오픈 LLM 에이전트 및 도메인 특화 에이전트들을 앞섭니다.
🚀

이 연구가 귀하의 연구와 관련이 있다고 판단되시면, 언제든지 저희의 연구를 인용해 주세요!

@article{yin2023lumos,
title={{Agent Lumos: Open-Source 언어 에이전트를 위한 통합 및 모듈형 학습 (Unified and Modular Training for Open-Source Language Agents)}},
author={Yin, Da and Brahman, Faeze and Ravichander, Abhilasha and Chandu, Khyathi and Chang, Kai-Wei and Choi, Yejin and Lin, Bill Yuchen},
...

[2024, Mar 18] 최신 Lumos 버전을 출시합니다:

📑
새로운 멀티모달 (multimodal) 작업과 13B 규모 모델 실험을 다루는 Lumos 논문 - 🤗
Lumos의 계획 (planning) 및 접지 (grounding) 과정을 보여주는 Lumos 데모
📑
[2023, Nov 8] Lumos의 학습 및 평가를 위한 주요 항목들을 출시합니다:
💻
주석 생성 (annotation generation), 학습 및 평가를 위한 Lumos 코드 - 🤗
7B 모델 크기의 Lumos 체크포인트 (checkpoints) - 🤗
Lumos 학습 주석 (training annotations) 및 원천 데이터 (raw data)
💻

./setup.sh

setup.sh에 있는 cudatoolkit 버전이 귀하의 로컬 cuda 버전과 일치하는지 확인해 주세요.

저희는 모든 학습 주석, 원천 데이터, 그리고 프롬프트로 변환된 주석을 하나의 Google Drive 폴더에 모아두었습니다. 아래 명령어로 다운로드할 수 있습니다.

cd data
python -c "import gdown; gdown.download_folder('https://drive.google.com/drive/folders/1ASFhOkhezgewVxR01dQg-8KUVR8IdBlY?usp=sharing', quiet=True)"

또한 🤗 Huggingface Datasets를 통해 계획 (planning) 및 접지 (grounding) 모듈을 위해 생성된 주석들을 제공합니다.

데이터셋 이름 (Dataset Names)	🤗 Huggingface 링크 (Huggingface Links)
lumos_complex_qa_iterative	Planning, Grounding
...

./train.sh [MODULE] [FORMULATION]

[MODULE]은

plan

또는

ground

가 될 수 있습니다. [FORMULATION]은

iterative

또는

onetime

이 될 수 있습니다.

scripts/train에 있는 finetune_llama2_plan_iterative.sh와 같은 학습 스크립트에서 미세 조정 (fine-tuning) 하이퍼파라미터와 미세 조정하고자 하는 특정 작업을 조정할 수 있습니다.

또한 미세 조정된 계획 (planning) 및 접지 (grounding) 모듈 체크포인트를 🤗 Huggingface에서 제공합니다.

모델 이름 (Model Names)	🤗 Huggingface 링크 (Huggingface Links)
lumos_complex_qa_iterative	Planning, Grounding
...

다양한 데이터셋에 대한 평가 (Evaluation) 스크립트는 scripts/eval 아래에 있습니다.

. 예를 들어, 다음 명령어를 실행하여 HotpotQA 데이터셋에 대해 Lumos를 평가할 수 있습니다:

./scripts/eval/hotpotqa.sh

저희는 기존의 가공되지 않은(raw) 벤치마크를 바탕으로 처음부터 학습용 주석 (training annotations)을 생성하기 위한 코드를 제공합니다.

주석을 생성하기 전에, 먼저 정답(ground-truth) 중간 추론 단계 (intermediate reasoning steps)를 제공하는 기존 벤치마크를 다운로드해야 합니다. 가공되지 않은 데이터는 이 Google Drive 폴더를 통해 다운로드할 수 있습니다.

python -m data.prompt_convertion \
--domain DOMAIN \
--data_fn DATA_FN \
...

domain은 수학 (maths), 복합 질의응답 (complex QA), 웹 에이전트 (web agent), 멀티모달 (multimodal)을 포함합니다. data_fn은 가공되지 않은 벤치마크가 저장된 경로입니다.

멀티모달 태스크 주석 생성 (multimodal task annotation generation)을 위해, data/train/multimodal/raw_data에 COCO 2017 학습 이미지 (train images)를 다운로드한 후 압축을 해제해 주세요.

LLAMA-2를 미세 조정 (finetune)할 수 있는 멋진 코드를 제공해 준 Tulu 팀에 깊은 감사를 드립니다. 또한 빠른 GPT 프롬프팅 (GPT prompting), HTML 전처리 (HTML preprocessing) 및 평가 도커 환경 (evaluation docker environment)을 제공해 준 zeno-build, Mind2Web, WebShop의 기여자분들께도 진심으로 감사드립니다.

allenai/lumos

요약

핵심 포인트

댓글