zjunlp/KnowAgent

요약

KnowAgent는 LLM 기반 에이전트의 계획 능력을 강화하기 위해 행동 지식 베이스를 활용하는 연구입니다. 행동 지식을 텍스트로 변환하여 모델이 궤적을 생성할 때 이를 활용하게 하며, 지식 기반 자기 학습을 통해 성능을 지속적으로 개선합니다.

핵심 포인트

행동 지식 베이스를 통한 에이전트의 계획 능력 강화
지식 기반 자기 학습(Knowledgeable Self-Learning) 프로세스 도입
ACL 2024 워크숍 최우수 논문상 수상 및 NAACL 2025 채택
HotpotQA 및 ALFWorld 데이터셋을 활용한 검증

우리의 개발은 몇 가지 핵심 단계에 기반합니다: 초기에 (Initially), 우리는 특정 작업과 관련된 행동 계획 지식을 통합한 광범위한 *행동 지식 베이스 (action knowledge base)*를 생성합니다. 이 데이터베이스는 정보의 외부 저장소 역할을 하여 모델의 행동 생성 과정을 안내합니다. 그 후 (Subsequently), 행동 지식을 텍스트로 변환함으로써, 모델이 행동 궤적 (action trajectories)을 생성할 때 이 지식을 깊이 이해하고 활용할 수 있도록 합니다. 마지막으로 (Finally), 지식 기반 자기 학습 (knowledgeable self-learning) 단계를 통해, 모델의 반복적인 프로세스로부터 개발된 궤적을 사용하여 행동 지식에 대한 이해와 적용 능력을 지속적으로 개선합니다. 이 과정은 에이전트의 계획 능력을 강화할 뿐만 아니라 복잡한 상황에서의 적용 잠재력도 향상시킵니다.

🌟 목차 (Table of Contents)
🔔 뉴스 (News)
🔧 설치 (Installation)
🗺️ 계획 경로 생성 (Planning Path Generation)
📝 지식 기반 자기 학습 (Knowledgeable Self-Learning)
🔖 인용 (Citation)
✨ 감사의 글 (Acknowledgement)

[2025-01] 저희 논문이 NAACL 2025 Findings에 채택되었습니다! [2024-08] 저희 논문이 ACL 2024의 KnowledgeNLP 워크숍에서 최우수 논문상 (Best Paper Award)을 수상했습니다! [2024-03] 새로운 논문을 공개합니다: "KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents".

KnowAgent를 시작하려면 다음의 간단한 설치 단계를 따르십시오:

git clone https://github.com/zjunlp/KnowAgent.git
cd KnowAgent
pip install -r requirements.txt

저희는 HotpotQA 및 ALFWorld 데이터셋을 각각 Path_Generation/alfworld_run/data와 Path_Generation/hotpotqa_run/data에 배치했습니다.

추가적인 설정을 위해, ALFWorld 및 FastChat의 원본 설정을 진행하는 것을 권장합니다.

계획 경로 생성 (Planning Path Generation) 프로세스는 KnowAgent의 필수적인 부분입니다. Path_Generation 디렉토리에서 계획 경로 생성을 실행하기 위한 스크립트, 구체적으로 run_alfworld.sh와 run_hotpotqa.sh를 찾을 수 있습니다. 이 스크립트들은 bash 명령어를 사용하여 실행할 수 있습니다. 사용자의 필요에 맞게 스크립트를 조정하려면 mode를 수정할 수 있습니다.

학습 (train) 모드와 테스트 (test) 모드 사이를 전환하려면 mode 파라미터를 사용하고, 다른 LLM (Large Language Model)을 사용하려면 llm_name 파라미터를 변경하십시오:

cd Path_Generation
# HotpotQA 학습을 위한 경우
python run_hotpotqa.py --llm_name llama-2-13b --max_context_len 4000 --mode train --output_path ../Self-Learning/trajs/
...

여기에서 필터링(Filtering) 전의 Llama-{7,13,70}b-chat에 의해 합성된 궤적(trajectories)들을 Google Drive에 공개합니다.

계획 경로(planning paths)와 그에 상응하는 궤적을 얻은 후, 지식 기반 자기 학습 (Knowledgeable Self-Learning) 프로세스가 시작됩니다. 생성된 궤적은 먼저 Self-Learning 디렉토리에 있는 스크립트를 사용하여 Alpaca 형식으로 변환되어야 합니다.

초기 반복(iterations)의 경우, traj_reformat.sh에 설명된 단계를 따르십시오:

cd Self-Learning
# HotpotQA의 경우
python train/Hotpotqa_reformat.py --input_path trajs/KnowAgentHotpotQA_llama-2-13b.jsonl --output_path train/datas
...

이후의 반복 단계에서는 궤적 재형성 (trajectory reformatting) 스크립트를 실행하기 전에 지식 기반 궤적 필터링 (Knowledge-Based Trajectory Filtering) 및 병합 (Merging)을 수행하는 것이 필수적입니다.
traj_merge_and_filter.sh를 사용하여 이를 수행할 수 있습니다:

python trajs/traj_merge_and_filter.py \
--task HotpotQA \
--input_path1 trajs/datas/KnowAgentHotpotQA_llama-2-13b_D0.jsonl \
...

다음으로, Self-Learning/train.sh 및 Self-Learning/train_iter.sh에 명시된 대로 train.sh와 train_iter.sh를 실행하여 자기 학습 (Self-Learning) 프로세스를 시작하십시오:

CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 deepspeed train/train_lora.py \
--model_name_or_path llama-2-13b-chat\
--lora_r 8 \
...

@article{zhu2024knowagent,
title={KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents},
author={Zhu, Yuqi and Qiao, Shuofei and Ou, Yixin and Deng, Shumin and Zhang, Ningyu and Lyu, Shiwei and Shen, Yue and Liang, Lei and Gu, Jinjie and Chen, Huajun},
...

KnowAgent의 개발에 큰 영향을 미친 다음 프로젝트의 제작자 및 기여자분들께 감사의 마음을 전합니다:

FastChat: 저희의 학습 모듈 (training module) 코드는 FastChat을 기반으로 수정되었습니다. FastChat을 방문해 보세요. LangChain을 통한 오픈 모델 (open models)과의 통합은 FastChat을 통해 용이하게 이루어집니다. LangChain 및 FastChat 통합에 대해 더 자세히 알아보세요.

BOLAA: 추론 모듈 (inference module) 코드는 BOLAA를 기반으로 구현되었습니다. BOLAA를 방문해 보세요.

ReAct, Reflexion, FireAct 및 기타 프로젝트의 추가적인 베이스라인 (baseline) 코드들이 활용되었으며, 이는 다양한 접근 방식과 방법론을 보여줍니다.

이 분야에 귀중한 기여를 해주신 모든 기여자분께 진심으로 감사드립니다!

저희는 버그를 수정하고 문제를 해결하기 위해 장기적인 유지보수를 제공할 예정입니다. 따라서 문제가 발생하면 Issue를 통해 저희에게 알려주시기 바랍니다.

AI 자동 생성 콘텐츠

원문 바로가기

zjunlp/KnowAgent

요약

핵심 포인트

댓글