om-ai-lab/OmAgent

요약

OmAgent는 멀티모달 언어 에이전트를 쉽고 단순하게 구축할 수 있도록 설계된 Python 라이브러리입니다. 복잡한 오케스트레이션 과정을 백그라운드에서 처리하며, VLM 지원 및 그래프 기반 워크플로우를 통해 텍스트, 이미지, 비디오를 아우르는 에이전트 개발을 지원합니다.

핵심 포인트

복잡한 엔지니어링 없이 단순한 인터페이스로 에이전트 정의 가능
VLM, 비디오 처리, 모바일 연결 등 네이티브 멀티모달 기능 지원
ReAct, CoT 등 최첨단 에이전트 알고리즘 세트 포함
Ollama 등을 활용한 로컬 모델 배포 및 분산 아키텍처 지원

OmAgent는 멀티모달 언어 에이전트 (multimodal language agents)를 쉽게 구축할 수 있도록 설계된 Python 라이브러리입니다. 저희는 다른 에이전트 프레임워크 (agent framework)와 달리 과도한 오버헤드 없이 라이브러리를 단순하게 (simple) 유지하고자 노력합니다.

저희는 복잡한 엔지니어링 (작업자 오케스트레이션 (worker orchestration), 작업 큐 (task queue), 노드 최적화 (node optimization) 등)을 백그라운드에서 처리하며, 사용자가 에이전트를 정의할 수 있는 매우 사용하기 쉬운 인터페이스만을 제공합니다.
또한 재사용 가능한 에이전트 구성 요소를 위한 유용한 추상화 (abstractions)를 지원하여, 이러한 기본 구성 요소들을 결합해 복잡한 에이전트를 구축할 수 있습니다.
또한 VLM 모델에 대한 네이티브 지원, 비디오 처리 (video processing), 모바일 기기 연결 등 멀티모달 에이전트에 필요한 기능들을 제공하여, 개발자와 연구자들이 텍스트뿐만 아니라 이미지, 비디오, 오디오 입력을 바탕으로 추론할 수 있는 에이전트를 쉽게 구축할 수 있도록 돕습니다.
그래프 기반 워크플로우 오케스트레이션 엔진 (graph-based workflow orchestration engine)과 문맥적 추론 (contextual reasoning)을 가능하게 하는 다양한 메모리 유형을 제공하는 유연한 에이전트 아키텍처 (agent architecture).
VLM 모델, 실시간 API, 컴퓨터 비전 (computer vision) 모델, 모바일 연결 등을 포함한 네이티브 멀티모달 상호작용 지원.
단순한 LLM 추론을 넘어선 ReAct, CoT, SC-Cot 등 최첨단 유니모달 (unimodal) 및 멀티모달 에이전트 알고리즘 세트.
모델의 로컬 배포 (local deployment) 지원. Ollama 또는 LocalAI를 사용하여 자신만의 모델을 로컬에 배포할 수 있습니다.
완전 분산 아키텍처 (fully distributed architecture)로 커스텀 스케일링 (custom scaling)을 지원합니다. 또한 미들웨어 배포가 필요 없는 라이트 모드 (Lite mode)도 지원합니다.
python >= 3.10
omagent_core 설치

pip를 사용하여 omagent_core 최신 릴리스를 설치하세요. 또는 아래와 같이 소스 코드에서 최신 버전을 설치할 수 있습니다.
pip install omagent-core

pip install -e omagent-core

container.yaml 파일은 시스템의 다양한 구성 요소에 대한 종속성 및 설정을 관리하는 설정 파일입니다. 구성을 설정하려면 다음을 수행하세요:

container.yaml 파일을 생성합니다:

cd examples/step1_simpleVQA python compile_container.py

이렇게 하면 examples/step1_simpleVQA 아래에 기본 설정이 적용된 container.yaml 파일이 생성됩니다.

container.yaml 설정에 대한 자세한 정보는 container 모듈을 참조하십시오.

configs/llms/gpt.yml에서 LLM 설정을 구성하십시오.

환경 변수를 통하거나 yml 파일을 직접 수정하여 OpenAI API 키 또는 호환 가능한 엔드포인트(endpoint)를 설정합니다.

export custom_openai_key="your_openai_api_key" export custom_openai_endpoint="your_openai_endpoint"

로컬에 배포된 Ollama를 사용하여 자체 언어 모델을 호출할 수 있습니다. 튜토리얼은 여기에 있습니다.

웹페이지 GUI를 통해 간단한 VQA 데모를 실행합니다:

WebpageClient 사용 시: 입력과 출력이 웹페이지에 표시됩니다.

cd examples/step1_simpleVQA python run_webpage.py

http://127.0.0.1:7860에서 웹페이지를 열면 다음과 같은 인터페이스가 나타납니다:

비디오 이해 에이전트(video understanding agents)를 사용하여 업로드된 비디오에 대한 모든 질문에 답할 수 있는 시스템을 구축하십시오. Gradio 기반 애플리케이션을 제공하며, 자세한 내용은 여기서 확인하십시오.

비디오 이해 에이전트에 대한 더 자세한 내용은 논문에서 확인할 수 있습니다.

Google Astral과 같이 자신만의 멀티모달(multimodal) 어시스턴트를 2분 만에 구축하십시오. 자세한 내용은 여기서 확인하십시오.

우리는 CoT, ReAct 등을 재사용 가능한 에이전트 워크플로우(agentic workflows)로 정의하여 **에이전트 연산자 (agent operators)**라고 부릅니다. 이 프로젝트는 최근 제안된 다양한 추론 에이전트 연산자들을 동일한 LLM 선택 및 테스트 데이터셋과 함께 비교합니다. 성능은 어떠할까요? 자세한 내용은 여기서 확인하십시오.

알고리즘	LLM	평균	gsm8k-점수	gsm8k-비용($)	AQuA-점수	AQuA-비용($)
SC-COT	gpt-3.5-turbo	73.69	80.06	5.0227	67.32	0.6491
COT	gpt-3.5-turbo	69.86	78.70	0.6788	61.02	0.0957
...
*IO: Input-Output Direct Prompting (Baseline)

새로운 리포지토리인 open-agent-leaderboard와 Hugging Face space에서 더 자세한 내용을 확인할 수 있습니다.

더 상세한 문서는 여기서 확인할 수 있습니다.

기여(contribute) 방법에 대한 자세한 정보는 여기서 확인하십시오.

우리는 커뮤니티의 기여를 소중히 여기며 감사하게 생각합니다. OmAgent의 개선을 도와준 기여자분들께 특별히 감사드립니다.

만약 여러분이 멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLM)과 에이전트 (Agent) 기술에 관심이 있다면, 우리의 연구 활동을 더 깊이 탐구해 보시길 권합니다:

🔆 How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection (AAAI24)

🏠 GitHub Repository

🔆 OmDet: Large-scale vision-language multi-dataset pre-training with multimodal detection network (IET Computer Vision)

🏠 Github Repository

저희의 저장소 (Repository)가 도움이 되었다면, 저희의 논문을 인용해 주세요:

@article{zhang2024omagent,
title={OmAgent: A Multi-modal Agent Framework for Complex Video Understanding with Task Divide-and-Conquer},
author={Zhang, Lu and Zhao, Tiancheng and Ying, Heting and Ma, Yibo and Lee, Kyusong},
...

AI 자동 생성 콘텐츠

원문 바로가기

om-ai-lab/OmAgent

요약

핵심 포인트

댓글