microsoft/fara
요약
Microsoft가 컴퓨터 사용(Computer Use)에 특화된 에이전트형 소형 언어 모델(SLM)인 Fara-7B를 공개했습니다. WebTailBench V2 업데이트와 CUAVerifierBench 출시를 통해 에이전트 성능 평가를 위한 벤치마크와 유니버설 검증기 기술을 함께 선보였습니다.
핵심 포인트
- Fara-7B는 컴퓨터 사용에 최적화된 7B 파라미터 규모의 SLM입니다.
- WebTailBench V2를 통해 개선된 태스크 및 루브릭을 제공합니다.
- 에이전트 궤적을 평가하기 위한 CUAVerifierBench와 유니버설 검증기를 출시했습니다.
- webeval 라이브러리의 의존성을 최적화하여 설치 및 사용 편의성을 높였습니다.
2026-05-21- Fara1.5 에이전트 하네스 (agent harness) 곧 출시 예정!
2026-05-12— 갱신된 WebTailBench (V2) 태스크 및 루브릭 (rubrics). 많은 V1 태스크들이 만료된 날짜(2025년 11월)를 포함하고 있었으나, V2에서는 이를 앞으로 미루고 전체 609개 태스크 세트에 대해 미리 계산된 루브릭 (precomputed rubrics)을 수정했습니다. 현재 test_v2로 사용 가능하며, microsoft/WebTailBench에서 분할되었습니다. V1↔V2의 나란한 비교 차이점(태스크 문자열 및 루브릭 JSON)은 여기에 호스팅되어 있습니다.
2026-04-19— CUA 검증기 (CUA verifiers, 즉 에이전트 궤적을 점수 매기는 판사)를 평가하기 위한 인간 주석 기반 벤치마크인 CUAVerifierBench를 출시했습니다. 두 가지 분할 버전이 있습니다 — fara7b_om2w_browserbase (106개의 Fara-7B Online-Mind2Web/Browserbase 궤적, 각 약 2명의 검토자) 및 internal (보류된 aurora-v2 태스크 세트에서 가져온 154개 궤적) — 각 판사별 UV-blind / UV-informed 레이블, 유니버설 검증기 (Universal Verifier) 출력, 그리고 레거시 검증기 출력을 나란히 제공합니다. 데이터셋을 생성한 빌드 스크립트는 HuggingFace의 데이터와 함께 존재합니다.
2026-04-18— webeval에서 autogen-core / autogen-ext 의존성을 제거했습니다; 채팅 완료 클라이언트 (chat completion clients)는 이제 webeval/src/webeval/oai_clients/ 아래에 자체적으로 포함되어 있습니다. 더 이상 autogen 서브모듈 설치 단계가 필요하지 않으며, pip install -e .[vllm] 실행 후 cd webeval; pip install -e .만 수행하면 됩니다.
2026-04-18— WebTailBench (초기 버전 / 현재는 오래된 버전)를 리포지토리에 일급 벤치마크 (first-class benchmark)로 직접 통합했습니다. 로더는 microsoft/WebTailBench에서 WebTailBench-v1-rubrics.tsv를 자동으로 다운로드하며, 각 태스크의 게시된 precomputed_rubric을 검증기 (verifier)로 전달합니다. 재현성 CLI는 webeval/scripts/webtailbench.py에 있습니다.
2026-04-18— WebTailBench의 공식 검증기로 유니버설 검증기 (Universal Verifier) (MMRubricAgent)를 출시했습니다. 멀티모달 (Multimodal), 루브릭 기반 (rubric-grounded), 두 모델 앙상블 (gpt-5.2 + o4-mini) 방식으로 구성되어 기준별 점수 매기기, 결과 검증, 그리고 첫 번째 실패 지점 분석 (first-point-of-failure analysis)을 수행합니다. 독립형 병렬 러너 (parallel runner)는 webeval/scripts/verify_trajectories.py에 있습니다.
solver(해결사)를 건드리지 않고 webeval 궤적(trajectories) 디렉터리를 재점수화(re-scoring)하기 위한 용도입니다.
Fara-7B는 Microsoft의 첫 번째 **에이전트형 소형 언어 모델 (agentic small language model, SLM)**로, 컴퓨터 사용(computer use)을 위해 특별히 설계되었습니다. 단 70억 개의 파라미터만을 가진 Fara-7B는 초소형 컴퓨터 사용 에이전트 (Computer Use Agent, CUA)로서, 해당 크기 범주 내에서 최첨단(state-of-the-art) 성능을 달성하며 더 크고 자원 집약적인 에이전트 시스템과 경쟁할 수 있는 수준입니다.
다음과 같이 로컬에서 Fara-7B를 실행하거나 (Windows에 대한 자세한 지침은 Installation 섹션 참조), Magentic-UI를 통해 사용해 보세요:
# 1. 리포지토리 클론 (Clone repository)
git clone https://github.com/microsoft/fara.git
cd fara
...
그 다음, 하나의 프로세스에서 모델을 호스팅합니다:
vllm serve "microsoft/Fara-7B" --port 5000 --dtype auto
그 후 다음과 같이 반복적으로 쿼리를 보낼 수 있습니다:
fara-cli --task "whats the weather in new york now"
Magentic-UI 내에서 Fara-7B를 사용하려면 여기 Magentic-UI + Fara-7B의 지침을 따르십시오. 이전과 같이 모델을 호스팅해야 하지만, fara-cli 대신 멋진 UI를 갖춘 Magentic-UI를 사용할 수 있습니다 (아래 비디오 데모 참조).
참고 사항:
- Windows를 사용하는 경우, WSL2 (Windows Subsystem for Linux) 사용을 강력히 권장합니다. Installation 섹션의 Windows 지침을 참조하십시오.
- 메모리가 부족할 경우 vllm 명령에
--tensor-parallel-size 2를 추가해야 할 수도 있습니다.
|
[IMG:1] |
[IMG:2] |
[IMG:3] |
텍스트 기반 응답을 생성하는 전통적인 채팅 모델과 달리, Fara-7B는 마우스와 키보드 같은 컴퓨터 인터페이스를 활용하여 사용자를 대신해 다단계 작업(multi-step tasks)을 수행합니다. 이 모델은:
시각적으로 작동 (Operates visually): 웹페이지를 인지하고, 접근성 트리 (accessibility trees)나 별도의 파싱 모델 (parsing models) 없이 직접 예측된 좌표를 클릭, 타이핑, 스크롤하는 등의 동작을 수행합니다. 온디바이스 배포 가능 (Enables on-device deployment): 7B 파라미터 (parameter) 규모의 컴팩트한 크기 덕분에 지연 시간 (latency)이 감소하고 사용자 데이터가 로컬에 유지되어 개인정보 보호가 향상됩니다. 효율적인 작업 완료 (Completes tasks efficiently): 유사한 모델들이 작업당 평균 약 41단계를 거치는 것과 비교하여, 평균 약 16단계만으로 작업을 완료합니다.
Fara-7B는 Magentic-One 멀티 에이전트 (multi-agent) 프레임워크를 기반으로 구축된 새로운 합성 데이터 생성 (synthetic data generation) 파이프라인을 사용하여 학습되었으며, 다양한 웹사이트, 작업 유형 및 난이도를 아우르는 145K개의 궤적 (trajectories)을 포함합니다. 이 모델은 Qwen2.5-VL-7B를 기반으로 하며 지도 미세 조정 (supervised fine-tuning)을 통해 학습되었습니다.
Fara-7B는 다음과 같은 일상적인 웹 작업을 자동화할 수 있습니다:
- 정보 검색 및 결과 요약
- 양식 작성 및 계정 관리
- 여행, 영화 티켓 및 식당 예약
- 쇼핑 및 소매업체 간 가격 비교
- 채용 공고 및 부동산 매물 찾기
Fara-7B는 여러 웹 에이전트 (web agent) 벤치마크에서 최첨단 (state-of-the-art) 결과를 달성하며, 유사한 규모의 모델과 더 큰 시스템 모두를 능가합니다:
| 모델 | 파라미터 (Params) | WebVoyager | Online-M2W | DeepShop | WebTailBench |
|---|---|---|---|---|---|
| SoM Agents | |||||
| SoM Agent (GPT-4o-0513) | - | 90.6 | 57.7 | 49.1 | 60.4 |
| SoM Agent (o3-mini) | - | 79.3 | 55.4 | 49.7 | 52.7 |
| ... | Computer Use Models | ||||
| OpenAI computer-use-preview | - | 70.9 | 42.9 | 24.7 | 25.7 |
| UI-TARS-1.5-7B | 7B | 66.4 | 31.3 | 11.6 | 19.5 |
| Fara-7B | 7B | 73.5 | 34.1 | 26.2 | 38.4 |
표: 4개의 웹 벤치마크에 걸친 성공률(%)을 보여주는 온라인 에이전트 평가 결과. 결과는 3회 실행의 평균값임.
우리는 기존 벤치마크에서 비중이 낮거나 누락된 11가지 실제 작업 유형에 초점을 맞춘 새로운 평가 벤치마크인 WebTailBench를 출시합니다. 이 벤치마크는 다양한 카테고리에 걸쳐 609개의 작업을 포함하며, 처음 8개 세그먼트는 단일 기술 또는 목표(보통 단일 웹사이트 상에서 수행)를 테스트하고, 나머지 3개 세그먼트는 더 어려운 다단계(multi-step) 또는 교차 사이트(cross-site) 작업을 평가합니다.
| 작업 세그먼트 (Task Segment) | 작업 수 (Tasks) | SoM GPT-4o-0513 | SoM o3-mini | SoM GPT-4o | GLM-4.1V-9B | OAI Comp-Use | UI-TARS-1.5 | Fara-7B |
|---|---|---|---|---|---|---|---|---|
| 단일 사이트 작업 (Single-Site Tasks) | ||||||||
| 쇼핑 (Shopping) | 56 | 62.5 | 71.4 | 38.1 | 31.0 | 42.3 | 41.1 | 52.4 |
| 항공권 (Flights) | 51 | 60.1 | 39.2 | 11.1 | 10.5 | 17.6 | 10.5 | 37.9 |
| ... | 다단계 작업 (Multi-Step Tasks) | |||||||
| 쇼핑 리스트 (항목 2개) (Shopping List (2 items)) | 51 | 66.0 | 62.7 | 17.0 | 7.8 | 34.0 | 20.9 | 49.0 |
| 비교 쇼핑 (Comparison Shopping) | 57 | 67.3 | 59.1 | 27.5 | 22.8 | 1.2 | 8.8 | 32.7 |
| 구성적 작업 (Compositional Tasks) | 55 | 51.5 | 39.4 | 26.7 | 17.0 | 10.3 | 9.1 | 23.0 |
| 전체 (Overall) | ||||||||
| 매크로 평균 (Macro Average) | 609 | 59.7 | 51.7 | 30.1 | 22.0 | 25.3 | 19.9 | 38.4 |
| 마이크로 평균 (Micro Average) | 609 | 60.4 | 52.7 | 30.8 | 22.4 | 25.7 | 19.5 | 38.4 |
표: 11개 모든 세그먼트에 걸친 WebTailBench 결과의 세부 내역. 성공률(%)은 3회의 독립적인 실행에 대한 평균값임. Fara-7B는 모든 작업 카테고리에 걸쳐 컴퓨터 사용 (computer-use) 모델 중 가장 높은 성능을 달성함.
출시 예정:
- LLM-as-a-judge 평가를 위한 작업 검증 (Task Verification) 파이프라인
- WebTailBench의 공식 인간 주석 (human annotations) (BrowserBase와 협력)
WebTailBench가 *에이전트 (agents)*를 측정하는 반면, CUAVerifierBench는 *해당 에이전트들을 평가하는 판사 (judges)*를 측정합니다. 각 행은 Fara-7B 에이전트의 궤적 (instruction, screenshots, web_surfer log, final answer)을 한 명의 인간 검토자(human reviewer)의 판결과 짝을 이룹니다. 여기에 Universal Verifier (MMRubricAgent) 및 여러 레거시 검증기(legacy verifiers)가 생성한 판결이 추가됩니다. 이를 통해 연구자들은 고정된 코퍼스(corpus) 상에서 검증기-인간 일치도 (Cohen's κ, accuracy, F1)를 계산할 수 있으며, 동결된 정답 세트(frozen ground-truth set)를 대상으로 새로운 판사 프롬프트(judge prompts) 또는 아키텍처를 반복적으로 개선할 수 있습니다.
데이터셋은 task_id를 통해 결합 가능한 두 가지 HuggingFace 설정(configs)으로 제공됩니다:
| Config | Granularity | Contents |
|---|---|---|
trajectories | 태스크당 한 행 | instruction, screenshots, web_surfer log, verifier outputs, task-level human aggregates |
annotations | (task, judge)당 한 행 | 검토자별 결과 / 프로세스 라벨 및 자유 형식의 텍스트 근거 (free-text justifications) |
현재 두 가지 스플릿(splits)이 배포됩니다:
| Split | Source | Trajectories | Annotation rows |
|---|---|---|---|
fara7b_om2w_browserbase | Browserbase를 통해 실행된 Online-Mind2Web 태스크 상의 Fara-7B 궤적 | 106 | 215 (태스크당 약 2명의 검토자; UV-blind 및 UV-informed 단계) |
internal | 동일한 WebSurfer + 검증기 스택으로 평가된 별도의 aurora-v2 태스크 스위트 | 154 | 154 (태스크당 1명의 검토자; UV-blind 전용) |
검토자의 신원은 두 스플릿 모두에서 공유되는 단일 맵(map)을 사용하여 Judge1 ... JudgeN으로 익명화됩니다. 데이터셋을 생성한 빌드 스크립트(전체 스키마 및 출처 포함)는 HuggingFace의 microsoft/CUAVerifierBench에 데이터와 함께 제공됩니다. 전체 컬럼 목록은 데이터셋 README를 참조하십시오.
from datasets import load_dataset
trajs = load_dataset("microsoft/CUAVerifierBench", "trajectories",
split="fara7b_om2w_browserbase")
...
우리의 평가 설정은 다음을 활용합니다:
Playwright - 브라우저 환경을 복제하는 교차 브라우저 자동화 프레임워크 (cross-browser automation framework)
Abstract Web Agent Interface - 어떤 소스의 어떤 모델이라도 평가 환경에 통합할 수 있도록 허용
Fara-Agent Class - Fara 모델을 실행하기 위한 참조 구현 (reference implementation)
참고: Fara-7B는 커뮤니티의 직접적인 탐색과 피드백을 유도하기 위해 설계된 실험적 릴리스입니다. 샌드박스 환경 (sandboxed environment)에서 실행하고, 실행 과정을 모니터링하며, 민감한 데이터나 고위험 도메인을 피할 것을 권장합니다.
다음 지침은 Linux 시스템을 위한 것입니다. Windows 지침은 아래의 Windows 섹션을 참조하십시오.
pip를 사용하여 패키지를 설치하고 Playwright로 환경을 설정합니다:
# 1. 리포지토리 클론 (Clone repository)
git clone https://github.com/microsoft/fara.git
cd fara
...
참고: Azure Foundry에서만 호스팅할 계획이라면 [vllm]을 건너뛰고
pip install -e .만 수행하면 됩니다.
Windows의 경우, Linux와 유사한 환경을 제공하는 WSL2 (Windows Subsystem for Linux)를 사용하는 것을 강력히 권장합니다. 하지만 Windows에서 네이티브로 실행하는 것을 선호한다면 다음 단계를 따르십시오:
# 1. 리포지토리 클론 (Clone repository)
git clone https://github.com/microsoft/fara.git
cd fara
...
권장 사항: 가장 쉬운 시작 방법은 GPU 하드웨어나 모델 다운로드가 필요 없는 Azure Foundry 호스팅을 사용하는 것입니다. 또는 GPU 리소스가 있는 경우 vLLM을 사용하여 셀프 호스팅 (self-host)할 수 있습니다.
가중치 (weights)를 다운로드하거나 GPU 인프라를 관리할 필요 없이 Azure Foundry에 Fara-7B를 배포하십시오.
설정 (Setup):
- Azure Foundry에 Fara-7B 모델을 배포하고 엔드포인트 URL (endpoint URL)과 API 키를 확보합니다.
그 다음 엔드포인트 구성 JSON 파일 (예: azure_foundry_config.json)을 생성합니다:
{
"model": "Fara-7B",
"base_url": "https://your-endpoint.inference.ml.azure.com/",
...
그 다음 이 엔드포인트 구성을 사용하여 Fara-7B를 실행할 수 있습니다.
- Fara 에이전트 실행:
fara-cli --task "how many pages does wikipedia have" --endpoint_config azure_foundry_config.json [--headful]
참고: 설정 JSON 파일을 사용하는 대신 --base_url [your_base_url] --api_key [your_api_key] --model [your_model_name] 인자(args)를 사용하여 엔드포인트 설정 (endpoint config)을 지정할 수도 있습니다.
참고: 만약 fara-cli 명령어를 찾을 수 없다는 오류가 발생하면, 다음을 시도해 보세요:
python -m fara.run_fara --task "what is the weather in new york now"
끝입니다! GPU나 모델 다운로드가 필요하지 않습니다.
GPU 리소스에 접근할 수 있다면, vLLM을 사용하여 Fara-7B를 셀프 호스팅 (self-host)할 수 있습니다. 이를 위해서는 충분한 VRAM (예: 24GB 이상)을 갖춘 GPU 머신이 필요합니다.
Linux에서만 가능: vLLM 서버를 시작하려면 다음 명령어를 실행하기만 하면 됩니다:
vllm serve "microsoft/Fara-7B" --port 5000 --dtype auto
양자화된 모델 (quantized models) 또는 VRAM이 낮은 GPU의 경우, HuggingFace의 Fara-7B GGUF를 참조하십시오.
Windows/Mac의 경우, vLLM은 기본적으로 지원되지 않습니다. Windows에서는 WSL2를 사용하여 위의 명령어를 실행하거나, 아래에 설명된 대로 LM Studio / Ollama를 사용할 수 있습니다.
그 외의 경우, LM Studio 또는 Ollama를 사용하여 모델을 로컬에서 호스팅할 수 있습니다. 현재 저희는 LM Studio 또는 Ollama와 함께 사용할 수 있도록 HuggingFace의 Fara-7B GGUF 모델 버전을 권장합니다. 귀하의 GPU에 맞는 가장 큰 모델을 선택하십시오. 최상의 결과를 위해 컨텍스트 길이 (context length)를 최소 15000 토큰으로, 온도를 (temperature) 0으로 설정해야 합니다.
그런 다음 로컬 서버를 가리키는 Fara-7B를 실행할 수 있습니다:
Fara가 작동하는 모습을 보려면 테스트 스크립트를 실행하십시오:
fara-cli --task "what is the weather in new york now"
vLLM을 사용하여 호스팅하지 않은 경우, 올바른 --base_url [your_base_url] --api_key [your_api_key] --model [your_model_name]를 지정해 주세요.
만약 fara-cli 명령어를 찾을 수 없다는 오류가 발생하면, 다음을 시도해 보세요:
python -m fara.run_fara --task "what is the weather in new york now"
저희는 WebVoyager 및 OnlineMind2Web에서 결과를 재현할 수 있도록 webeval/에 프레임워크를 제공합니다.
라이브 웹사이트에서의 에이전트 평가 (Agentic evaluations)는 일상적인 변화로 인해 독특한 과제들을 제시합니다. 저희는 신뢰할 수 있고 비교 가능한 평가를 보장하기 위해 몇 가지 조치를 구현했습니다:
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending Python (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기