HN요약2026. 05. 15. 07:38

Launch HN: Halluminate (YC S25) – 컴퓨터 사용 (computer use) 학습을 위한 인터넷 시뮬레이션

요약

Halluminate는 AI 연구소들이 컴퓨터 사용 에이전트를 학습시키기 위한 고품질 시뮬레이션 환경을 제공합니다. 이 플랫폼은 Westworld라는 완전 시뮬레이션된 인터넷을 기반으로 하며, 에이전트가 실제 경제적 가치가 있는 작업(예: 항공권 예약, 재무 모델링)을 수행하도록 훈련시킵니다. Halluminate는 '작업(task)'과 이를 검증하는 '검증기(verifier)'를 결합하여 강화학습(RL)의 신뢰성을 높이고 있으며, 이로써 AI 에이전트가 현실 세계에서 필요한 복잡한 컴퓨터 사용 능력을 향상시키는 것을 목표로 합니다.

핵심 포인트

AI 에이전트의 컴퓨터/브라우저 사용 능력은 잠재력이 크지만 현재는 신뢰성 확보가 어려운 과제입니다.
Halluminate는 Westworld라는 완전 시뮬레이션된 인터넷을 구축하여, 현실적인 환경에서 에이전트를 훈련시킵니다.
학습 과정은 '작업(task)'과 이를 프로그래밍 방식으로 검증하는 '검증기(verifier)'를 통해 이루어져 강화학습의 신뢰성을 높입니다.
고품질 시뮬레이터 구축에는 현실적인 데이터 생성과 도메인 전문가의 피드백이 필수적이며, Halluminate는 이 문제를 해결하고 있습니다.
향후 기능으로는 여러 시뮬레이터를 연결하는 장기 워크플로우 학습 및 절차적 데이터 생성이 계획되어 있습니다.

안녕하세요 여러분, Halluminate (https://halluminate.ai/)의 Jerry와 Wyatt입니다. 저희는 AI 연구소들이 고품질 데이터와 강화학습 (RL) 환경을 통해 컴퓨터 사용 (computer use) 에이전트를 학습시키는 것을 돕습니다.

AI 에이전트가 컴퓨터, 브라우저, 소프트웨어를 사용하도록 학습시키는 것은 AI 분야에서 가장 잠재력이 높은 기회 중 하나입니다. 하지만 현재까지 이 능력은 여전히 신뢰할 수 없는 수준입니다. 이를 개선하기 위해 부상하고 있는 방법은 검증 가능한 보상을 활용한 강화학습 (Reinforcement Learning with Verifiable Rewards, RLVR)이라고 불립니다. 그러나 연구자들은 현재 고품질 시뮬레이터와 작업(task) + 검증기(verifier)의 부족으로 인해 병목 현상을 겪고 있습니다.

이 문제를 해결하기 위해, 저희는 가장 흔한 소비자용 및 기업용 앱들의 합성 버전(synthetic versions)으로 구성된 완전 시뮬레이션된 인터넷인 Westworld를 구축하고 있습니다. 에이전트들은 Westworld를 사용하여 경제적으로 가치 있는 작업들을 수행하는 방법을 배웁니다.

예를 들어, AI 에이전트는 시뮬레이션된 항공권 예약 사이트(https://flights.halluminate.ai/)에서 휴가 계획을 세우는 연습을 하거나, 영업 플랫폼에서 오래된 정보를 재구성하는 법을 배우거나, 스프레드시트에서 직접 재무 모델링을 수행하도록 훈련할 수 있습니다.

저희의 항공권 예약 시뮬레이션을 보여주는 데모는 여기 있습니다: https://www.loom.com/share/74a3b28067e24c1b886054ba90a90aa5.

작동 방식: AI 에이전트는 저희 환경에 접속하며 작업(task) + 검증기(verifier)를 부여받습니다. 작업(task)은 기본적으로 에이전트가 달성해야 할 목표이며, 예를 들어 "이 날짜에 x, y, z 필터를 사용하여 SF에서 NYC로 가는 항공권을 예약해줘"와 같습니다. 검증기(verifier)는 작업이 성공적으로 완료되었는지 판단하는 프로그래밍 방식입니다. 예를 들어, 이 경우 최종 항공 데이터가 기대치와 일치하는지 확인하는 JSON일 수 있습니다. 이러한 신호들은 이후 RL에서 보상(reward)을 계산하는 데 사용될 수 있습니다.

저희가 더 많은 시뮬레이터를 구축할수록, AI 연구소들은 컴퓨터 사용 에이전트가 현재 취약한 능력들을 더 많이 개선할 수 있습니다. 저희 고객 중 한 곳은 저희의 항공권 예약 시뮬레이터로 학습했을 때 날짜 선택(date-picking) 성능이 약 20% 향상되는 것을 확인했습니다.

지금까지 이 작업을 어렵게 만드는 두 가지 요소는 다음과 같습니다:

(1) 시뮬레이션은 현실적이어야 합니다. 분위기만으로 코딩한 '80% 수준의 해결책'으로는 안 됩니다. 왜냐하면 작은 편차도 성능에 영향을 미치기 때문입니다. 가상 데이터를 생성하는 것은 훨씬 더 어렵습니다. 예를 들어, 비행 데이터가 현실적으로 보이도록 다듬는 작업은 많은 시도와 실험이 필요했습니다.

(2) 에이전트에게 학습시키는 과제들 역시 잘 선택되어야 합니다. 이 과제들이 사람들이 실제로 해결하기를 원하는 작업을 반영할 때만 가치가 있습니다. 이를 정확하게 수행하려면 도메인 전문가들로부터 많은 피드백이 필요합니다.

그럼에도 불구하고, 저희는 이 작업이 믿을 수 없을 만큼 흥미롭다고 생각하며 이러한 문제들을 해결하는 것에 기대가 큽니다. 가까운 시일 내에 출시할 몇 가지 기능들이 있습니다: - 여러 시뮬레이터를 연결하여 장기적인 워크플로우를 통해 학습시킬 수 있는 능력; - 절차적 데이터 생성(Procedural data generation). 모든 데이터를 사전에 합성적으로 생성하는 대신, 에이전트가 탐색함에 따라 시뮬레이터가 절차적으로 채워지도록 데이터 생성을 모델링할 수는 없을까요 (Minecraft를 생각해보세요); - 오픈 소스! 개발자/연구자들이 자신들의 실험을 위해 해킹할 수 있도록 저희 환경(environments)을 대중에게 공개할 계획입니다.

RL 시뮬레이터는 저희 비즈니스의 일부일 뿐입니다. 다른 부분은 인간 데이터 생성과 관련되어 있습니다 (컴퓨터 사용에 대한 Scale AI를 생각해보세요). 저희는 즉시 사용할 수 있는 사전 학습/미세 조정(pre-training/fine-tuning) 데이터셋, 전문가의 인간 평가/오류 분석, 또는 고객을 위한 기타 모든 데이터 요구사항을 생산합니다. 또한 이 두 가지 사이에는 많은 흥미로운 중첩 영역이 있습니다. 예를 들어, 시뮬레이터/과제를 만드는 데 도움을 주기 위해 인간 전문가를 사용하는 경우입니다. 더 자세히 설명해 드릴 수도 있지만, 저희는 시뮬레이터가 더 흥미로운 HackerNews 게시물이 될 것이라고 생각했습니다.)

마지막으로, 저희 소개입니다: Wyatt과 저는 Cornell에서 컴퓨터 과학 (CS)을 공부하며 만났고, 7년 넘게 함께 거주하며 일해 왔습니다. 저는 이전에 Capital One Labs에서 제품 및 연구 (product/research)를 이끌었으며, 그곳에서 금융 분야의 초기 AI 에이전트 중 하나를 출시했습니다. Wyatt은 이전에 Cornell Milstein 장학생이었으며, 뉴욕(NYC)에 있는 두 곳의 초기 단계 스타트업에서 대규모 데이터 엔지니어링 (data engineering)을 수행했습니다. 저희는 작년에 직장을 그만두었으며, 브라우저/컴퓨터 사용 (browser/computer use) 에이전트 기업들을 위한 평가 (evals) 도구를 구축하는 과정에서 이러한 문제들을 직접 경험했습니다.

질문, 피드백 또는 의견이 있으신 분은 언제든 알려주세요! 여러분의 댓글을 기다리고 있겠습니다.

AI 자동 생성 콘텐츠

원문 바로가기