Qwen Cloud를 활용한 SIBYL SYSTEM 구축 — 엔지니어의 여정 - Insights | Molayo

Qwen Cloud를 활용한 SIBYL SYSTEM 구축 — 엔지니어의 여정

요약: SIBYL SYSTEM은 설명 가능한 AI (Explainable AI), 지속성 메모리 (Persistent memory), 그리고 인간 참여형 (Human-in-the-loop) 체크포인트를 통해 복지 및 공공 안전 팀이 사례를 분류(Triage), 추적 및 조치할 수 있도록 돕는 모듈형 멀티 에이전트 (Multi-agent) 플랫폼입니다. 이 포스트는 우리가 왜 이를 구축했는지, 스택에 Qwen Cloud를 어떻게 통합했는지, 해커톤을 위해 출시한 아키텍처(Architecture), 그리고 그 과정에서 배운 교훈들을 기록합니다.

왜 SIBYL SYSTEM을 구축했는가

공공 서비스 워크플로우 (Workflow)는 종종 파편화되어 있습니다: 여러 팀이 존재하고, 인수인계가 느리며, 사례가 에스컬레이션 (Escalation)될 때 문맥 (Context)이 제한적입니다. 우리는 다음과 같은 에이전트 우선 (Agent-first) 시스템을 원했습니다:

민감한 데이터를 노출하지 않으면서 세션 전반에 걸쳐 관련 사례 이력을 기억 (Remembers) 합니다.
들어오는 보고를 자동으로 분류 (Triages) 하고 적절한 팀으로 라우팅 (Routing) 합니다.
인간 검토자가 결정을 신뢰하고 재량권을 행사할 수 있도록 권장 사항을 설명 (Explains) 합니다.

Qwen Cloud를 기반으로 구축하라는 해커톤 프롬프트는 클라우드 추론 (Cloud inference)과 강력한 메모리 및 감사 가능성 (Auditability)을 결합한 프로덕션급 에이전트를 프로토타이핑할 수 있는 완벽한 기회를 제공했습니다. 우리는 Qwen Cloud와 함께하는 Global AI Hackathon에 프로젝트를 제출했으며, 제출물의 일부로 데모와 증명 아티팩트 (Proof artifacts)를 문서화했습니다.

핵심 아이디어

SIBYL SYSTEM은 에이전트 사회 (Agent Society) 입니다: 여러 전문화된 에이전트 (Ingest, Triage, Policy, Outreach, 그리고 이를 조정하는 “Sibyl Hive Mind”)가 작업 소유권을 협상하고, 공유 메모리 레이어 (Shared memory layer)를 참조하며, 필요할 때 인간에게 에스컬레이션합니다. 이 시스템은 다음을 강조합니다:

선택적 망각과 동의된 범위(Consented scopes)를 가진 지속성 메모리 (Persistent memory).
고위험 결정에 대한 인간 참여형 (Human-in-the-loop) 체크포인트.
모든 권장 사항에 대한 변조 방지 감사 추적 (Tamper-evident audit trails).

아키텍처 (Architecture) (하이 레벨)

레이어 및 구성 요소

AI / 추론 (Inference) (Qwen Cloud): 분류(classification), 요약(summarization), 정책 추론(policy reasoning)을 위한 모델 호출.
Edge functions / 클라우드 게이트웨이 (Cloud gateway): Supabase Edge Functions 및 Alibaba Cloud 마이크로서비스가 보안 API 라우팅 및 배포 증명(proof of deployment)을 처리.
백엔드 마이크로서비스 (Backend microservices): 에이전트 오케스트레이션(agent orchestration), 메모리 매니저(memory manager), 정책 엔진(policy engine), 아웃리치 서비스(outreach service).
메시지 버스 (Message bus): 에이전트 조율을 위한 RabbitMQ / Kafka.
데이터 레이어 (Data layer): 구조화된 케이스 데이터를 위한 Supabase Postgres; 의미론적 메모리(semantic memory)를 위한 벡터 DB (Vector DB) (Pinecone/FAISS/Milvus); 캐싱을 위한 Redis.
프론트엔드 (Frontend): 검토자 및 관리자를 위한 React + Vite 대시보드.
엣지 디바이스 (Edge devices): 로컬 센싱 및 오프라인 동기화를 위한 Raspberry Pi / Edge TPU.
CI/CD 및 관측성 (Observability): GitHub Actions, Prometheus/Grafana, Sentry/OpenTelemetry.

제출을 위해 다이어그램과 내보내기 가능한 PNG 파일이 생성되었으며, 우리의 리포지토리(repo) 및 데모에 포함되었습니다.

Qwen Cloud가 결합되는 방식

추론 엔드포인트 (Inference endpoint): 에이전트는 깊은 언어 이해가 필요한 작업(케이스 요약, 정책 인지 권장 사항, 다회차 추론(multi-turn reasoning))을 위해 Qwen Cloud를 호출합니다.
토큰 예산 관리 (Token budget management): 설명 가능성(explainability)을 유지하면서 토큰 제한 내에 머물 수 있도록 추론 과정을 구조화된 템플릿으로 압축합니다.
멀티모달 잠재력 (Multimodal potential): 이 아키텍처는 향후 Qwen 또는 다른 멀티모달 모델에 의해 처리될 수 있는 비디오/오디오 입력(예: 짧은 사고 클립)을 위한 여지를 남겨둡니다.

구축 과정 — 실무 단계

스캐폴드 및 저장소 (Scaffold and repo): 프론트엔드 (Vite + React + TypeScript)와 백엔드 마이크로서비스 (Node.js / FastAPI 프로토타입)를 포함하는 모노레포 (monorepo)를 생성했습니다. 저장소에는 Alibaba Cloud 통합을 시연하기 위해 사용되는 Supabase functions 폴더가 포함되어 있습니다.
에이전트 프로토타입 (Agent prototypes): 메시지 버스 (message bus)를 통해 통신하는 독립적인 서비스로서 경량 에이전트 (lightweight agents)를 구현했습니다. 각 에이전트는 오케스트레이션 (orchestration)을 위해 작은 REST/gRPC 인터페이스를 노출합니다.
메모리 레이어 (Memory layer): 하이브리드 접근 방식 — 의미론적 회상 (semantic recall)을 위한 벡터 임베딩 (vector embeddings)과 구조화된 메타데이터 (structured metadata)를 위한 관계형 행 (relational rows)을 사용했습니다. 검색 성능을 유지하기 위해 근사 최근접 이웃 (approximate nearest neighbor) 인덱싱을 사용했습니다. 단순 검색 (naive retrieval)은 $O(n)$인 반면, 인덱싱된 검색 (indexed retrieval)은 대략 $O(\log n)$입니다. [ \text{Naive retrieval: } O(n) \quad\text{Indexed retrieval: } O(\log n) ]
인간 UX (Human UX): 각 권장 사항에 짧은 근거 (rationale), 신뢰도 점수 (confidence score), 그리고 메모리와 감사 로그 (audit logs)를 업데이트하는 원클릭 오버라이드 (one-click override) 기능이 포함된 검토자 대시보드를 구축했습니다.
배포 증명 (Deployment proof): 백엔드 서비스를 Alibaba Cloud에 배포하였으며, 해커톤 요구 사항을 충족하기 위해 저장소에 증명 파일을 추가했습니다.

우리가 직면한 과제들 (Challenges we faced)

메모리 정책 설계 (Memory policy design): 무엇을, 얼마나 오래 저장할지, 그리고 민감한 필드를 어떻게 비식별화 (redact)할지 결정하는 과정은 엔지니어링만큼이나 정책적인 작업이 필요했습니다.
에이전트 조정 (Agent coordination): 명시적인 중재 규칙 (arbitration rules)이 없으면 에이전트들이 작업을 중복하거나 상충하는 출력을 생성할 수 있습니다. 이를 해결하기 위해 메시지 버스에 경량 잠금/점유 (lock/claim) 프로토콜을 구현했습니다.
설명 가능성 대 토큰 제한 (Explainability vs token limits): 인간 검토자에게 충분한 문맥 (context)을 보존하면서도, 정당화 사유를 간결하고 구조화된 템플릿으로 압축하는 작업이 필요했습니다.
엣지 회복탄력성 (Edge resilience): 연결 상태가 좋지 않을 때 중요한 체크가 로컬에서 실행되도록 보장하기 위해, 더 작은 폴백 모델 (fallback models)과 동기화 로직을 구축해야 했습니다.

우리가 자랑스럽게 생각하는 점 (What we’re proud of)

엔드 투 엔드 (end-to-end) 데모 시나리오를 완료하는 작동 가능한 멀티 에이전트 파이프라인 (multi-agent pipeline).
동의된 범위 (consented scopes) 및 선택적 망각 (selective forgetting) 기능을 갖춘 지속성 메모리 (persistent memory).
감사 추적 (audit trails)을 유지하면서 에이전트의 권장 사항을 쉽게 수락, 수정 또는 거부할 수 있는 리뷰어 UX.
Qwen Cloud 해커톤을 위한 완전한 제출 패키지 (리포지토리, 아키텍처 다이어그램, 데모).

교훈 (Lessons learned)

신뢰를 위한 설계: 작은 UX 디테일 (명확한 근거 제시, 쉬운 오버라이드)이 채택과 거부의 차이를 만듭니다.
메모리는 제품 작업이다: 이는 단순한 기술적 문제가 아니라 정책, 개인정보 보호, 그리고 UX의 문제입니다.
명시적인 충돌 해결 (conflict resolution)은 필수적입니다: 멀티 에이전트 시스템 (multi-agent systems)에서는 더욱 그렇습니다.
운영 제약 조건이 초기 아키텍처를 형성합니다: 토큰 예산 (token budgets), 지연 시간 (latency), 그리고 배포 대상이 중요합니다.

SIBYL SYSTEM 체험 방법

데모: 실행 중인 데모를 확인하세요.

  https://app-c7vje3odisxt.appmedo.com

(데모 링크는 제출물에 포함되어 있습니다.)

리포지토리 및 증빙: 리포지토리에는 Alibaba Cloud 배포 증빙으로 사용된 Supabase 함수가 포함되어 있습니다.

  https://github.com/MiChaelinzo/SIBYL-SYSTEM/blob/main/supabase/functions/alibaba-cloud-proof/index.ts

(배포 증빙 파일을 확인하려면 alibaba-cloud-proof 함수를 참조하세요.)

블로그 포스트 상을 위한 요약 (TL;DR)

포함 사항: Qwen Cloud를 활용한 구축 여정을 설명하고, 리포지토리 링크와 짧은 데모 영상을 포함하는 공개 블로그 포스트 또는 소셜 포스트. 저희는 Devpost 제출물과 리포지토리에 필요한 모든 결과물을 포함했습니다.

최종 참고 사항 및 향후 단계

저희는 다음과 같은 계획을 가지고 있습니다:

실제 세계의 영향력을 검증하기 위해 파트너 복지 기관과 함께 통제된 파일럿 (controlled pilot)을 운영합니다.
적응형 망각 (adaptive forgetting) 및 동의 기반의 기관 간 공유 정책을 추가합니다.
핵심 리포지토리와 재현 가능한 데모를 공개하여, 다른 개발자들이 다양한 시민 영역에 맞춰 SIBYL을 확장할 수 있도록 합니다.

Qwen Cloud를 활용한 SIBYL SYSTEM 구축 — 엔지니어의 여정

요약

핵심 포인트