본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 18. 11:04

HandwritingAgent: 확장 가능한 벡터 공간에서의 언어 기반 필기 합성

요약

HandwritingAgent는 대규모 추론 모델을 활용하여 SVG 형식의 자연스러운 필기 시퀀스를 합성하는 언어 기반 에이전트입니다. 기존 모델의 높은 계산 비용과 제어 능력 부족을 해결하며, 텍스트와 참조 이미지를 통해 정교한 필기 스타일 제어가 가능합니다.

핵심 포인트

  • SVG 형식을 사용하여 자연스러운 필기 시퀀스 직접 합성
  • 대규모 추론 모델을 통한 기하학적 분석 및 자기회귀적 생성
  • 텍스트 및 참조 이미지를 통한 유연한 스타일 제어 가능
  • 기존 SOTA 모델 대비 효율성 및 일반화 성능 입증

기계가 자연스러운 필기 스타일을 모방하도록 가르치는 것은 여전히 해결되지 않은 과제로 남아 있습니다. 이는 개인 간의 차이뿐만 아니라 한 개인의 필기 내에서도 형태, 질감, 압력 및 서체가 역동적으로 변화하는 획 시퀀스(stroke sequences)를 합성해야 하기 때문입니다. 이 과제에 대한 시도들은 주로 온라인(online) 및 오프라인(offline) 환경 모두에서 딥러닝 (deep learning) 방법을 탐구해 왔습니다. 그러나 이러한 접근 방식은 종종 스타일 특화적인 아키텍처 (architectural) 선택, 대규모 데이터셋에 대한 높은 의존도, 높은 계산 비용, 그리고 자연어를 통한 필기 스타일에 대한 유연한 제어 능력 부족이라는 제약이 있습니다. 이를 위해, 우리는 스타일 특화 학습 없이 Scalable Vector Graphics (SVG) 형식으로 자연스러운 필기 시퀀스를 직접 합성할 수 있는 언어 기반 에이전트인 HandwritingAgent를 소개합니다. 이 에이전트는 대규모 추론 모델 (large reasoning model)을 활용하여 이산 그리드 캔버스 (discrete grid canvas) 환경에서 대상 필기 글리프 (glyphs)를 기하학적으로 분석하고, 획 시퀀스로 자기회귀적 (autoregressively)으로 생성합니다. 생성은 대화형 또는 비대화형 모드로 제공되는 텍스트와 참조 필기 스타일 이미지에 따라 조건화됩니다. 모방, 인식, 다국어 필기 합성, 그리고 복잡한 수식 및 과학 표현의 생성을 아우르는 다양한 필기 작업에 대한 실험 결과, HandwritingAgent는 기존의 최첨단 (state-of-the-art) 생성형 필기 모델과 대등하거나 이를 능가하는 성능을 보이면서도, 더욱 효율적이고 제어 가능하며 일반화 가능한 합성 방법을 제공함으로써 상당한 성능 향상을 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0