MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화
요약
MER-TRANS 2026의 스페인어 쉬운 읽기(Easy-to-Read) 생성 태스크를 위한 HULAT2 시스템을 소개합니다. LangGraph 기반의 멀티 에이전트 워크플로우와 신호 유도형 라우팅을 통해 기존 베이스라인보다 우수한 성능을 입증했습니다.
핵심 포인트
- LangGraph 기반의 제어된 멀티 에이전트 워크플로우 활용
- 신호 유도형 멀티 에이전트 라우팅이 선형 재생성보다 높은 성능 기록
- Gemini 2.5 Flash와 RigoChat-7B-v2 모델 결합
- 어휘 지원 레이어 추가가 참조 기반 점수 향상으로 직결되지는 않음
본 논문은 다국어 쉬운 읽기 (Easy-to-Read) 번역에 관한 공유 태스크인 MER-TRANS 2026의 스페인어 트랙에 참여한 HULAT2-UC3M에 대해 설명합니다. 세 가지 완전 자동화된 스페인어 실행 결과(runs)가 제출되었습니다. RUN1과 RUN2는 Gemini 2.5 Flash와 RigoChat-7B-v2를 결합하고, 병렬 생성 전략, 내부 품질 신호, 이벤트-조건-액션 (Event-Condition-Action) 라우팅, 제어된 편집 및 추적 가능한 결정을 사용하는 LangGraph 기반의 멀티 에이전트 (multi-agent) 워크플로우를 사용했습니다. RUN1은 기본 워크플로우를 사용한 반면, RUN2는 용어집 및 어휘 자원에 기반한 추가적인 어휘 지원 레이어를 활성화했습니다. RUN3은 프롬프트 엔지니어링 (prompt engineering) 및 LoRA 기반 적응을 적용한 RigoChat 기반의 생성-평가-재생성 (generate-evaluate-regenerate) 베이스라인이었습니다. 공식 리더보드는 BLEU-Orig, BLEU-Gold, SARI 및 BERTScore를 보고합니다. 개발 과정에서 의미론적 충실도 (semantic fidelity), 가독성 (readability), 어휘적 단순성 (lexical simplicity), 통사적 명확성 (syntactic clarity) 및 사실적 일관성 (factual consistency)을 포함한 추가적인 내부 신호들도 검토되었습니다. 공식 SARI 점수에 따르면, RUN1이 44.0543점으로 가장 우수한 HULAT2 실행 결과였으며, RUN2(43.1049점)와 RUN3(38.5136점)가 그 뒤를 이었습니다. 이러한 결과는 본 태스크 설정에서 신호 유도형 멀티 에이전트 라우팅 (signal-guided multi-agent routing)이 선형 재생성 (linear regeneration) 베이스라인보다 성능이 뛰어남을 나타냅니다. 또한 어휘 지원을 추가하는 것이 참조 기반 점수를 자동으로 향상시키지는 않았음을 보여줍니다. 가독성, 사실적 일관성 및 사용자 지향적 적절성을 평가하기 위해서는 추가적인 세그먼트 수준 및 문서 수준의 분석이 필요합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기