arXiv논문2026. 06. 23. 14:10

TROPT: 이산적 텍스트 최적화 (Discrete Text Optimization)를 통합하고 발전시키기 위한 오픈 프레임워크

요약

이산적 텍스트 최적화(Discrete Text Optimization)를 통합하고 표준화하기 위한 최초의 오픈 소스 프레임워크인 TROPT를 제안합니다. 다양한 최적화 도구와 손실 함수를 단일 인터페이스로 제공하여 LLM 탈옥 및 모델 해석 가능성 연구의 장벽을 낮춥니다.

핵심 포인트

이산적 텍스트 최적화 도구의 파편화 문제를 해결하는 통합 프레임워크 제안
15개 이상의 최적화 도구와 15개 이상의 손실 함수 지원
LLM 탈옥 및 모델 내부 탐사 등 30개 이상의 최적화 레시피 제공
다양한 연구 영역으로의 확장성 및 도구 이식성 입증

이산적 텍스트 트리거 최적화 (Discrete text-trigger optimization) — 모델에 입력되었을 때 모델을 특정 목표로 유도하는 텍스트 시퀀스를 검색하는 작업 — 는 모델 레드팀 (Red-teaming, 예: LLM 탈옥 (jailbreaks))뿐만 아니라 감사 (auditing) 및 해석 가능성 (interpretability)의 근간이 됩니다. 그러나 현재의 이산적 최적화 도구 (discrete optimizers) 상태는 그 도입과 발전을 저해하고 있습니다. 첫째, 기존의 최적화 도구들은 오픈 소스로 공개되더라도 특정 모델, 목표 및 문제 영역에 종속된 연구 코드베이스에 흩어져 있습니다. 둘째, 최적화 도구의 변형들이 급증하고 있으며, 각각을 사용하거나 확장하기 위해서는 엔지니어링 오버헤드가 필요하고 직접적인 비교를 수행하기 어렵습니다. 이러한 문제들이 결합되어 기존 또는 새로운 영역에서 최적화 도구를 채택하거나, 새로운 전략을 통해 이를 발전시키는 데 높은 장벽을 형성합니다. 우리는 이 격차를 해결하기 위해, 이산적 최적화 도구의 실행을 통합하고 단일 인터페이스 아래에서 개발을 표준화하는 최초의 오픈 소스 프레임워크인 TROPT를 제안합니다. TROPT는 모델, 목표, 최적화 도구 등 모든 구성 요소를 교체함으로써 엔드 투 엔드 (end-to-end) 최적화 레시피를 쉽게 맞춤 설정할 수 있게 하여, 다양한 영역과 새로운 애플리케이션으로의 확장성을 제공합니다. 현재 TROPT는 15개 이상의 최적화 도구(화이트박스 (white-box)부터 블랙박스 (black-box) 액세스까지 포함)와 기초적인 방법부터 최첨단 (state-of-the-art) 방법까지 아우르는 15개 이상의 손실 함수 (losses)를 기반으로 구축되었으며, 탈옥 (jailbreaking) 및 모델 내부 탐사 (probing model internals)와 같은 애플리케이션을 포함하는 30개 이상의 최적화 레시피를 제공합니다. 그 유용성을 입증하기 위해, 우리는 여러 연구에서 TROPT를 활용하였습니다: (i) LLM 탈옥을 위한 최적화 전략을 비교하고 강화하는 통제된 대규모 실험을 통해, 강력하지만 아직 충분히 채택되지 않은 기술들을 밝혀냈으며; (ii) 한 영역(예: LLM 탈옥)의 최적화 도구를 새로운 영역(예: 코퍼스 오염 (corpus-poisoning) 임베딩 모델)으로 이식하였습니다. 결과적으로, TROPT는 이산적 텍스트 최적화의 채택 및 발전 장벽을 크게 낮춥니다.

AI 자동 생성 콘텐츠

원문 바로가기

TROPT: 이산적 텍스트 최적화 (Discrete Text Optimization)를 통합하고 발전시키기 위한 오픈 프레임워크

요약

핵심 포인트

댓글