Transformers v5.6.0 릴리즈: PII 필터, 문서 지능 모델 및 서빙 기능 강화
요약
이번 Transformers v5.6.0 릴리즈는 개발 워크플로우의 효율성과 범용성을 크게 높인 업데이트를 포함합니다. 주요 내용은 개인 식별 정보(PII) 탐지 및 마스킹을 위한 'OpenAI Privacy Filter' 추가, Baidu 등의 최신 기술이 적용된 고성능 문서 지능 모델 (Qianfan-OCR, SLANet 등) 지원 강화입니다. 또한, `transformers serve` 기능에 멀티모달 지원(오디오/비디오), 레거시 OpenAI API 엔드포인트(`/v1/completions`) 추가 및 툴 호출 처리 개선을
핵심 포인트
- 개인 식별 정보(PII) 탐지 모델 'OpenAI Privacy Filter'를 추가하여, 온프레미스 환경에서 빠르고 컨텍스트 인식적인 데이터 정제 워크플로우 구축이 가능해졌습니다.
- 문서 지능 분야의 혁신을 가져올 Qianfan-OCR (4B 파라미터) 및 SLANet 등 고성능 모델 지원이 추가되어, 복잡한 문서 구조 분석(테이블, 차트, QA) 능력이 향상되었습니다.
- `transformers serve` 기능이 멀티모달(오디오/비디오) 입력을 공식적으로 지원하며, 레거시 OpenAI Completion API 엔드포인트(`/v1/completions`)를 추가하여 호환성이 높아졌습니다.
- Vision 관련 버그 수정 및 `torchvision`의 네이티브 디코딩을 활용하여 이미지 로딩 성능이 최대 17%까지 향상되었습니다.
Transformers v5.6.0 릴리즈는 모델 생태계 확장, 엔터프라이즈급 배포 기능 강화, 그리고 비전(Vision) 및 분산 학습 안정성 개선에 초점을 맞춘 대규모 업데이트입니다.
1. 새로운 핵심 모델 추가 (Model Additions)
이번 버전에서 가장 주목할 만한 변화는 산업별 특화된 최신 모델들의 통합입니다.
- OpenAI Privacy Filter: 텍스트 내 개인 식별 정보(PII) 탐지 및 마스킹을 위한 양방향 토큰 분류기(bidirectional token-classification model)가 추가되었습니다. 이 모델은 고처리량 데이터 정제 워크플로우에 최적화되어 있으며, 온프레미스 환경에서 빠르고 컨텍스트를 고려하여 작동합니다.
- Qianfan-OCR: Baidu가 개발한 4B 파라미터의 종단 간(end-to-end) 문서 지능 모델입니다. 전통적인 다단계 OCR 파이프라인 없이 이미지에서 텍스트로 직접 변환하며, 구조화된 문서 파싱, 테이블 추출, 차트 이해, 질의응답 등 다양한 프롬프트 기반 작업을 단일 통합 모델 내에서 처리할 수 있습니다.
- SAM3-LiteText: SAM3의 경량 버전으로, 무거운 텍스트 인코더(353M 파라미터)를 MobileCLIP 기반의 컴팩트한 텍스트 인코더로 대체했습니다. 이를 통해 텍스트 인코더 파라미터를 최대 88%까지 줄이면서도 원래 모델과 유사한 분할 성능을 유지하여 효율적인 비전-언어 분할(vision-language segmentation)이 가능해졌습니다.
- SLANet: 테이블 구조 인식에 초점을 맞춘 경량 모델로, CPU 친화적인 백본 네트워크와 고급 특징 융합 모듈을 채택하여 정확도와 추론 속도를 개선했습니다. 이는 문서 내의 복잡한 표 구조를 인식하는 데 특화되어 있습니다.
2. 배포 및 서빙 기능 강화 (Serving & Deployment)
transformers serve 명령어에 대대적인 기능 향상이 이루어졌습니다.
- 멀티모달 지원: 오디오 및 비디오 입력을 처리할 수 있는 멀티모달(multimodal) 지원이 추가되었습니다.
- 호환성 개선: 레거시 OpenAI 텍스트 완성 API를 위한
/v1/completions엔드포인트가 추가되어 기존 시스템과의 호환성이 높아졌습니다. 또한,tool_calls및tool_call_id필드의 전송 처리가 개선되었습니다. - 안정성: 모델 불일치 시 400 에러를 발생시키도록 하여 서버의 안정성을 높였습니다.
3. 비전 및 분산 학습 최적화 (Vision & Parallelization)
- 이미지 로딩 성능 개선:
torchvision백엔드에서 네이티브 디코딩(decode_image)을 활용함으로써 이미지 로딩 속도가 최대 17% 향상되었습니다. - 비전 버그 수정: Qwen2.5-VL의 시간적 RoPE 스케일링(temporal RoPE scaling) 문제 해결, Emu3 및 BLIP 등의 누락된/불일치한 이미지 프로세서 백엔드 수정 등 여러 비전 관련 버그가 수정되었습니다.
- 분산 학습 안정화: Expert Parallelism (EP)과 FSDP(Fully Sharded Data Parallel) 과정에서 발생할 수 있는 NaN 손실 및 가중치 문제를 해결하고, Tensor Parallelism (TP)을 이용한 어댑터 로딩 지원 등 분산 훈련의 견고성이 크게 향상되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HuggingFace Transformers Releases의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기