AI와 OCR을 사용하여 파일 이름 변경 자동화하는 방법

파일의 내용이 무엇인지 실제로 설명할 수 있는 이름을 부여하세요.

요약 (TL;DR)

OCR은 PDF 및 스캔된 문서에서 텍스트를 읽고, 비전 모델 (Vision models)은 사진 콘텐츠를 설명합니다.
구조화된 LLM 프롬프트 (Prompt)는 가공되지 않은 OCR 출력값을 신뢰할 수 있는 파일 이름 필드로 변환합니다.
네 개의 Python 함수가 약 130줄의 코드로 전체 파이프라인을 처리합니다.
송장 (Invoices), 계약서 (Contracts), 영수증 (Receipts) 및 혼합된 사진 배치에 작동합니다.
마지막에는 직접 구축할 때와 기존 도구를 사용할 때의 차이점에 대한 짧은 노트를 제공합니다.

문제점

스캔된 문서가 담긴 폴더를 열어보면 거의 확실하게 동일한 패턴을 발견하게 됩니다: scan_001.pdf, document_final_v3.docx, IMG_4382.jpg. 이러한 이름은 아무런 정보도 제공하지 않습니다. 검색 기능은 제대로 작동하지 않습니다. 파일 이름의 패턴을 매칭하는 후속 스크립트들은 조용히 실패합니다. 결국 팀원 중 누군가가 수동으로 이름을 변경하게 되는데, 이는 일주일에 10개의 파일을 처리할 때는 괜찮지만 100개가 되면 무너집니다.

명명 규칙 (Naming convention)이 도움이 될 수 있지만, 이는 모든 사람이 규칙을 따를 때만 유효합니다. 팀 전체가 일관되게 {type}_{vendor}_{date}_{id} 형식으로 파일 이름을 지정하도록 만드는 것은 마감 압박 속에서 무너지기 쉬운 규율을 요구합니다.

더 나은 접근 방식은 각 파일의 내부 내용을 읽고 그 콘텐츠로부터 이름을 생성하는 것입니다. 이 튜토리얼은 해당 파이프라인을 구축하는 과정을 안내합니다.

콘텐츠 인식 이름 변경 (Content-Aware Renaming)의 실제 의미

콘텐츠 인식 이름 변경은 파일의 메타데이터 (Metadata)를 읽는 것이 아닙니다. 생성 날짜나 EXIF 블록의 작성자 필드와 같은 메타데이터 필드는 종종 잘못되었거나, 비어 있거나, 유용한 정보를 전혀 주지 않는 카메라 기본값으로 채워져 있는 경우가 많습니다.

문서의 실제 콘텐츠를 읽으려면 다루고 있는 대상에 따라 두 가지 다른 접근 방식이 필요합니다:

텍스트 문서 (PDF, 스캔된 송장, 계약서): OCR은 렌더링된 픽셀이나 임베디드 텍스트를 가공되지 않은 문자열 (Raw string)로 변환합니다. 그런 다음 LLM이 해당 문자열에서 문서 유형, 업체명, 날짜, 참조 번호와 같은 구조화된 필드를 추출합니다.

사진 및 일반 이미지 (휴대전화로 촬영한 영수증, 신분증, 현장 사진): 이러한 이미지에 대해 OCR은 희소하거나 쓸모없는 텍스트를 반환합니다. 대신 비전 모델 (Vision model)이 프레임 안에 실제로 무엇이 있는지 설명합니다. 그 후 동일한 LLM 추출 단계를 통해 해당 설명을 처리합니다.

두 경로 모두 동일한 출력, 즉 파일 이름 템플릿에 입력할 작은 필드 딕셔너리 (Dictionary)를 생성합니다.

파이프라인 아키텍처 (Pipeline Architecture)

전체 흐름은 다음과 같습니다:

입력 파일 (Input file)
    │
    ├─ PDF 또는 텍스트 중심 이미지
...

두 가지 콘텐츠 경로는 필드 추출 및 명명 단계를 공유합니다. 오직 입력 (Ingestion) 단계만이 처리 중인 파일의 종류에 따라 달라집니다.

1단계: 문서에서 텍스트 추출하기

텍스트가 포함된 PDF의 경우, 페이지를 이미지로 렌더링하여 OCR을 실행하는 것보다 pdfplumber를 사용하는 것이 더 빠르고 정확합니다. 스캔된 PDF 및 독립적인 이미지 파일의 경우, pytesseract가 Tesseract를 래핑 (Wrap)하여 대부분의 일반적인 형식을 처리합니다.

import pdfplumber
import pytesseract
from PIL import Image
...

설치: pip install pdfplumber pytesseract pdf2image Pillow

Tesseract 자체는 시스템 설치가 필요합니다. macOS의 경우: brew install tesseract. Ubuntu 또는 Debian의 경우: apt install tesseract-ocr.

2단계: LLM을 사용하여 구조화된 필드 추출하기

가공되지 않은 OCR 출력은 노이즈가 많습니다. 공백 오류, 페이지 헤더, 푸터 파편, 인코딩 아티팩트 (Encoding artifacts) 등이 모두 문자열에 포함됩니다. 프롬프트 (Prompt)를 정교하게 작성하고 구조화된 JSON을 반환하도록 설정한다면, LLM은 이러한 노이즈를 잘 처리합니다.

import json
import openai

...

temperature=0 설정은 동일한 문서에 대해 반복 실행 시 출력을 결정론적 (Deterministic)으로 유지합니다. 3,000자 제한은 토큰 소모를 제한합니다. 대부분의 송장 (Invoice) 및 계약서의 경우, 필요한 필드는 첫 페이지에 나타나므로 해당 제한 범위 내에 충분히 들어옵니다.

Anthropic의 API를 선호한다면 교체 방법은 간단합니다. openai.OpenAI()를 anthropic.Anthropic()으로 바꾸고 client.messages.create(model="claude-3-haiku-20240307", ...)를 사용하면 됩니다. 프롬프트 자체는 변경 없이 그대로 작동합니다.

3단계: 파일 이름 생성 및 적용

구조화된 필드를 확보했다면, 파일 이름 생성은 데이터를 정리(sanitize)하고 결합하는 작업입니다. 여기서 주의할 점은 시스템에서 허용하지 않는 파일 경로 문자(illegal filesystem characters)와 이름 충돌(name collisions) 문제입니다.

import re
import hashlib

...

먼저 dry_run=True로 실행하여 전체 미리보기 목록을 출력하고, 실제 문서 몇 개를 대상으로 파일 이름을 확인해 보세요. 만족스러우면 dry_run=False로 다시 실행하면 됩니다.

4단계: 비전 모델을 사용한 사진 처리

사진의 경우 OCR은 유용하거나 아무것도 반환하지 못합니다. 비전 모델(vision model)은 장면 내용을 설명하고 맥락 속에서 보이는 텍스트를 읽어낼 수 있으며, 이는 영수증이나 스캔된 신분증 사진에 정확히 필요한 기능입니다.

import base64

def describe_image(file_path: str) -> str:
...

이미지 URL의 `

모두 알 수 없는 추출 (All-unknown extractions). OCR이 쓰레기 값(junk)을 반환하고 LLM이 실제 필드를 추출할 수 없을 때, 파이프라인은 쓸모없는 이름을 생성하게 됩니다. 이러한 사례를 추적하세요. 이름을 변경하는 대신 검토 목록(review list)에 기록하여, 나머지 배치(batch) 작업이 중단되지 않고도 사람이 예외 사항(outliers)을 처리할 수 있도록 하세요.

이름 충돌 (Name collisions). 동일한 공급업체로부터 같은 날짜에 발행된 두 개의 인보이스는 동일한 파일 이름을 생성하게 됩니다. 위의 build_filename 함수는 빈 필드에 대해 해시(hash) 폴백(fallback)을 사용합니다. 이를 확장하여 대상 경로가 이미 존재하는지 확인하고, 존재할 경우 카운터(counter)를 추가하도록 만들 수 있습니다.

직접 구축하기 vs. 도구 활용하기

위의 파이프라인은 약 130줄 정도입니다. API 비용은 낮습니다. 일반적인 인보이스 길이에서 gpt-4o-mini 추출 비용은 문서당 $0.01 미만입니다. 사진에 대한 비전(Vision) 호출은 비용이 약간 더 높지만(detail: low 설정 시 각각 약 $0.01에서 $0.03), 적당한 규모에서는 관리 가능한 수준입니다.

유지보수 비용은 처음 보이는 것보다 높습니다. 전처리 예외 사례(edge cases) 처리, 새로운 문서 유형 대응, API 키 로테이션(rotation) 관리, 그리고 감시 폴더(watch folder)나 웹훅(webhook) 연결 등은 모두 실제 시간이 소요되는 작업입니다. 개인적인 워크플로우를 자동화하려는 경우, 위의 코드는 구축을 위한 견고한 토대가 됩니다.

만약 팀을 위해 이를 배포하거나 문서 관리 시스템(document management system)에 통합하려는 경우, 전용 도구들을 살펴보는 가치가 있습니다. renamer.ai는 REST API를 통해 OCR 및 비전 경로를 처리하며 유지보수 부담을 덜어줍니다. Filebot은 규칙 기반 명명(rule-based naming)을 사용하는 미디어 라이브러리에 강력합니다. 이미 AWS를 사용 중이고 대량의 데이터를 처리하고 있다면 AWS Textract가 합리적인 선택입니다. 올바른 결정은 인프라를 소유하는 것이 귀하의 상황에서 자산인지 아니면 비용인지에 달려 있습니다.

마치며

다음과 같은 콘텐츠 인식(content-aware) 이름 변경 파이프라인은:

임베디드된 PDF 텍스트를 읽거나 스캔된 문서에 Tesseract OCR을 실행합니다.
비전 모델 (vision model)을 사용하여 사진 콘텐츠를 설명합니다.
엄격한 zero-temperature LLM 프롬프트를 사용하여 구조화된 필드를 추출합니다.
일관되고 정제된 파일 이름 템플릿을 적용합니다.
신뢰할 수 있는 이름 지정이 불가능한 파일은 수동 검토 대기열 (manual review queue)로 보냅니다.

테스트 파일이 담긴 폴더에서 드라이 런 (dry-run) 모드로 시작하세요. 미리보기 출력 결과가 실제로 기대했던 내용과 일치하는지 검토하십시오. 추출이 원하는 대로 작동하면, 라이브 (live) 모드로 전환하여 배치 (batch) 단위로 처리하세요.

여기 있는 네 가지 기능은 독립성을 유지하도록 설계되었으므로, 나머지 부분을 건드리지 않고도 다른 OCR 라이브러리로 교체하거나, 다른 모델을 지정하거나, 파일 이름 형식을 변경할 수 있습니다.