Java로 신뢰할 수 있는 LLM 애플리케이션 구축하기

서론 (Introduction)

LLM(Large Language Models)은 보통 Python과 연관되어 생각되지만, 금융, 엔터프라이즈 백엔드, 장기 운영 서비스와 같은 수많은 프로덕션 소프트웨어는 JVM(Java Virtual Machine) 위에서 실행되며, 이러한 시스템들도 점점 더 언어 모델을 호출해야 할 필요성이 커지고 있습니다. Java의 강력한 타입 시스템 (Strong typing)과 성숙한 툴링 (Tooling)은 여기서 진정한 자산이 됩니다. 이는 신뢰할 수 있는 LLM 애플리케이션이 요구하는 정확한 규율을 갖추도록 유도합니다.

핵심 사고방식은 어떤 언어에서든 동일합니다: 모델의 출력을 신뢰해야 할 사실이 아니라, 검증해야 할 가설로 취급하십시오. 이 포스트에서는 Anthropic의 Claude와 공식 anthropic-java SDK를 사용하여 Java LLM 애플리케이션을 프로덕션 수준으로 만드는 관행들을 다룹니다.

작업에 적합한 모델 선택하기 (Pick the Right Model for the Task)

모델 선택은 기본 설정이 아니라 결정 사항입니다. 작업의 난이도에 맞춰 모델의 등급을 맞추십시오. 어려운 추론에는 가장 강력한 모델을, 대량의 단순 작업에는 비용이 저렴하면서도 역량 있는 모델을 사용하십시오.

import com.anthropic.client.AnthropicClient;
import com.anthropic.client.okhttp.AnthropicOkHttpClient;
import com.anthropic.models.messages.MessageCreateParams;
...

대량의 분류 작업의 경우, Model.CLAUDE_HAIKU_4_5는 비용이 아주 적게 듭니다. 저렴한 모델로 충분한 곳에서 비싼 모델을 절대 실행하지 마십시오. 비용과 지연 시간 (Latency)은 사후 고려 사항이 아니라 추적해야 할 기능적 요소입니다.

타입화된 출력 받기 — 산문(Prose)을 파싱하지 마세요 (Get Typed Output — Don't Parse Prose)

LLM 앱에서 가장 취약한 부분은 자유 형식의 텍스트에서 구조화된 데이터를 추출하는 것입니다. Java의 타입 시스템 (Type system)은 더 나은 경로를 자연스럽게 만들어 줍니다: 원하는 형태를 위한 레코드 (Record)를 정의하고, SDK가 JSON 스키마 (JSON schema)를 도출하게 하여 모델을 이에 제한한 뒤, 타입화된 객체 (Typed object)를 돌려받도록 하십시오.

import com.anthropic.models.messages.StructuredMessageCreateParams;
import java.util.List;

...

이를 통해 "모델이 보통 JSON을 반환한다"는 상황을 "모델이 _이 레코드_를 반환한다"로 바꿀 수 있습니다. ObjectMapper를 이용한 복잡한 기교나, 수동으로 파싱한 필드에 대한 방어적인 null 체크가 필요 없습니다.

모델에 근거 제공하기 — 환각을 허용하지 마세요 (Ground the Model — Don't Let It Hallucinate)

LLM은 사실을 자신 있게 지어낼 것입니다. 정확해야 하는 모든 사항에 대해서는 소스 자료를 제공하고, 모델이 오직 그 자료만을 사용하여 답변하도록 지시하며, 명시적인 탈출구(escape hatch)를 마련해야 합니다.

String prompt = """
    아래의 컨텍스트(context)만을 사용하여 질문에 답하세요.
    만약 답변이 컨텍스트에 없다면, "모르겠습니다"라고 말하세요.
...

"컨텍스트만을 사용하라"는 지시와 "모르겠다고 말하라"는 탈출구를 함께 사용하면, 모델이 공백을 메우기 위해 내용을 꾸며내는 것을 방지할 수 있습니다. 감사 가능성(auditability)을 위해, 모델이 어떤 구절을 사용했는지 인용하게 하여 사람이 검증할 수 있도록 하세요.

예외적인 경로(Unhappy Path) 처리하기

네트워크는 실패할 수 있고 속도 제한(rate limits)도 발생합니다. Java SDK는 일시적인 오류(429, 5xx, 연결 실패)를 백오프(backoff)와 함께 재시도(retry)합니다. 이를 직접 다시 구현하기보다는 설정을 통해 활용하세요.

AnthropicClient client = AnthropicOkHttpClient.builder()
    .fromEnv()
    .maxRetries(4)
...

타입화된 예외(typed exceptions)를 포착하고, 재시도 가능한 오류와 종료해야 하는 오류를 구분하여 분기 처리하세요. 400 오류는 요청 자체의 버그이므로 재시도할 대상이 아닙니다.

import com.anthropic.errors.RateLimitException;
import com.anthropic.errors.BadRequestException;

...

모델의 결정에 의해 실행되는 부수 효과(side effects)가 있는 모든 작업(결제, 외부 이메일 발송 등)은 **멱등성(idempotent)**을 갖추어야 합니다. 재시도나 모델의 동작으로 인해 동일한 작업이 두 번 트리거될 수 있기 때문입니다.

제어 흐름은 코드에, 판단은 모델에

모델은 판단을 위해 사용하고, Java는 장부 기록(bookkeeping)을 위해 사용하세요. 루프(loops), 분기(branching), 팬아웃(fan-out)은 결정론적인(deterministic) 코드에 속해야 합니다. 도구 사용(agentic) 작업의 경우, 도구를 실행하기 전에 모든 도구 호출을 검증, 제어 및 로그를 남길 수 있도록 루프를 직접 제어하세요.

// 의사코드(Pseudocode) 형태 — 모델이 도구 요청을 중단할 때까지 루프 실행
while (true) {
    Message response = client.messages().create(paramsWithTools);
...

모델은 무엇을 할지 결정하고, 여러분의 코드는 그것이 _허용되는지_를 결정하며 발생한 일을 기록합니다. 이것이 바로 타입 체크, 경계에서의 검증, 명시적인 예외 처리와 같은 Java의 가드레일(guardrails)이 빛을 발하는 지점입니다.

다른 신뢰할 수 없는 입력과 마찬가지로 출력을 평가하기

JUnit 테스트 없이 메서드를 배포하지 않듯이, 평가(eval) 없이 프롬프트를 배포하지 마세요. 알려진 정답(known-good outputs)이 포함된 대표적인 입력값들로 구성된 작은 데이터셋을 유지하고, 프롬프트를 변경하거나 모델을 교체할 때마다 이를 기준으로 모델을 점수화(score)하세요:

double evaluate(List<TestCase> cases) {
    long passed = cases.stream()
        .filter(c -> extractInvoice(c.input()).total() == c.expectedTotal())
...

평가(Evals)는 하나의 케이스를 개선하기 위한 프롬프트 수정이 다른 열 개의 케이스를 조용히 망가뜨리는 회귀(regression) 현상을 포착합니다. 이는 테스트 스위트(test suite)가 실패하는 것과 동일한 LLM 버전의 상황입니다.

비용과 지연 시간(Latency)을 줄이기 위한 반복적 컨텍스트 캐싱 (Cache Repeated Context)

많은 요청이 시스템 프롬프트(system prompt), 방대한 문서, 퓨샷 예시(few-shot examples)와 같이 크고 고정된 접두사(prefix)를 공유할 때, 프롬프트 캐싱(prompt caching)을 사용하면 해당 접두사를 훨씬 적은 비용과 지연 시간으로 제공할 수 있습니다. 안정적인 블록을 캐시 제어(cache control)로 표시하고 가장 앞에 배치하세요:

import com.anthropic.models.messages.TextBlockParam;
import com.anthropic.models.messages.CacheControlEphemeral;
import java.util.List;
...

캐싱은 접두사 일치(prefix match) 방식입니다. 따라서 안정적인 콘텐츠를 먼저 배치하고, 요청마다 변하는 내용(사용자의 질문, 타임스탬프 등)을 그 뒤에 배치하세요. 반복적인 호출에도 cacheReadInputTokens가 계속 0으로 유지된다면, 무언가 변동성이 큰 요소가 접두사를 무효화하고 있는 것입니다.

실무 체크리스트

관행 (Practice)	중요성 (Why it matters)
작업 난이도에 맞는 모델 티어(tier) 선택	과도한 비용 지불이나 자원 부족 방지
...

마치며

신뢰할 수 있는 LLM 애플리케이션은 완벽한 프롬프트를 찾는 것으로 구축되지 않습니다. 그것은 Java 개발자들이 이미 실천하고 있는 것과 동일한 엔지니어링 규율(engineering discipline)을 통해 구축됩니다: 경계에서의 강력한 타입(strong types), 신뢰할 수 없는 출력에 대한 검증, 결정론적 제어 흐름(deterministic control flow), 명시적인 에러 처리(explicit error handling), 그리고 측정 가능한 테스트입니다.

모델은 판단(judgment)을 제공합니다. 그 주변을 둘러싼 타입이 지정되고, 테스트되었으며, 가드레일(guard-railed)이 갖춰진 시스템이 바로 그 판단을 믿고 의지할 수 있게 만듭니다. 그리고 그 시스템이야말로 JVM 생태계가 잘 실행되도록 설계된 바로 그 종류의 것입니다.

Insights