LLM 아키텍처 설명

요약

Llama 3, Qwen 3, DeepSeek V3와 같은 LLM의 내부 아키텍처를 시각화하여 설명해주는 터미널 기반 도구 구축 가이드입니다. Oxlo.ai의 함수 호출 기능을 활용하여 ASCII 다이어그램과 텐서 차원 추적을 생성하는 Python 구현 방법을 다룹니다.

핵심 포인트

Oxlo.ai API를 활용한 함수 호출 기반 아키텍처 설명기 구현
ASCII 다이어그램을 통한 트랜스포머 블록의 단계별 시각화
시스템 프롬프트를 통한 대상별(초급~전문가) 설명 복잡도 조절
추가 프레임워크 없이 순수 Python과 OpenAI SDK로 에이전트 구축

저는 Llama 3, Qwen 3, 그리고 DeepSeek V3가 내부적으로 실제로 어떻게 작동하는지 우리 백엔드 팀에게 온보딩하기 위해 터미널 기반의 아키텍처 설명기(Architecture Explainer)를 구축했습니다. 이것은 Oxlo.ai의 함수 호출 (function calling)을 사용하여 ASCII 다이어그램과 트랜스포머 블록 (transformer blocks)의 단계별 추적 (step-by-step traces)을 생성하는 단일 Python 파일입니다. Python을 읽을 줄 알고 LLM을 블랙박스 (black boxes)로 취급하는 것을 그만두고 싶다면, 이 도구가 그 목표를 달성하게 해줄 것입니다.

필요한 사항

https://portal.oxlo.ai에서 발급받은 Oxlo.ai API 키
Python 3.10 이상
OpenAI SDK: pip install openai

1단계: 클라이언트 및 시스템 프롬프트 부트스트랩

로직을 건드리지 않고 톤을 조정할 수 있도록 시스템 프롬프트 (system prompt)를 상수에 유지합니다. 이 프롬프트는 모델에게 정확한 형상 (shapes)과 텐서 차원 (tensor dimensions)을 사용하여 트랜스포머 구성 요소를 설명하도록 지시합니다.

SYSTEM_PROMPT = """당신은 시니어 백엔드 개발자에게 트랜스포머 아키텍처 (transformer architecture)를 설명하는 스태프 ML 엔지니어입니다.
규칙:
- 행렬을 설명할 때 항상 텐서 형상 (tensor shapes)을 언급하세요.
...

from openai import OpenAI

client = OpenAI(base_url="https://api.oxlo.ai/v1", api_key="YOUR_OXLO_API_KEY")
...

2단계: 도구 스키마 (tool schema) 정의

모델이 구조화되지 않은 텍스트를 쏟아내는 대신 적절한 출력 형식을 선택할 수 있도록 세 가지 도구 (tools)를 제공합니다.

TOOLS = [
    {
        "type": "function",
...

3단계: 도구 핸들러 (tool handlers) 구현

각 도구는 문자열을 반환하는 순수 함수 (pure function)입니다. 에이전트가 어떤 터미널에서도 작동할 수 있도록 다이어그램을 텍스트 기반으로 유지합니다.

def draw_architecture(component: str, model_name: str = "") -> str:
    if component == "kv_cache":
        return """
...

4단계: 대화 루프 구축

메시지 리스트 (messages list)를 유지하고 모델이 언제 도구를 호출할지 결정하게 합니다. 이를 통해 추가적인 프레임워크 없이 상호작용을 상태 유지 (stateful) 방식으로 유지할 수 있습니다.

import json

def run_explainer():
...

5단계: 복잡도 수준 추가

동일한 에이전트가 부트캠프 졸업생이나 CUDA 커널 엔지니어 모두에게 RoPE를 설명할 수 있도록 시스템 프롬프트에 복잡도 마커 (complexity marker)를 주입합니다.

COMPLEXITY = {
    "beginner": "비유를 사용하여 설명하세요. 행렬 수학 (matrix math)은 피하세요. 음식이나 워크플로우 비유를 사용하세요.",
    "intermediate": "텐서 형상 (tensor shapes)과 PyTorch 스타일의 의사 코드 (pseudocode)를 사용하세요. CUDA 세부 사항은 제외합니다.",
...

실행하기 (Run it)

스크립트를 explainer.py로 저장하고, YOUR_OXLO_API_KEY를 설정한 뒤 다음을 실행하세요:

python explainer.py

출력 예시:

Assistant: Llama 3.3 70B를 위한 KV 캐싱 (KV caching)을 단계별로 설명하겠습니다.
Tool [draw_architecture]:
        +-----------+     +-------+     +--------+
...

에이전트는 더 이상 찾아볼 정보가 없을 때 멈춥니다. Oxlo.ai는 요청당 고정 가격제 (flat per-request pricing)를 사용하므로, 긴 시스템 프롬프트 (system prompts)와 다회차 도구 체인 (multi-turn tool chains)을 반복하더라도 토큰 기반 가격제 (token-based pricing)처럼 비용이 급격히 증가하지 않습니다. 자세한 내용은 https://oxlo.ai/pricing을 참조하세요.

마무리 (Wrap-up)

두 가지 구체적인 다음 단계입니다. 첫째, 팀원들이 python explainer.py --level advanced --model llama-3.3-70b를 실행할 수 있도록 복잡도 플래그 (complexity flag)를 CLI 인자 (CLI argument)로 노출하세요. 둘째, 도구 응답 (tool responses)을 로컬 SQLite 데이터베이스에 캐싱 (cache)하여, KV 캐싱에 대한 반복적인 질문이 API 대신 디스크 (disk)를 참조하도록 하세요.

AI 자동 생성 콘텐츠

원문 바로가기