AI 엔지니어 인터뷰 플레이북

2026년 AI 엔지니어 인터뷰를 준비하고 통과하기 위해 필요한 모든 것. 기업들이 실제로 테스트하는 내용을 바탕으로 명확하고 체계적으로 구성되었습니다.

데이터 기반 현장 조사 및 실무자 가이드를 통해 종합되었습니다: Alexey Grigorev의 AI Engineering Field Guide (4,894개의 직무 기술서 + 100개 이상의 후보자 사례), Amit Shekhar의 AI Engineering Interview Questions, Rohit Ghumare의 AI Engineering from Scratch, IGotAnOffer의 AI 엔지니어 가이드 (Meta 엔지니어링 리더 Viral G 포함), Brian Kihoon Lee의 Interviewing for ML/AI Engineers (Modern Descartes), 365 Data Science, 그리고 Chip Huyen, Eugene Yan, Hamel Husain 및 합격자들(Mimansa Jaiswal, Yuan Meng, Janvi Kalra)의 저술.

📋 목차

⚡ 요약 (TL;DR)
1. 🧭 AI 엔지니어의 실제 정의
2. 🗺️ 인터뷰 프로세스 (예상 과정)
3. 🎯 6가지 질문 카테고리
4. 🧠 핵심 지식 체크리스트
5. 💻 코딩 라운드
6. 🏗️ AI 시스템 디자인 (AI System Design)
7. 📊 평가 (Evaluation) — 가장 큰 차별화 요소
8. 📦 테이크홈 과제 (Take-home assignment)
9. 🗣️ 프로젝트 심층 분석 및 행동 질문 (Behavioral)
10. 🌟 합격자를 결정짓는 차이점
11. ⚠️ 피해야 할 흔한 실수
12. 📅 8~12주 준비 계획
13. 💰 오퍼(Offers) 및 협상
14. ❓ 가장 빈번한 80가지 질문 (및 답변)
15. ✅ 최종 체크리스트
📚 함께 읽으면 좋은 글
📖 출처 및 추가 읽을거리

⚡ 요약 (TL;DR)

AI 엔지니어 역할은 **AI 시스템을 활용하는 소프트웨어 엔지니어링 (Software Engineering)**입니다. 즉, 모델을 처음부터 학습시키는 것이 아니라, 모델(LLM, RAG, 에이전트)을 오케스트레이션하여 신뢰할 수 있는 제품으로 만들어내는 것입니다. 인터뷰는 다음 6가지를 테스트합니다: ML/LLM 기초, 응용 ML (Applied ML), LLM/RAG 엔지니어링, 코딩, AI 시스템 디자인, 그리고 행동 질문 (Behavioral).

한 가지만 기억하세요: 기업은 LLM API를 호출할 줄 아는 사람이 아니라, AI 시스템 빌더 (AI system builders)를 채용하고 있습니다. 가장 빠르게 두각을 나타내는 방법은 _제품 + 시스템 소유자 (product + system owner)_처럼 생각하고, **실패 모드 (failure modes)**에 대해 명확히 언급하며, **평가 엄밀성 (evaluation rigor)**을 보여주는 것입니다. 평가는 후보자들 사이에서 가장 큰 기술 격차를 보이는 부분이며, 따라서 여러분에게 가장 큰 기회이기도 합니다.

나머지는 규율의 문제입니다: 탄탄한 자료구조 및 알고리즘 (DSA) + Python, 2~3개의 배포된 엔드 투 엔드 (end-to-end) 프로젝트, 그리고 트레이드오프 (trade-offs) (품질 vs. 지연 시간 (latency) vs. 비용)를 말로 설명할 수 있는 능력입니다.

1. 🧭 AI 엔지니어란 실제로 무엇인가

이 역할은 새롭고 정의가 아직 정립되는 과정에 있으므로, 첫 번째 과제는 자신이 무엇을 위해 채용되는지를 아는 것입니다.

핵심 책임: 제품에 AI를 통합하는 것입니다. API를 통해 LLM 제공업체 (OpenAI, Anthropic)와 협력하고, PM과 파트너가 되어 AI가 해결할 수 있는 실제 사용자 문제를 찾아내며, 안정적으로 제품을 출시(ship)합니다. 이는 "AI는 멋지니까 사용해 보자"가 아니라, _실제 문제_에서 시작됩니다.

🔀 AI 엔지니어 vs. ML 엔지니어 vs. 데이터 사이언티스트

	초점 (Focus)	소유 (Owns)	일상 업무 (Day-to-day)
AI 엔지니어	모델을 사용하여 구축	프롬프트 (Prompts), 파이프라인 (pipelines), 통합 (integration)	RAG, 프롬프팅 (prompting), 도구 (tools), 에이전트 (agents), 평가 (evals)
...

경계는 모호하며 업계는 이들을 하나의 스펙트럼 (spectrum)으로 취급합니다. 실제로 대부분의 채용 공고는 "ML 엔지니어" 또는 "AI 중심의 소프트웨어 엔지니어"입니다. 채용 담당자들이 일관되게 전하는 메시지는 다음과 같습니다: "기업은 직함(title)을 보고 채용하지 않습니다. 여러분이 신뢰할 수 있는 AI 시스템을 구축할 수 있는지를 알고 싶어 합니다." 만약 여러분이 모델링만 할 수 있거나 시스템 구축만 할 수 있다면, 이미 뒤처진 것입니다.

📈 점진적 복잡성 (문제가 어디에 위치하는지 파악하기)

단순함 (Simple): 사용자 입력 → 프롬프트 + LLM API → 응답.
RAG (~5배 더 어려움): 데이터 파이프라인, 검색 엔진 (벡터/텍스트), 검색 (retrieval), 신뢰성 추가.
에이전트 (Agents) (~10배 더 어려움): 도구 호출 (tool calls), 다단계 루프 (multi-step loops), 추적 계측 (trace instrumentation), 도구 배포 관리 (tool-rollout management) 추가.

🚫 AI 엔지니어가 보통 하지 않는 일

모델을 처음부터 생성하거나, 커스텀 아키텍처 (custom architectures)를 구축하거나, 과도한 피처 엔지니어링 (feature engineering)을 수행하지 않습니다. 이들이 하는 일은 다음과 같습니다: AI 시스템을 위한 엔지니어링 베스트 프랙티스 (engineering best practices), 프롬프트 디자인 (prompt design) 및 버전 관리 (versioning), 제품 통합 (product integration), 그리고 **평가 및 모니터링 (evaluation + monitoring)**입니다.

2. 🗺️ 인터뷰 프로세스 (예상되는 과정)

실제 채용 공고와 지원자 보고서 분석에 따르면: 중앙값은 4단계이며, 대부분 3~5단계 범위에 속하고, 전체 과정은 2~6주 동안 진행됩니다.

단계	일반적인 소요 시간	테스트 항목
리크루터 / 인재 스크리닝 (Recruiter / talent screen)	15–30분	적합성, 희망 연봉
...

🏢 실제 루프 (지원자 보고서 기반)

Mistral AI (Applied AI Engineer): LLM 이론 → 코딩 → 프로젝트 심층 분석 (project deep-dive) → 테크 매니저 (tech manager) → ML 시스템 디자인 (ML system design) → 테이크홈 과제 (take-home) → 가치관 면접 (values talk).
Amazon (GenAI, L6): LeetCode + 실무 ML 코딩 (NumPy를 이용한 코사인 유사도 계산) → SDE 기준 검증 → GenAI 심화 지식 (LLM/ViT 아키텍처, 파인튜닝 (fine-tuning), ROI 추정) → 전 과정에 걸친 리더십 원칙 (Leadership Principles).
Eightfold.ai (Agentic AI): AI 에이전트가 진행하는 코딩 라운드 → 에이전트 구축을 위한 3일간의 테이크홈 과제 → EM과의 DSA (자료구조 및 알고리즘) 인터뷰.
LangChain (AI Engineer): 테이크홈 과제 (에이전트 구축) → 솔루션 토론 → 응용 시스템 디자인 (applied system design).
PostHog: 인재 콜 (talent call) → 60분 기술 면접 → 공동 창업자 콜 → 유급 풀데이 슈퍼데이 (paid full-day SuperDay) (보상이 지급되는 실제 업무 수행).
Microsoft (Applied AI/ML 인턴): AI 보조 코딩 (ChatGPT를 사용한 후, 수정된 문제에 대해 다시 프롬프트 작성) → AI 도구 없는 순수 코딩 → 행동 면접 (behavioral).

알아야 할 두 가지 트렌드: (1) 부정행위에 대응하기 위해 대면 라운드가 다시 부활했습니다 (2022년 약 24%에서 2025년 약 38%로 증가). 프런티어 랩 (frontier labs)들은 점점 더 온사이트 (onsite) 면접을 요구하고 있습니다. (2) 레퍼런스 체크 (References)가 더 중요해졌습니다 — 대부분의 상위 기업들은 이제 최근 매니저로부터 2~3개의 레퍼런스를 요구합니다.

3. 🎯 6가지 질문 카테고리

거의 모든 AI 엔지니어 루프는 이 6가지 범주에서 추출됩니다. 6가지 모두를 준비하되, 연차와 역할에 따라 비중을 조절하세요.

ML 및 딥러닝 기초 (ML & deep learning fundamentals) — 편향/분산 (bias/variance), 과적합 (overfitting), 정밀도/재현율 (precision/recall), ROC, 경사 하강법 (gradient descent), CNNs, transformers, BERT/GANs.
응용 ML 및 인프라 (Applied ML & infrastructure) — 파이프라인 (pipelines), 미세 조정 (fine-tuning), 전이 학습 (transfer learning), FP32/FP16/BF16 트레이드오프 (trade-offs), 희소 vs 밀집 (sparse vs. dense), 배포 (deployment).
LLM 엔지니어링 및 RAG (LLM engineering & RAG) — 토큰화 (tokenization), 컨텍스트 제한 (context limits), 비용/지연 시간 (cost/latency), 환각 (hallucination), 임베딩 (embeddings), 벡터 검색 (vector search), 청킹 (chunking), 그라운딩 (grounding), 재순위화 (re-ranking).
코딩 / Python 기초 (Coding / Python fundamentals) — 자료구조 및 알고리즘 (DSA: 인덱싱/탐색/그래프/트리/힙), Python 내부 동작 (GIL, is vs ==, 가변/불변 (mutable/immutable), 비동기 (async)), SQL.
AI 시스템 디자인 (AI system design) — 엔드 투 엔드 파이프라인 (end-to-end pipelines), 캐싱 (caching), 비용 (cost), 신뢰성 (reliability), 실패 모드 (failure modes).
행동 질문 (Behavioral) — 모호함 (ambiguity), 커뮤니케이션 (communication), 영향력 (influence), AI 윤리 (AI ethics), 트레이드오프 책임 (trade-off ownership).

📌 연차별 집중 분야 (Focus by seniority)

레벨	강조 사항
주니어 / 인턴 (Junior / Intern)	코딩 기초, 기본 ML 개념, 프로젝트에 대한 열정, 학습 의지
...
시니어/스태프(senior/staff) 레벨에서는 면접관이 많은 주제를 피상적으로 다루기보다, 3~5가지 주제를 선정하여 실패 모드와 트레이드오프에 대해 깊게 파고듭니다. 깊이가 넓이보다 중요합니다.

4. 🧠 핵심 지식 체크리스트 (Core knowledge checklist)

스스로 점검할 수 있도록 그룹화된 필수 지식 범위입니다. 모든 고급 항목을 알 필요는 없지만, 기초에 능숙해야 하며 트레이드오프에 근거한 _자신만의 견해(opinions)_를 가지고 있어야 합니다.

🔤 LLM 기초 (LLM fundamentals)

Transformers: 셀프 어텐션 (self-attention), Q/K/V, 멀티 헤드 어텐션 (multi-head attention), 위치 인코딩 (positional encoding, RoPE), 인코더 vs 디코더 vs 인코더-디코더 (encoder vs. decoder vs. encoder-decoder).
토큰화 (Tokenization): BPE, WordPiece/SentencePiece, 도메인 용어가 왜 잘못 분할되는지.
생성 제어 (Generation controls): temperature, top-p/top-k 샘플링 (sampling), 로짓 (logits), 컨텍스트 윈도우 (context window), 첫 번째 토큰이 왜 느린지 (prefill vs. decode).
효율성 (Efficiency): KV 캐시 (KV cache), 양자화 (quantization: INT8/INT4, FP16/BF16), 증류 (distillation), MoE, Flash Attention, GQA.
정렬 (Alignment): RLHF, DPO, 인스트럭션 튜닝 (instruction tuning), 보상 해킹 (reward hacking), "정렬 세금 (alignment tax)".

📚 RAG (기본 요건 — 심도 있는 질문을 예상하세요)

아키텍처 (Architecture): 청킹 (chunk) → 임베딩 (embed) → 인덱싱 (index) → 검색 (retrieve) → 재순위화 (re-rank) → 생성 (generate).
청킹 전략 (Chunking strategies): 고정형 (fixed), 재귀형 (recursive), 의미론적 (semantic), 부모-자식 (parent-child). 청크 크기(chunk size)를 선택하는 방법.
검색 (Retrieval): 밀집 (dense) vs 희소 (sparse) 임베딩, 코사인 (cosine)/내적 (dot)/유클리드 (Euclidean) 유사도, 근사 최근접 이웃 (ANN), 하이브리드 검색 (hybrid search), 재순위화 (re-ranking).
실패 모드 (Failure modes): 양질의 컨텍스트가 있음에도 발생하는 환각 (hallucination), "중간에서 길을 잃음 (lost in the middle)", 멀티홉 질문 (multi-hop questions), 상충하는 출처 (conflicting sources), 오래된 데이터 (stale data).
쿼리 변환 (Query transforms): HyDE, 분해 (decomposition), 스텝백 프롬프팅 (step-back prompting). 인용/출처 표기 (Citation/source attribution).
핵심 트레이드오프 (The key trade-off): RAG vs 파인튜닝 (fine-tuning) vs 프롬프트 엔지니어링 (prompt engineering) — 그리고 RAG를 사용하지 말아야 할 때.

🤖 에이전트 (Agents)

ReAct, 계획 및 실행 (Plan-and-Execute), 성찰 패턴 (Reflection patterns); 도구 사용 (tool use) / 함수 호출 (function calling); MCP.
에이전트 메모리 (단기, 장기, 에피소드적 메모리 (short-term, long-term, episodic)); 에이전트 루프 (agent loop) 및 중단 조건 (stop conditions).
실패 처리 (Failure handling): 무한 루프 (infinite loops), 잘못된 도구 선택 (wrong tool selection), 잘못된 파라미터 추출 (bad parameter extraction), 토큰/예산 폭발 (token/budget blowups), 되돌릴 수 없는 동작에 대한 가드레일 (guardrails).
단일 에이전트 vs 멀티 에이전트 (Single vs multi-agent); 오케스트레이션 (orchestration); 인간 참여형 (human-in-the-loop).

🎛️ 파인튜닝 (Fine-tuning)

전체 파인튜닝 (Full) vs PEFT; LoRA / QLoRA; 접두사/프롬프트 튜닝 (prefix/prompt tuning); 어댑터 (adapters).
파인튜닝을 해야 하는 시점 (극단적인 전문화 또는 지연 시간 (latency) 문제) vs 프롬프트 + RAG를 기본으로 사용하는 경우.
파괴적 망각 (Catastrophic forgetting), 데이터셋 준비 (dataset prep), 주요 하이퍼파라미터 (학습률 (LR), 에포크 (epochs), LoRA 랭크 (rank)).

🚀 LLMOps / 프로덕션 (production)

서빙 (Serving) (vLLM, 연속 배칭 (continuous batching), 추측적 디코딩 (speculative decoding), 페이지드 어텐션 (paged attention)).
프롬프트 캐싱 (Prompt caching), 의미론적 캐싱 (semantic caching), 스트리밍 (streaming), 구조화된 출력 (structured output).
관측 가능성 (Observability): 첫 토큰 생성 시간 (TTFT), 토큰 간 지연 시간 (inter-token latency), 초당 토큰 수 (tokens/sec), 사용자당 비용 (per-user cost), 트레이싱 (tracing), 드리프트 (drift).
비용 및 신뢰성 (Cost & reliability): 모델 라우팅 (model routing), 폴백 (fallbacks), 속도 제한 (rate limiting), 우아한 성능 저하 (graceful degradation), 제공업체 중복성 (provider redundancy).

🛡️ 안전성 (Safety)

프롬프트 인젝션 (Prompt injection) (직접적/간접적), 탈옥 (jailbreaks), 데이터 유출 (data leakage), 개인정보 (PII) 처리.
입출력 가드레일 (Input/output guardrails), 콘텐츠 필터링 (content filtering), 레드팀 (red teaming), 환각 탐지 (hallucination detection).

💡 심도 테스트 (Depth test): 면접관은 "RAG가 무엇인가?" 보다 _"언제 RAG를 사용하지 말아야 하는가?"_를 더 가치 있게 평가합니다. 모든 개념은 트레이드오프 (trade-off)와 실패 모드 (failure mode)를 동반해야 합니다.

5. 💻 코딩 라운드 (The coding round)

이 역할은 여전히 대부분 소프트웨어 엔지니어링에 해당하므로, 자료 구조 및 알고리즘 (DSA) 기초는 타협할 수 없는 필수 사항입니다. 알고리즘 라운드는 OpenAI, Anthropic (완벽한 정확성을 요구하는 90분 CodeSignal), xAI (LeetCode Hard 수준), Eightfold 등에서 실시됩니다.

집중 연습할 사항

DSA: NeetCode 150/250, 암기가 아닌 패턴(인덱싱/탐색/그래프/트리/힙)에 집중하세요. 간격 반복 (Spaced repetition)을 활용하세요.
Python 심화: GIL, 동시성 (concurrency) 대 병렬성 (parallelism), 비동기 패턴 (async patterns), 경쟁 상태 (race conditions), is 대 ==, 가변 (mutable) 대 불변 (immutable), 재현 가능한 코드 (reproducible code).
SQL: 데이터셋 처리를 위해 필요합니다.
풀스택 기초: 많은 AI 역할은 "은근한 풀스택 (low-key full-stack)"입니다. JS 이벤트 루프 (JS event loop), 데이터베이스 선택, 메시지 큐 (message queues) 등을 대비하세요.

AI 스타일의 코딩 (흔한 워밍업 문제)

코사인 유사도 (Cosine similarity) / 내적 (dot product) / 유클리드 거리 (Euclidean distance)를 밑바닥부터 구현 (NumPy 사용).
기본적인 RAG 파이프라인; 시맨틱 검색 (semantic search); 청킹 전략 (chunking strategies).
도구 사용 (tool use) 기능이 포함된 간단한 에이전트; 함수 호출 (function-calling) 핸들러.
지수 백오프 (exponential backoff)를 적용한 재시도; 토큰 카운팅 / 컨텍스트 관리 (context management); 시맨틱 캐시 (semantic cache).
밑바닥부터 구현하는 ML (From-scratch ML) (프런티어 연구소 기준): 멀티 헤드 어텐션 (multi-head attention), 트랜스포머 레이어 (transformer layer), LoRA, 메모리 상의 KV 캐시 (KV cache). 텐서 차원을 추적하기 위해 형태 접미사 (shape suffixes) (Noam Shazeer 방식)를 사용하세요. 참고: 이러한 라운드는 종종 25~35분 내에 진행되며, 디버깅 시간은 주어지지 않습니다.

⚠️ 현대의 면접관들은 AI 보조 코딩 (AI-assisted coding) 라운드를 진행할 수도 있습니다 (ChatGPT로 문제를 해결한 뒤, 면접관이 문제를 변경하면 다시 프롬프트를 작성하게 함). 이들은 당신이 도구 없이 코딩할 수 있는지 여부가 아니라, _어떻게 도구에 프롬프트를 입력하고, 검증하며, 지시하는지_를 테스트합니다.

6. 🏗️ AI 시스템 디자인 (AI system design)

이 단계는 시니어 후보자들이 승패를 결정짓는 지점입니다. 기준은 단순히 "도구의 이름을 대는 것"이 아니라, 엔드 투 엔드 (end-to-end) 시스템 사고와 시스템이 _어떻게 고장 나는지_에 대한 명확한 이해입니다.

🧱 효과적인 프레임워크

모든 솔루션을 파이프라인으로 제시한 다음, 각 단계를 스트레스 테스트(stress-test) 하세요:

입력 (Input) → 검색 (Retrieval) → 생성 (Generation) → 검증 (Verification) → 피드백 (Feedback)

각 단계에 대해 다음 질문에 답하세요: 어떻게 실패하며, 어떻게 수정할 것인가? "시스템이 어떻게 망가지는지, 그리고 어떻게 고칠 수 있는지를 설명할 수 없다면, 당신은 아직 준비되지 않은 것입니다."

깊은 인상을 남기는 6가지 습관

제품 및 비즈니스 지표(Metrics)를 우선시하십시오. 모델 이름을 언급하기 전에 사용자 가치(작업 성공률, 유지율(Retention), 지연 시간(Latency), 비용)에 초점을 맞추십시오.
정적인 파이프라인(Pipeline)이 아닌 라이프사이클(Lifecycle) 관점에서 생각하십시오. 단순하게 시작하여, 측정하고, 병목 현상(Bottleneck)을 찾아내며, 반복(Iterate)하십시오. "지표를 개선하는 곳에만 복잡성을 추가하십시오."
트레이드오프(Trade-offs)에 능숙해지십시오. 품질 vs 지연 시간 vs 비용; 내부 모델(Internal model) vs 외부 API; 검색 깊이(Retrieval depth) vs 환각(Hallucination) 위험성 등.
실패 모드(Failure modes)를 선제적으로 언급하십시오. 환각(Hallucination), 잘못된 검색(Bad retrieval), 프롬프트 취약성(Prompt brittleness) 등을 언급하고, 이에 대한 완화 방법(Mitigation)을 제시하십시오.
평가(Evaluation)의 엄격함을 보여주십시오 (§7 참조).
실용적인 판단력을 입증하십시오: "여기에는 LLM을 사용하지 않겠습니다. 과잉 사양(Overkill)입니다," "더 저렴한 모델과 규칙(Rules)을 조합하여 80%의 성능을 얻을 수 있습니다," "신뢰도 임계값(Confidence threshold)을 설정하여 비용이 많이 드는 호출을 제어하겠습니다."

💵 비용 추론은 프로토타입 제작자와 프로덕션 사고방식을 구분합니다

화이트보드에서 즉석으로 추정할 준비를 하십시오. 예시:

일일 사용자 10만 명 × 10회 상호작용 × 약 2,000개 토큰 = 일일 20억(2B) 토큰 ≈ 프리미엄 모델 사용 시 일일 약 $13,000

Insights