본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 05. 14. 08:43

LLM 스터디 회고: 모델 선정과 프롬프트 설계의 실무 포인트

요약

본 스터디는 LLM 활용에 대한 막연한 이해를 넘어, 모델 선정 기준, 튜닝 방식의 역할 분담, 그리고 프롬프트 설계 원칙을 실무적인 판단 기준으로 확립하는 데 중점을 두었습니다. 참가자들은 인텔리전스, 가격, 속도 등 다각적 지표로 모델을 비교하고, SFT와 RLHF의 차이를 이해하며, 구조화된 프롬프트 작성법과 Temperature 설정의 목적별 활용 방안 등을 공유했습니다. 궁극적으로 LLM 사용의 재현성을 높이고 운영상의 리스크를 관리하는 실질적인 가이드라인을 마련한 것이 핵심입니다.

핵심 포인트

  • 모델 비교는 평판이 아닌 인텔리전스, 가격, 속도, 컨텍스트 윈도우 등 다각적 지표로 접근해야 한다.
  • Base Model은 문맥 보완에 강하고, Instruction Tuning(SFT)을 거친 모델은 실무의 지시 추종 및 안정적인 출력이 용이하다.
  • 프롬프트 설계 시 구조화, 절차 명시, 입출력 예시 제시 등을 통해 답변 품질의 변동성을 억제해야 한다.
  • Temperature 설정은 목적에 따라 달리 적용해야 하며, 정확성 중시는 낮은 값, 발상 폭 확보는 높은 값이 적합하다.
  • LLM 운영 시에는 기술적 학습 외에도 외부 서비스 접속을 위한 자격 증명 준비와 대체 시나리오 마련이 필수적이다.

배경

2026-04-23에 팀 내에서 LLM의 기초와 실무 적용을 정리하는 스터디를 실시했습니다.

총 74페이지의 자료를 한 번에 소화하는 것이 아니라, 약 3회에 걸쳐 이해를 쌓아가는 방식을 채택하였으며, 이번에는 전반부의 중요 논점을 중심으로 확인했습니다.

참가자 대부분은 일상적으로 LLM을 사용하면서도 「내부 메커니즘」, 「모델 비교의 판단 기준」, 「프롬프트 개선의 재현성」에 대해 불안함을 느끼고 있었습니다.

따라서 이번 목표는 단순히 용어를 아는 것이 아니라, 참가자들끼리 구현 시의 판단 기준을 공유할 수 있는 상태를 만드는 것이었습니다.

도중에 핸즈온(Hands-on)도 예정되어 있었으나, 외부 서비스 접속에 필요한 자격 증명(Credential) 준비가 완료되지 않아 당일은 강의 중심으로 전환했습니다.

아울러 본편 릴리스 완료 공유도 있었으며, 학습 스케줄은 고정된 것이 아니라 프로젝트 상황을 보고 유연하게 조정하는 방침을 확인했습니다.

스터디의 요점

첫 번째는 모델 비교를 「막연한 평판」이 아니라, 여러 지표로 분해해서 보는 것입니다.

스터디에서는 인텔리전스(Intelligence), 가격, 속도, 레이턴시(Latency), 컨텍스트 윈도우(Context Window)를 나란히 놓고 확인하며, 용도별로 후보를 좁히는 흐름을 공유했습니다.

특히 가격은 입출력 토큰에 따라 구조가 나뉘기 때문에, 단순한 단가 비교가 아니라 실운용의 입출력 비율을 고려한 관점이 필요함을 재확인했습니다.

두 번째는 인스트럭션 튜닝(Instruction Tuning)의 위치 설정입니다.

베이스 모델(Base Model)은 문맥 보완에는 강한 반면, 실무의 지시 추종에는 한계가 있습니다.

따라서 지시와 바람직한 답변의 쌍으로 미세 조정(Fine-tuning)함으로써 요약, 번역, 설명 등의 업무 태스크에서 안정적인 출력을 얻기 쉬워진다는 이해를 맞추었습니다.

또한 SFT(Supervised Fine-tuning)와 RLHF(Reinforcement Learning from Human Feedback)의 역할 차이를 정리하고, 공개 모델명의 접미사(Suffix)를 통해 튜닝 경향을 읽는 관점도 공유했습니다.

세 번째는 추론 사고와 프롬프트 설계의 실무 규칙입니다.

모델에 따라서는 답변 전에 사고 과정을 내부적으로 전개하는 동작이 있어, 같은 질문이라도 응답이 만들어지는 방식이 달라집니다.

이러한 차이를 전제로 프롬프트에서는 구조화, 절차 명시, 입출력 예시 제시, 답변 불가능 시의 방침 지정 등을 수행하여 품질의 변동을 억제하는 방침을 확인했습니다.

네 번째는 Temperature의 취급입니다.

낮은 설정은 요약, 번역, 구현 보조 등 정확성 중시 태스크에 적합하고, 높은 설정은 발상의 폭이 필요한 검토 태스크에 적합하므로, 목적에 따라 전환하는 운용이 타당하다고 정리했습니다.

인상 깊었던 포인트

좋았던 점은 참가자 A와 참가자 B가 「비교 사이트를 사용하여 그 자리에서 판단 기준을 언어화」한 것입니다.

추상론으로 끝나지 않고 동일한 조건에서 모델을 비교함으로써, 왜 그러한 선정이 되는지를 설명할 수 있는 상태에 가까워졌습니다.

또 다른 좋았던 점은 프롬프트 개선을 문장 편집으로서 다룬 것입니다.

중복 지시 삭제, 중요 지시 배치, 부정 표현의 바꿔 쓰기 등 즉시 재사용할 수 있는 관점이 명확해졌습니다.

더불어 중요 지시를 앞부분 또는 뒷부분으로 배치하면 준수율이 올라간다거나, 강조의 남용은 역효과를 낸다는 등의 운용상의 팁을 구체적인 사례와 함께 공유할 수 있었던 점도 유익했습니다.

반면 과제는 핸즈온 실행에 필요한 인증 정보의 준비 부족입니다.

환경 동기화가 완료되었더라도 외부 서비스 인증이 통과되지 않으면 검증은 중단됩니다.

실무에서는 학습 계획과 동일한 비중으로 「전날까지의 접속 확인」, 「당일의 대체 시나리오」를 준비해야 함을 실감했습니다.

또한 프롬프트가 너무 길어지면 비용과 응답 시간이 증가하고 리뷰 부하도 높아지기 때문에, 품질 개선과 운용 부하 사이의 균형을 지속적으로 맞출 필요가 있습니다.

요약

이번 스터디를 통해 LLM 활용을 감각이 아닌 판단 기준으로 운용하기 위한 토대를 마련할 수 있었습니다.

이번 스터디에서 얻은 배움은 모델 선정, 튜닝 이해, 프롬프트 개선을 일체형으로 설계하면 구현의 재현성이 높아진다는 점입니다.

다음에는 자격 증명 준비를 먼저 완료하고, 강의에서 정리한 관점을 핸즈온으로 검증하여 팀 내 구현 가이드로 정착시켜 나가겠습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0