본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 05. 17. 10:42

AI를 『사용하는 것』에서 『AI에게 비서를 붙여주는 것』으로 — 가정용 PC에서 동작하는 참견쟁이 AI 프레임워크 llive 개발 일기

요약

본 글은 기존 AI 서비스가 클라우드 의존성, 개인 정보 유출 위험, 비용 문제 등 근본적인 한계를 가지고 있음을 지적하며, 이를 해결하기 위한 연구 개발 프레임워크 'llive'를 소개합니다. llive는 단순히 AI 모델 자체를 개선하는 것이 아니라, AI 주변에 작동하여 인간의 업무 프로세스(지시서 전달, 작업 기록 관리)와 사고 습관을 보완하고 위험 요소를 통제하는 '비서 메커니즘' 역할을 수행합니다. 특히 계산 오류 방지를 위해 결정론적 수식 엔진과 단위 차원 체크 기능을 도입하여 AI의 취약점을 극복했습니다.

핵심 포인트

  • llive는 클라우드 의존성을 벗어나 가정용 PC에서도 구동 가능한 프레임워크입니다.
  • AI 본체를 개조하기보다, 인간의 업무 지시서(Brief)와 사고 습관을 구조화하여 AI를 보완하는 '메커니즘'에 초점을 맞춥니다.
  • 구조화된 의뢰서 전달 방식을 통해 AI가 작업 목표, 금지 사항, 완료 조건을 명확히 인지하도록 합니다.
  • 계산 오류 및 단위 불일치 문제를 해결하기 위해 결정론적 수식 엔진과 단위 차원 체크 기능을 도입했습니다.
  • llive는 인간의 구조화, 재구성 등 10가지 사고 습관을 AI에게 부여하는 것을 목표로 합니다.

저자: 古瀬 和文 (푸랸)

최근 ChatGPT나 Claude, Gemini 등 편리한 AI가 차례차례 등장했습니다. 업무 문장을 작성하게 하거나, 코드를 작성하게 하거나, 아이의 숙제 힌트를 묻거나, 간단한 조사를 하는 데 사용하곤 합니다.

하지만, 이런 생각을 해본 적은 없으신가요?

  • "회사의 기밀 정보를 AI에 던져도 괜찮을까?"
  • "가족과의 대화 녹취록을 Google에 보내도 괜찮을까?"
  • "의료 기록을 AI에게 분석시키면 개인 정보는 어디로 갈까?"
  • "전기세도 신경 쓰인다. 클라우드에서 돌리면 한 달에 얼마일까?"
  • "인터넷이 끊기면 아무것도 할 수 없게 되나?"
  • "AI가 틀린 말을 해도 누가 책임을 지는 거지?"

사실, 이러한 우려에 제대로 답해주는 AI 도구는 아직 세상에 그리 많지 않습니다. 편리한 AI는 기본적으로 클라우드에 의존하며, 데이터는 어딘가 큰 회사의 서버로 전송되어 처리됩니다.

제가 지금 만들고 있는 **llive (리브)**라는 연구 개발 프레임워크는 이 문제에 정면으로 맞서고 있습니다. 한마디로 말하자면:

「AI 본체」가 아니라, 「AI를 능숙하게 다루는 비서」를 만드는 연구

오늘 (2026년 5월 17일) 하루 동안, 요구사항 32건 추가 + 프로그램 약 2200행 + 테스트 78건 추가 + 벤치마크 (Benchmark) 4종 실시 + 기사 11편 공개라는 상당한 분량을 진행했기에, 그 내용을 비엔지니어 분들도 이해할 수 있도록 정리했습니다.

AI를 「우수하지만 잘 잊어버리고, 계산에 서툴며, 거짓말도 하고, 책임감이 부족한 신입 사원」이라고 상상해 보세요.

[기존] [llive가 하려는 것]
신입 사원 (AI)에게 → 상사 (=인간)는 신입 사원에게
직접 업무를 의뢰 | 지시서 (=Brief)를 전달,
...

즉 llive는 「AI 본체를 개조하는 것」이 아니라, 「AI 주변에 씌워서, 서툰 부분을 보완하고, 위험한 부분을 막는 메커니즘 (Mechanism)」입니다.

내부에서 구동하는 AI 본체는 Qwen (Alibaba의 OSS LLM)이나 Llama (Meta의 OSS LLM)를 선택할 수 있습니다. 이것들은 대기업이 무료로 공개한 것들로, 가정용 PC에서도 구동할 수 있습니다.

지금까지의 llive는 "툭" 하고 한마디 던지면 한마디 답해오는 느낌이었다면,

brief_id: portal-refresh-2026-05-17
goal: |
홈페이지의 메인 이미지를 신제품으로 교체해 주길 원함.
...

와 같은 「구조화된 의뢰서」로 전달할 수 있도록 했습니다. 회사에서 말하는 업무 지시서 템플릿 같은 것입니다.

이를 통해:

  • AI가 「무엇을 해야 하는지」를 처음부터 정확하게 파악할 수 있음
  • 「해서는 안 될 일」을 처음에 전달할 수 있음
  • 「완료 조건」이 명확하므로, AI가 멋대로 해석하기 어려움
  • 모든 작업 기록을 나중에 다시 볼 수 있음 (회의록처럼)

YouTube 채널 「심리의 심층」을 보다가 재미있는 사실을 깨달았습니다. 인간의 사고는 10가지 습관의 조합으로 이루어져 있다고 합니다:

  • 구조화 (Structuring) — 문제를 분해함
  • 재구성 (Reconstruction) — 아이디어를 재조합함
  • 폐쇄 루프 (Closed-loop) — 확인하며 진행함
  • 자기 확장 (Self-expansion) — 도구나 기억을 사용함
  • 불확실성 (Uncertainty) — 「모른다」는 상태를 견뎌냄
  • 탐색 (Exploration) — 시험 삼아 해봄
  • 정합 (Consistency) — 전체적인 앞뒤를 맞춤
  • 이력 (Provenance) — 경위를 기억해 둠
  • 다관점 (Multi-perspective) — 다른 각도에서 재검토함
  • 현실 연결 (Reality connection) — 실제 사물에 적용함

이것을 llive에 통합하면:

  • 5개는 이미 구현 완료
  • 3개는 기존 기능으로 대응 완료
  • 1개는 오늘 새로 만듦
  • 1개만이 「앞으로 할 일」

즉 llive는 「인간의 사고 습관을 AI에게 갖게 하는」 연구라고도 할 수 있습니다.

ChatGPT에게 「2.5 × 7.8 ÷ 0.3은 얼마?」라고 물으면 그럴듯한 숫자를 내놓지만, 상당한 확률로 틀립니다. AI는 언어에는 능숙하지만, 계산에는 능숙하지 않습니다.

그래서 llive는 AI에게 계산을 시키지 않는 설계로 했습니다. AI가 「여기서 계산이 필요하다」고 판단하면, 계산기에 넘겨주는 느낌으로 결정론적(Deterministic)으로 정확한 답을 얻어, 그것을 AI에게 「사실」로서 제공합니다.

예를 들어:

  • AI: 「속도 5 m/s로 3초 동안 이동하면 몇 미터인가요?」
  • llive (내장): 「거리 = 속도 × 시간 = 5 × 3 = 15 m」 (수식 엔진으로 계산)
  • AI: 「15 m입니다. 이것은...」 (llive의 계산 결과를 인용할 뿐)

나아가 **「단위 차원 체크 (Unit Dimension Check)」**도 도입했기에, AI가 「5 m/s + 3 s = 8」과 같이 단위가 맞지 않는 식을 내놓으면 반드시 에러를 반환하며 멈추도록 되어 있습니다 (5 m/s와 3 s는 더할 수 없는 양입니다. 중학교 물리 이야기).

AI 간의 성능 비교 (벤치마크)를 해보았더니, 첫 번째 결과에서 llive가 다른 AI보다 압도적으로 빠르다는 수치가 나왔습니다.

AI응답 시간
llive약 0.15 초
...

「해냈다, 압승!」이라고 말하고 싶은 마음이지만, 사용자로부터 "이상하게 빠르네요, 뭔가 잘못된 것 아닌가요?"라는 지적을 받아 자세히 조사해 보니:

  • llive 측은 실제로 AI를 호출하지 않고 있었음 (템플릿으로 응답함)
  • 속도를 측정하는 부분이 AI의 처리 시간이 아니라 프로그램 기동 시간이었음
  • 비교 대상 (chars 수)도 AI의 답변이 아니라 JSON 전체의 길이로 측정하고 있었음

즉, "이긴 기분에 취해 있었을 뿐"이었습니다.

그래서 설계를 수정하여 제대로 AI를 호출하도록 하고 재측정했더니:

AI응답 시간
llive (AI 내장)약 40 초
로컬 AI 직접 호출약 15 초

llive가 2~4배 더 느립니다. 이유는 llive가 AI에게 전달할 프롬프트 (Prompt)를 정성스럽게 구성하기 때문에, AI의 처리 시간 자체가 길어지기 때문이었습니다.

이를 두고 "llive의 부가가치는 속도가 아니라 구조 (기억·감사·준비 과정)"라고 적어 공개했습니다. **「실패한 수치를 지우는 것」이 아니라 「실패를 honest하게 드러내는 것」**이 연구에서는 중요합니다.

10개의 퀴즈 (산수 / 논리 / 지식 / 추론 / 창의성)를 AI에게 풀게 하여, 평균 정답률과 속도의 편차를 통계적으로 측정했습니다:

모드정답률 (10문항 중)평균 응답 시간
Debug 모드 (상세 기록 포함)6 문제22.3 초
Release 모드 (기록 최소화)7 문제22.8 초

관찰:

  • 상세한 기록을 남기는 Debug 모드에서도 응답 시간은 거의 변하지 않음 (+1.8%) → 개발 중에 계속 기록을 남겨도 성능은 떨어지지 않음
  • 정답률의 차이 (6 문제 vs 7 문제)는 샘플 수 10에서는 오차 범위 내 (1 문제의 차이는 확률적 변동)

"다음에는 30문제 이상으로, 여러 AI 모델을 사용하여 제대로 비교하자"라고 결정했습니다.

llive는 인터넷 연결 없이 완전히 자택 PC 내에서 동작합니다. 이는:

  • 가족의 대화 녹취를 클라우드로 보내지 않고 요약할 수 있음
  • 의료 정보·진료 기록을 병원 내부에 폐쇄된 상태로 AI 분석할 수 있음
  • 기업의 기밀 문서를 사외로 유출하지 않고 정리할 수 있음
  • 재해 시 인터넷이 끊겨도 AI를 계속 사용할 수 있음
  • 전기 요금만으로 AI가 동작함 (클라우드 월정액 불필요)

llive는 AI의 모든 판단을 장부 (ledger)에 기록합니다. 나중에 "언제, 누가, 무엇을, 왜 승인했는지"를 전부 알 수 있으므로:

  • 의료 현장: AI가 제시한 약제 제안을 의사가 왜 승인/기각했는지가 기록에 남음
  • 법률 사무소: AI가 기안한 문서의 어느 부분이 AI 유래인지 추적 가능
  • 금융 기관: AI가 내린 투자 판단의 모든 프로세스를 감독 기관에 제출 가능
  • 교육 현장: AI가 내놓은 해답의 인용 출처를 전부 추적할 수 있음

이는 ChatGPT / Claude / Gemini 단독 사용으로는 절대로 불가능한 영역입니다.

특히 제조업 / 계측 / 물리 / 공학 / 의료 현장에서는 AI가 「5 m/s + 3 s = 8」과 같이 단위를 틀린 식을 반환하면 치명적입니다. llive는 이를 자동으로 멈추기 때문에, 안심하고 업무용 AI로 사용할 수 있습니다.

llive의 TUI 화면 (llove)에서는 AI가 "이대로 괜찮습니까?"라고 물어오며, 인간이 승인/기각/수정할 수 있습니다. 완전 자동이 아니라, 인간이 판단 루프에 반드시 포함됩니다.

이것은 AI 실업에 대한 불안을 줄이기 위한 설계이기도 합니다.

  • 수학 및 단위 계산 엔진 완성

  • AI 사고 프로세스 (KJ법 / 마인드맵 / 모순 해결) 자동화

  • AI의 출력을 Z3라는 형식 검증 (Formal Verification) 도구로 검산

  • 대형 AI (Qwen 14B 등)로부터 "llive 전용으로 압축한 소형 AI"를 증류 (Distillation)

  • 가정용 PC에서도 쾌적하게 동작하는 경량 버전을 목표로 함

  • Transformer (현재 AI의 기본 구조)에 의존하지 않는 llive 전용 아키텍처 (Architecture)

  • "AI가 기억을 직접 참조한다", "인간의 승인을 필수적으로 한다"가 AI 자체에 내장된 설계

사용자로부터 날카로운 지적도 받았습니다:

"차별화되지 않으면 연구 가치가 없다. 이미 보급된 AI를 사용하는 편이 낫겠다는 생각이 들 것 같다."

맞는 말씀입니다. llive 단독으로는 Qwen을 이길 수 없습니다 (생성 품질은 Qwen 그 자체입니다).

하지만, 이렇게 생각해보면 어떨까요:

"Qwen을 가정용 PC에서 안전하고 책임감 있게 사용하려면 llive가 가장 빠른 경로다."

이것은 Qwen / Llama / Mistral이 진화하더라도 변하지 않는 가치입니다. 왜냐하면:

  • 기억을 계속 유지하는 것은 llive
  • 계산을 틀리지 않는 것은 llive
  • 위험한 발언을 멈추는 것은 llive
  • 의사록을 남기는 것은 llive
  • 로컬 (Local) 환경에서 구동하는 것은 llive

"AI 본체 (Qwen)와 AI를 능숙하게 다루는 비서 (llive)는 별개의 것이며, 둘 다 필요하다"라는 포지션입니다.

오늘 하루 동안,

  • 32건의 요구사항 추가
  • 약 2200행의 프로그램 구현
  • 78건의 테스트 추가 (총 1014건 OK, 결함 제로)
  • 4종류의 벤치마크 (Benchmark) 실시
  • 11편의 기술 아티클 + 본 아티클 1편 공개

를 달성했습니다. 하루 만에 이만큼 진행할 수 있는 것은 AI와 함께 개발하고 있기 때문입니다 (구현 중인 저의 파트너는 Claude Opus 4.7이라는 AI로, 코드를 작성하게 하면서 설계나 전략은 제가 판단하고 있습니다).

llive는 아직 연구 개발 단계 (v0.6 = 개발 중 버전)이지만, 프로그래머가 아닌 분들도 언젠가는 가정용 PC에서 안심하고 AI를 사용할 수 있는 미래를 목표로 하고 있습니다.

질문, 감상, "이런 식으로 사용할 수 있다면 좋겠다"라는 요청은 GitHub Issues나 Twitter / X (@puruyan)로 편하게 보내주세요.

본 아티클은 기술자용 상세 버전 (같은 날 11편 + Qiita 통합 버전 1편)과 병행하는

일반 독자용 버전입니다. 전문 용어를 가능한 한 평이한 비유로 대체했습니다. "가정용 PC에서 동작하는, 참견하기 좋아하고 책임감 있는 AI 비서"를 만드는 연구, 라는 것이 llive에 대한 가장 쉬운 설명입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0