본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 20. 01:28

Gemma 4 챌린지에서 우승하지는 못했지만, 제가 실제로 배운 것들

요약

Gemma 4 챌린지 참여 경험을 통해 기술적 구현만큼이나 제품의 목적과 사용자 가치가 중요함을 깨달은 회고록입니다. 저사양 GPU 환경에서 Gemma 4의 멀티모달 기능을 최적화하여 구현한 ScreenMind 프로젝트의 기술적 도전과 교훈을 다룹니다.

핵심 포인트

  • GTX 1650 환경에서 Gemma 4의 비전, 오디오, 추론 모달리티 통합 실행
  • 지각 해시 캐시 및 GPU 자원 즉시 확보를 위한 채팅 기능 구현
  • Whisper 없이 Gemma 오디오 인코더를 활용한 직접 전사 기술 적용
  • 기술적 깊이보다 '누구에게 도움이 되는가'라는 제품의 목적성이 승패를 결정함

오늘 결과가 발표되었습니다. ScreenMind는 선정되지 않았습니다.

솔직히 말해서, 제가 잘못 읽은 것이기를 바라며 그 페이지를 몇 번이나 새로고침했습니다. 하지만 아니었습니다. 네, 그렇게 된 거죠.

그러고 나서 제가 해야 할 일, 즉 낙담하는 대신 실제로 우승자들을 읽는 일을 했습니다. 그리고 그러길 잘했다고 생각합니다. 왜냐하면 제가 가지고 있는지도 몰랐던 질문에 답을 해주었기 때문입니다.

무엇이 우승했나

직접 가서 확인해 보세요, 정말 훌륭합니다:

  • LIKAS: 기지국이 다운되었을 때도 작동하는 필리핀을 위한 오프라인 재난 앱
  • AccessLens: 기본적으로 시각 장애인 및 저시력 사용자를 위한 온디바이스 (on-device) 눈 역할
  • 누군가가 만든 로컬 Postgres 트리아지 (triage) 코파일럿 (co-pilot): HIPAA 규정 때문에 새벽 3시에 데이터베이스 패닉 내용을 ChatGPT에 붙여넣을 수 없는 상황을 해결하기 위해 구축됨
  • 완전히 오프라인, 피어 투 피어 (peer to peer)로 실행되는 전화 에이전트: 프롬프트가 서버에 전혀 닿지 않음

이 모든 사례는 "여기에 어려움에 처한 사람이 있었고, 내가 그 문제를 어떻게 해결했는지"에 대한 이야기입니다.

내가 만든 것

ScreenMind는 Microsoft Recall에 대한 개인정보 보호 우선 (privacy-first) 방식의 해석입니다. 이 앱은 화면을 관찰하고, Gemma 4를 사용하여 사용자가 무엇을 하고 있는지 이해하며, 나중에 자신의 기록을 검색하고 채팅할 수 있게 해줍니다. "Discord에서 aachii가 뭐라고 했지?"라고 물으면 실제 메시지를 불러옵니다.

엔지니어링 측면에서 저는 이것이 자랑스럽습니다. 4GB GTX 1650에서 Gemma 4의 세 가지 모달리티 (modalities)인 비전 (vision), 오디오 (audio), 추론 (reasoning)을 모두 실행합니다. 그 제약 조건이 게임의 핵심이었습니다. 그렇게 작은 카드에서 지속적인 분석이 가능하도록 만들기 위해 저는 다음과 같은 것들을 구축해야 했습니다:

  • 동일한 VS Code 창을 50번씩 다시 분석하지 않도록 하는 지각 해시 (perceptual-hash) 캐시
  • 추론 (inference) 도중 진행 중인 분석을 취소하고 약 1초 만에 GPU를 다시 확보할 수 있는 채팅 기능: 따라서 백그라운드 작업이 완료될 때까지 1분 동안 기다릴 필요가 없습니다.
  • Whisper를 별도로 장착하지 않고, Gemma의 오디오 인코더 (audio encoder)에서 직접 가져오는 회의 전사 (transcription)

솔직히 제가 만든 것 중 가장 공을 들인 작업입니다.

유익한 방식으로 뼈아프게 다가온 부분

우승자들이 우승한 이유는 그 중 어느 것도 아닙니다.

저는 ScreenMind를 "기억하되 프라이버시는 보호하는(recall but private)" 기능이라고 홍보했습니다. 이것은 기능 비교입니다. 엔지니어인 제가 "이게 어떻게 작동하는지 보세요"라고 말한 것이죠. 반면 우승자들은 "이것이 누구에게 도움이 되는지 보세요"라고 말했습니다. 그리고 그것이 승리합니다. 보아하니 매번 말이죠.

어느 정도 추상적인 방식으로 알고 있었다고 생각했지만, 제 제출물 옆에 나란히 놓고 보니 그것이 구체적으로 다가왔습니다. 엔지니어링의 깊이가 더 뛰어난 엔지니어링에 패배한 것이 아니었습니다. 그것은 해당 제품이 존재해야 하는 더 나은 이유에 패배한 것이었습니다.

이것은 챌린지 단계에서, 더 중요한 무언가가 아닌 시기에 한 번쯤 틀려보는 것이 진정으로 유익한 경험이라고 생각합니다.

그래서

저는 ScreenMind를 폐기하지 않을 것입니다. 이것은 오픈 소스이며 저는 여전히 이를 기반으로 구축하고 있습니다: https://github.com/ayushh0110/ScreenMind

하지만 다음에 제가 만드는 것은, 사양 (spec)이 아니라 사람으로부터 시작하겠습니다. 코드 한 줄을 쓰기 전에 실제로 누가 어려움을 겪고 있는지부터 파악할 것입니다.

우승하신 모든 분들, 그리고 솔직히 무엇이든 결과물을 만들어낸(shipped) 모든 분들께 축하를 보냅니다. 그 과정은 보기보다 어렵습니다. 다음 단계로 나아갑시다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0