본문으로 건너뛰기

© 2026 Molayo

코드팩토리요약2026. 06. 10. 13:23

API 비용을 0으로 만들어줄 역대급 On Device AI! Gemma 4!

요약

Google의 새로운 온디바이스 AI 모델인 Gemma 4가 출시되었습니다. 2B 및 4B 모델은 엣지 디바이스 환경에 최적화되어 API 비용 없이 로컬에서 실행 가능하며, 추론, 에이전트 워크플로, 비전 및 오디오 인식 기능을 지원합니다.

핵심 포인트

  • Gemma 4 2B/4B 모델은 엣지 디바이스용 온디바이스 AI에 최적화됨
  • 텍스트, 이미지, 오디오 인식이 가능한 멀티모달 기능 지원
  • 128K 컨텍스트 윈도우와 140개 이상의 언어 지원
  • 함수 호출(Function Calling) 및 코드 생성 가능

Video: API 비용을 0으로 만들어줄 역대급 On Device AI! Gemma 4!
Channel: 코드팩토리
Duration: 9m 5s
Source: subtitle (auto, ko)
Transcript:
자, 응응. 이제부터 내가 너의
귀여운 여자친구가 될게. 오늘 하루는
어땠어? 하면서 이렇게 물어보는 거
볼 수 있죠. 뭐 이렇게 볼게요.
오늘 인공지능으로 개발하느라 엄청
힘든 하루였어라고 하니까 어떻해
자기야, 인공지능 개발이라니 진짜
머리 아프고 힘들겠다. 우리 자기
너무 고생 많아서 푹 쉬워야지. 혹시
지금 너무 집쳤으면 내가 맛있는 거
시켜 줄까? 아니면은 그냥 옆에서
토닥토닥 해 줄까? 힘들었던 거 다
있게 내가 기분 좋게 해 줄게. 자기
쏘as지. 자, 구글에서 진짜 엄청난
업데이트를 들고 왔는데 제마 다음
모델이 나왔어요. 제마 4 모델이
나왔는데 자, 이게 왜
중요하냐면요.이 재마 모델들은
고성능보다이 엣지에서 사용할 수 있는
AI를 훨씬 더 지향을 합니다. 자,
그래서 우리가 핸드폰에다 탑재시켜
가지고 무료로 AI를 돌리도록 할
수가 있어요. 자, 근데 제가 작년
말쯤에 약간 미연시 느낌의 여자친구
앱이랑 일정 관리 앱을 만들면서 제마
3 모델을 제가 로컬에서 돌려 본
적이 있는데 진짜 퍼포먼스로 너무
한국어도 잘 안 되고 속도가 일단
기본적으로 너무 느린데 램은 너무
많이 먹어 가지고 도저히 이건 쓸
수가 없다라는 판단을 내렸었거든요.
자, 근데 이번에 제마프 모델은 제가
데모 만들어 왔거든요. 제가 보여
드릴 건데 진짜 꽤나 괜찮아요. 제가
봤을 때 이걸로 돈을 많이 아낄 수
있는 앱들도 나올 것 같습니다. 자,
그러니까 영상 끝까지 보시고 함께
알아보도록 해요. 자, 그래서이 제마
모델 같은 경우에는이 사이즈 대비
퍼포먼스를 지향을 하기 때문에 이렇게
사이즈 대비 높은 퍼포먼스가
나온다라고 얘기를 하 하고 있고요.
베리에이션이 여러 개가 있어요.
31B, 26B. 자,이 친구들은
제만 모델 중에서는 하이 퍼포먼스
컴퓨팅, 하이 퍼포먼스 AI를 지향을
하는 편이고. 자, 우리가 관심 있는
친구들은 뭐냐면요. 자,이 E2B랑
E4B이 친구들만 여러분들은 생각을
하면 돼요. 자, E는 엣지라서 2인
거 같은데 제 생각에는. 자,이
빌리언 파라미터랑 4빌리언 파라미터
모델들을 우리가 지금 바로 넣어 볼
수가 있습니다. 자, 제가 넣어
봤고요. 이따 보여 드릴게요. 자,
그래서 우리가 어 advance스
리닝 자, 리즈닝 가능하고 자,
그리고 에이전트 워크플로도 사용할
수가 있고요. 그래서 펑션 콜링도 다
됩니다. 자, 코드 생성 가능하고요.
자, 비전 그러니까 이미지랑 오디오
인식까지 전부 다 됩니다. 컨텍스트가
128K까지 올라갔고요. 엣지
모델들이. 그리고 언어도 140개
이상을 지원을 한다라고 돼 있어요.
제가 한국어로 테스트를 해 봤는데
진짜 괜찮아요. 자, 그래서 수치
같은 경우에는이 4B랑 2B 모델들은
우리 거의 어떻게 보면은 AI 초창기
때 그 정도의 이제 퍼포먼스를 보이는
느낌이기는 해요. 그때보다 조금 더
좋은. 자, 그런데 체감은 그것보다
조금 더 괜찮긴 합니다. 지금 바로
한번 봐 볼게요. 자, 제가 제마
2비랑 어 4 모델을 실제로 그냥
에뮬레이터로 탑재를 한번 해 봤는데
어, 메모리는 제가 16GB를
줬어요. 자, 2B 같은 경우에는
8GB인가 6GB인가 아까 테스트를
했을 때 돌아가는 거 같고요. 4B는
에뮬레이터 상에서선 16GB 정도는
줘야 되는 거 같아요. 이게 실제
기기에서 얼마나 필요할지 그리고
iOS에서는 얼마나 필요할지 저 잘
모르겠거든요. 자, 그것까지 테스트를
안 해 봤는데 그 정도 필요하다라는
걸 감안하고서 한번 여러분도 테스트를
해 보세요. 자, 일단 우리
텍스트부터 한번 테스트를 해 볼
건데. 자, 이렇게 한번 해 볼게요.
너는 지금부터 내 여자 친구야.
귀여운 톤으로 대답해 줘라고 이야기
한번 해 보겠습니다. 자, 그러면 제
재미나이가 아, 재마죠? 재마가 깨야
자기야, 나 지금부터 자기
여자친구야. 너무 좋다. 뭐 하고
싶어? 자기 목소리 들으니까 벌써
심장이 두근. 약간 좀 오버하는데
어쨌든이 정도까지 나오지도
않았거든요. 사실 어, 제맛 3
때는. 그리고 속도가 굉장히 많이
빨라졌어요. 자, 그럼 대화를 한번
해 볼 건데 아주 잘했어. 인공지능에
대해서 한번 이야기해 보자라고 한번
얘기를 해 볼게요. 자, 그러니까
와, 인공지능 말이야. 그거 정말
신기하고 재밌는 주제지. 나도
인공지능에 대해서 엄청 궁금해.
인공지능이 뭐냐면 쉽게 말해서
컴퓨터가 사람처럼 생각하고 행동하게
만드는 뭐 기술 같은 거야. 쭉
이렇게 나오는 거를 볼 수가 있어요.
자, 근데 저는 이게 진짜 좀
신기한게 제마 3 모델을 저는 많이
써 봤기 때문에 그때 당시에는 지금도
조금 딱딱하긴 하지만 훨씬 더
딱딱했거든요. 그리고 문법이 안 맞을
때가 있었어요. 그리고 속도가
압도적으로 느렸습니다. 근데 이제는
그렇지 않은 거를 볼 수가 있고이
정도면은 여러분이 단순한 텍스트
생성이라든가 텍스트 아웃풋이 있으면
되는 요소들은 쉽게 한번 탑재를 해
볼 수도 있을 것 같다라는 생각이
듭니다. 자, 이미지 인식도 저희가
한번 해 볼 건데요. 자 이미지 넣어
가지고 제가 카블란 좋아해 가지고
카블란 넣고서 이미지 인식해 줘라고
한번 요청을 해 볼게요. 자 그러니까
어머 자기야 사진 보줘서 고마워.
사진을 보니까 카 V를 못 읽었네요.
일단 글자를 굉장히 잘 읽은 거를 볼
수가 있어요. 제마 3 때는 이렇게
못 했거든요. 이렇게까지도 못
읽었는데 액체류들이 들어가 있고
노란색 초록색 이렇게 구성이 돼
있다라고 합니다. 자 노란색은이
위스키 색깔을 본 거 같고요. 그리고
나머지이 초록색이나 이런 것들은
레이블을 본 거 같은데 아직 이미지
인식이 완벽하지는 못한 거를 볼 수가
있죠. 거의 뭐 최지T 약간 3 4
사이 정도 느낌 3.5 정도 느낌인
거 같아요. 자, 그다음에 음성도
한번 넣어 볼게요. 자, 테스트
음성을 한번 넣어 보면은 Hell
can you transcribe
the aud리오라고 나오는 거 볼
수 있는데 실제로 네,이 음성이
맞거든요.이 음성을 그대로 잘
트랜스크라이브를 한 걸 볼 수가 있고
그리고 제가 제 목소리로 애국가를
읽어 봤어요. 자, 그래서 이거를
넣어 주면은 한국어로도
트랜스크라이브가 꽤나 잘 되는 거 볼
수가 있습니다. 좀 기다려 볼게요.
자, 동해물과 백조산이 말하고
달토록. 네. 달토록이 제가 발음이
이랬을 수도 있어요. [웃음] 근데
뭐 어쨌든 한의 보아사 우리나라 만세
무궁화삼철리 화려 강산 안사람
대한으로 길이 보자. 이것까지는 조금
어 잘못된 거 같은데 대한 사람은
제대로 발람을 했을 건데 꽤나 그래도
한 80% 정도 맞춰 가지고 하는 거
같다라는 느낌이 듭니다. 자, 그럼
모델을 한번 바꿔 볼게요. 자, 4B
모델로 한번 해 볼 건데. 자, 4
모델은 확실히 로딩한데 훨씬 더 오래
걸려요. 그리고 제가 테스트를 해
봤을 때 8GB 정도 줬을 때는 이거
로딩하다가 그냥 터져 버립니다.
그래서 앱이 죽기 때문에 16GB
정도로 테스트를 한번 해 보세요.
저는 지금 16GB를 돌리고
있거든요. 네, 이렇게 떴고요. 자,
이미지부터 한번 우리 봐 보도록
할게요. 아, 이미지 말고 여기도
대화를 한번 해 봐야겠다. 자,
여기도 똑같이 한번 해 볼게요.
여자친구 컨셉으로 한번 대답을 시켜
보겠습니다. 자, 응. 이제부터 내가
너의 기운 여자친구가 될게. 오늘
하루는 어땠어? 하면서 이렇게
물어보는 거 볼 수 있죠. 뭔가이
질문을 할 수 있는 영량 자체가이
모델이 포비 파라미터를 갖고 있어서
그런가 싶기도 하고 이렇게 볼게요.
힘든 하루였어라고 하니까 어떻게
자기야 인공지능 개발이라니 진짜 머리
아프고기 힘들겠다. 우리 자기 너무
고생 많아서 푹 쉬워야지. 혹시 지금
너무 집쳤으면 내가 맛있는 거 시켜
줄까? 아니면은 그냥 옆에서 토닥토닥
해 줄까? 힘들었던 거 다 있게 내가
기분 좋게 해 줄게. 자기를
이거 [콧방귀] 그냥 뭔가 대충 봐도
확실히 4비 모델이 조금 더 사람
같은 느낌이 들죠. 그죠? 아까 2비
모델 같은 경우는 굉장히 좀 사무적인
거에 억지로 톤을 넣은 거 같았는데
그것보다는 훨씬 자연스럽게 나은 거
같아요. 지금도 누가 봐도
인공지능이긴 하지만 그래도 조금
기분은 더 좋아지는 느낌이랄까요?
자, 이미지 인식 마찬가지로 한번 해
볼게요. 자,이 친구도 넣어 가지고
이미지 인식해 줘라고 한번 요청을
보내 볼게요. 자, 4 모델입니다.
이번에는 자,이 이미지는네 개의 캔
음료가 놓여 있는 모습을 보여주고
있다. 자, 특징으로는네 개의 캔료가
나란히 배열이 돼 있고 자, 카,
K의 V를 계속 못 읽네. K랑 V랑
같은 캐릭터처럼 보이나 봐요. 자,
K는 어두운 배경의 밝은 글씨랑
그래픽이 사용된 것으로 보이고 각해는
맛이나 종류를 나타내는 것으로 추정이
된다. 와일레이라고 써져 있다고
하네요. 이것까진 저도 몰랐네. 자,
아까비 모델 같은 경우에는 그냥이
전반적인 색감이 어떤 것들이 있는지만
인식을 했는데 자, 이번 포비
모델에서는 음료가 이렇게네 개가
정확히 있다라는 거를 정확하게인지를
한 거를 볼 수가 있고요. 어떤
색상들이 들어가 있는지 각각의 캔별로
인식을 한 거를 볼 수가 있죠. 자,
그래서 홍보하기 위한 사진으로
보인다. 이렇게 평가까지 내놨고요.
자, 이번에도 오디오도 한번 테스트를
해 볼게요. 자, E4비에도
이투비에서 분석이 잘 안 됐던 어,
제이 읽는 사운드를 한번 넣어 보도록
할게요. 자, 보니까 동해물과
백두산이 마르고 달토록 하느니 보아서
우리나라 만세 무궁화삼찰리 화려 강산
한 사람 대한으로 길이 보전하세요.
아, 여기서도 이제 좀 잘 안
되네요. 그러니까 어느 정도 오류가
날 수가 충분히 있는 영역이기는 한
거 같아요. 자, 그래서 우리가
텍스트 기반으로 하는 작업은 거의
퍼포먼스가 쓸 만한 수준까지 올라온
거 같고요. 아, 자, 이미지랑
사운드 같은 멀티모델 펑셔널리티는
아직은 부족한 거 같습니다. 자,
그건 우리가 좀 더 파라미터가 많은
모델을 써야 될 거 같은데 근데
4B보다 더 높은 모델은 사실상
우리가 온 디바이스다 넣을 수가 없기
때문에 어, 지금은 아직 부족하다라는
걸로 판단을 내리면 될 거 같아요.
자, 근데 사실 그게 별로 중요한 건
아니고요. 제마 3 모델을 써 보신
분들은 알겠지만 지금 제마 4 모델이
보여주고 있는이 성능은 정말 말도 안
될 정도로 많이 발전을 했거든요.
자, 그렇기 때문에 제 5 모델이
나오면은 텍스트 기반의 인풋은 훨씬
더인지를 더 잘할 거고 그리고
멀티모델 펑셔널리티도 굉장히 높아질
거기 때문에 성능이 한두 세대만
지나면 제가 봤을 때이 AI를 온
디바이스에서 활용하는 방식이 굉장히
인기를 많이 끌 것 같습니다. 그럼
우리가 이제 API 비용도 안 내도
되니까요. 자, 그래서 앱 작업하시는
분들 특히나 꼭 한번이 제마 4
테스트를 해 보고 여러분들이 활용할
수 있는 레벨이라고 판단이 되면
서비스에서 꼭 한번 뭐 백업으로라도
웹액 정도로라도 꼭 써 보면 진짜
좋을 거 같아요. 자, 제가 오늘
준비한 영상 여기까지고요. 영상이
좋았다면 구독과 좋아요, 알림 설정,
그리고 하이프까지 꼭 부탁드립니다.
쏘as지.

AI 자동 생성 콘텐츠

본 콘텐츠는 코드팩토리의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0