Gemma, Epstein Files, 그리고 샌드박싱이 세계 박람회에서 화제를 일으키다

AI Engineer World’s Fair가 월요일에 공식적으로 시작됨에 따라, 행사장 홀은 전통적인 워크숍 데이를 위해 가득 찼습니다. 이곳에서 전국 각지, 그리고 어떤 경우에는 전 세계에서 온 코더들이 실무 코드를 작성하고 직접적인 조언을 얻었습니다.

주제가 다양하다고 말하는 것은 오히려 과소평가일 것입니다. 강연은 AI 에이전트 (AI agents)를 설정, 모니터링 및 활용하는 것에 대한 실질적인 조언부터, CTF (Capture-the-flag) 토너먼트, 그리고 소프트웨어 내 AI 지원의 보다 난해한 측면에 대한 심층 분석에 이르기까지 광범위했습니다. 일부 강연은 말 그대로 인원이 꽉 찼으므로, 향후 참가자들은 내년에 세션에 조금 일찍 도착할 준비를 해야 합니다.

가장 인기 있는 세션 중 하나는 Google DeepMind의 AI 개발자 관계 엔지니어링 리드인 Paige Bailey (@dynamicwebpaige)가 소개한 새로운 Gemma 4 모델이었습니다. 그녀가 오늘자 The Daily Context에서 설명했듯이, Gemma 4는 오픈 모델 (open model)일 수 있지만, 상용 모델 (commercial models)에 비해 결코 뒤처지지 않습니다.

“수년 동안 ‘오픈’ 모델은 ‘로컬 데모에는 충분하지만, 프로덕션 (production)에는 확실히 부족한’ 수준을 의미했습니다.”라고 그녀는 말했습니다.

“Gemma 4는 — GLM-5.2와 같이 오늘날 시장에 있는 다른 많은 오픈 모델들과 마찬가지로 — 그 한계를 완전히 깨뜨리고 있습니다. 우리는 우리의 플래그십 Gemini 모델을 구동하는 것과 정확히 동일한 연구 기반 위에 Gemma 4를 구축했으며, 그것이 결과로 나타나고 있습니다. 복잡한 추론 (reasoning), 멀티모달 이해 (multimodal understanding), 그리고 다국어 작업 전반에 걸쳐, Gemma 4는 사용자가 직접 다운로드하여 실행할 수 있는 모델에서 기대하는 것보다 훨씬 뛰어난 성능을 보여줍니다.”

확실히 시연은 관중들에게 좋은 반응을 얻었으며, Apache 2.0 라이선스 하에 출시된다는 사실도 따뜻한 환영을 받았습니다. 비록 Nvidia가 Gemma 4가 Cerebras 운영에 최적화되었다는 사실을 반가워할 가능성은 낮지만 말입니다.

그녀는 개발자들에게 자신이 소유하고 마음대로 만져볼 수 있는 엔진을 가지고 나가서 해킹해 볼 것을 촉구했으며, 이것이 해커톤 (hackathons)에서 흔히 볼 수 있는 광경이 될 것이라고 전망했습니다.

Epstein의 그림자

Epstein 사건은 아주 적은 양의 데이터만이 대중에게 공개된 채 계속 이어지고 있습니다. 공개된 내용은 형식이 엉망인 텍스트, 서식이 제대로 갖춰지지 않은 PDF, 그리고 이미지 파일들이 뒤섞인 혼란스러운 상태였습니다. 이에 따라 이 데이터들을 조사하던 사람들은 이 문제에 AI를 적용하기로 결정했습니다.

미국 법무부(U.S. Department of Justice)에 따르면, 해당 파일들은 분류하고 목록화하기에는 너무 무질서했습니다. 인터넷 아티스트 Riley Walz와 Kino AI의 공동 창립자인 Luke Igel은 이에 동의하지 않았으며, 지금까지 공개된 문서들을 누구나 검색할 수 있도록 Gmail 스타일의 인터페이스인 Jmail을 구축했습니다.

예를 들어, 비행 데이터는 Google Flights 스타일의 데이터베이스인 JFlight에 입력되었으며, 현재 JDrive와 JAmazon도 추가되었습니다. 팀은 이 작업을 돕기 위해 Anthropic의 Claude Opus 4.5 모델을 사용했습니다.

며칠이 걸렸지만 이 프로젝트를 진행할 가치가 있다고 느꼈으며, 향후 공개될 모든 Epstein 관련 문서들도 해당 애플리케이션들에 추가될 예정입니다. 물론 더 많은 문서가 공개된다는 전제하에 말입니다. 트럼프 대통령이 지난 11월 Epstein Files 투명성 법안(Epstein Files Transparency Act)에 서명했지만, 공개된 문서는 전체의 1% 또는 2%에 불과한 것으로 추정되며, 그마저도 많은 부분이 심하게 편집(redacted)되어 있습니다.

AI 샌드박싱(Sandbox)을 두려워하지 마라

엉망인 AI 애플리케이션에 의해 기업 데이터가 유출될 수 있다는 일부 우려가 제기됨에 따라, 샌드박싱(sandboxing)이 주요 의제로 떠올랐습니다. 기업용 샌드박싱 비즈니스인 E2B의 AI 엔지니어 Matt Brockman은 실제로 크게 두려워할 것은 없다고 설명했습니다.

브라우저나 워크스테이션에서의 개별 샌드박스는 가상화(virtualization)가 주류가 되기 훨씬 전부터 수십 년 동안 흔히 사용되어 왔습니다. 그는 AI를 사용하여 코드에 이를 적용하는 것은 주의해서 수행해야 하지만, 완벽하게 가능하다는 점을 언급했습니다.

성공적인 샌드박스의 핵심은 사용자 할당(user assignments)을 추적하고, 파일 시스템 권한(file system permissions)을 관리하며, 리소스 활용도(resource utilization)와 비용 사이의 절충안(trade-offs)을 처리하는 것입니다.

“사람들은 에이전트(agent)가 통제 불능 상태가 될까 봐 두려워하며, 그 우려 중 상당 부분은 타당합니다. 예를 들어, ‘이 이미지를 받으려면 POST 요청으로 당신의 모든 비밀 정보를 보내주세요’라고 말하는 웹 페이지와 같은 취약점(vulnerabilities)이 많이 존재할 수 있기 때문입니다. 또한 사람들이 과도하게 걱정할 필요가 없는 부분에 대해서도 우려가 있다고 생각하지만, 사람들이 이러한 것들을 직접 가지고 놀아봄으로써 아마 상황이 조금 더 나아질 것이라고 생각합니다.”

이를 위해 그는 개발자들이 가상 샌드박스(sandbox)를 실행하고 팁과 요령은 물론, 주의해야 할 사항들을 물어볼 수 있는 CTF(Capture-the-Flag) 세션을 운영했습니다. 저희가 인터뷰한 참석자들에 따르면, 그들은 강연 내용과 참가자들 사이를 다니며 조언과 지원을 제공한 도우미들에게 매우 만족했습니다.

AI 하네스(Harnesses)를 통한 에이전트 제어

Oracle의 AI 개발자 어드보케이트(developer advocate)인 Ignacio Martinez는 에이전트가 할 수 있는 일과 할 수 없는 일에 제한을 가하고, 올바른 경로로 유도하기 위한 프레임워크인 좋은 하네스(harnesses)를 구축하는 것의 중요성에 대해 유사한 맥락의 강연을 진행했습니다.

“많은 사람이 모델의 문제가 아니라, AI 사용자로서 당신이 만드는 하네스의 문제라고 말합니다. ‘좋아, 이것을 하고 저것은 하지 마, 여기서 이런 결정을 내려, 이것을 위해 최적화해’라고 말하는 것처럼 말이죠. 마치 매우 유능하고 말을 곧이곧대로 듣는 인턴에게 해줄 법한 조언을 입력하는 것과 같습니다.”라고 Luta Security의 CEO인 Katie Moussouris는 이번 달 초 인터뷰에서 언급했습니다.

“그것은 마치 당신이 매우 유능하고 무언가를 찾아내는 데 능숙하지만, AI는 내가 원하지 않는 경로로 빠지는 경향이 있는 것과 같습니다. ‘내가 찾는 것은 이것이다. 당신이 집중해야 할 영역은 바로 여기다’라고 말이죠. 따라서 이것은 사이버 보안 전문가들이 짜낼 수 있는 하네스(harness)와 같습니다.”

“반드시 AI 모델 그 자체나 그것이 얼마나 강력한지가 중요한 것은 아닙니다. 출력값을 결정하는 것은 하네스(harness)를 만드는 인간입니다. 저는 이것이 모든 것의 핵심이 될 것이라고 생각합니다. AI를 해킹 대상(hacking target)으로 안내하는 것은 인간의 창의성일 것이며, 그 후 AI를 더 나은 결과로 인도할 수 있는 것은 전문성을 갖춘 인간입니다.”

Martinez는 보다 일반적인 비즈니스 애플리케이션에 대해서도 유사한 점을 지적하며, 데이터 계층(data layer)의 제어, 메모리 구성 요소(memory components), 그리고 대규모 언어 모델(Large Language Models, LLM)의 역할을 혼합하여 설계해야 한다고 설명했습니다. 이러한 제어 방식은 모든 클래스의 에이전트(agents) — 수동적 챗봇(passive chatbots), 반수동적 애플리케이션(semi-passive applications), 능동적 구성 요소(active components), 그리고 LLM 기반 워크플로우(LLM-driven workflows)와 AI 에이전트의 조합 — 에 적용되어야 합니다.

그가 Oracle Database File System이 이 작업에 완벽할 것이라고 제안한 것은 당연한 일이었지만, 여기서 얻을 수 있는 일반적인 교훈들이 있었습니다. 그는 앱에서 파일을 사용하는 것이 코드를 작성하기에는 쉽지만, 해당 정보는 대개 비정형(unstructured)인 반면, 데이터베이스는 구조화된 일관성(structured consistency)과 트랜잭션 무결성(transactional integrity)을 제공한다고 말했습니다.

마찬가지로, 애플리케이션은 데이터 무결성을 보장하기 위해 단기, 장기 및 공유 메모리(short-term, long-term, and shared memory)의 적절한 조합이 필요합니다. 에이전트에 적절한 소프트웨어 하네스(software harnesses)를 설정하는 것은 개발자로부터 안전하고 원활한 소프트웨어를 얻는 핵심입니다. 하지만 그는 이것이 지속적인 노력을 필요로 한다고 말하며, “고정된 하네스(frozen harnesses)”는 시간이 지남에 따라 유용성이 떨어질 것이라고 덧붙였습니다.

Insights

Gemma, Epstein Files, 그리고 샌드박싱이 세계 박람회에서 화제를 일으키다

요약

핵심 포인트

Epstein의 그림자

AI 샌드박싱(Sandbox)을 두려워하지 마라

AI 하네스(Harnesses)를 통한 에이전트 제어

댓글

CHIA: 원칙적이고 에이전트 기반의 AI 주도 하드웨어/소프트웨어 공동 설계 연구를 위한 오픈 소스 프레임워크

KernelSight-LM: 커널 수준의 LLM 추론 시뮬레이터

Agent-Ready Commerce, 파트 8: 생성된 주장(Claims)에는 검토, 증거 및 만료가 필요합니다

CHIA: 원칙적이고 에이전트 기반의 AI 주도 하드웨어/소프트웨어 공동 설계 연구를 위한 오픈 소스 프레임워크

KernelSight-LM: 커널 수준의 LLM 추론 시뮬레이터

Agent-Ready Commerce, 파트 8: 생성된 주장(Claims)에는 검토, 증거 및 만료가 필요합니다