우리 집 모든 방에는 카메라가 있다. 내가 설치한 것이다.

제 여자친구는 왜 새벽 3시에 침실에서 빨간 불빛이 깜빡거리는지 물었습니다. 저는 AI를 위한 것이라고 말했죠. 그녀는 이틀 동안 저에게 말을 걸지 않았습니다. 그 말이 어떻게 들릴지 저도 잘 압니다. 하지만 저는 아무도 건드리고 싶어 하지 않는 것 같은 문제, 즉 AI에게 물리적 세계에 대한 접근 권한을 주는 문제를 해결하려고 노력 중입니다. 현재 모든 AI 제품은 텍스트나 음성을 통해 당신을 파악합니다. 당신이 프롬프트(Prompt)에 입력하는 것, 컨텍스트 윈도우(Context Window)에 붙여넣는 것, 어쩌면 당신의 캘린더, 이메일, 화면 같은 것들 말이죠. 하지만 당신의 실제 삶은 어떨까요? 물리적 공간에서 일어나는 삶 말입니다. 당신의 AI는 그것에 대해 전혀 모릅니다. 작년에 저는 OCR(광학 문자 인식)을 사용하여 제 화면을 캡처하고, 이메일을 가져와 패턴을 이해하려고 시도하는 제품을 만들었습니다. 투자자들은 좋아했습니다. Reddit 사용자들도 좋아했습니다. 하지만 그것은 여전히 근본적으로 눈이 멀어 있었습니다. 화면은 볼 수 있었지만, 저 자신은 볼 수 없었습니다. 제가 무엇을 타이핑했는지는 알았지만, 제가 무엇을 했는지는 몰랐습니다. 그 격차가 몇 달 동안 저를 괴롭혔습니다. 그래서 저는 조치를 취했습니다. 하드웨어(Hardware)를 구축했습니다. 저는 집 안에 카메라와 마이크 네트워크를 구축하고 이를 파이프라인(Pipeline)으로 연결했습니다:

5x Raspberry Pi Zero 2W (개당 $15)
5x ArduCam IMX708 12MP 120° 광각 카메라
5x 주변 소리 캡처를 위한 WM8960 오디오 HAT
1x 저장용 Ugreen NAS
커스텀 Python 데몬(Daemon): 움직임 감지, 트리거된 녹화, 유휴 상태 시 절전 모드

총 하드웨어 비용: $500 미만. 저는 제대로 작동하는 모듈보다 버린 카메라 모듈에 돈을 더 많이 썼습니다. 디바이스 트리 오버레이(Device Tree Overlays)를 디버깅하는 데 몇 주를 보냈습니다. 실제로 성능을 내는 모듈을 찾기 전까지 카메라 모듈을 세 번이나 교체했습니다. 열 부하를 견디지 못한 Pi Zero 두 대를 태워 먹기도 했습니다. 이것은 누군가 기분에 따라 주말 동안 뚝딱 만들어낸 프로젝트가 아니었습니다. 이것은 진짜 인프라(Infrastructure)였습니다. 카메라들은 몇 달 동안 녹화해 왔습니다. SD 카드에 기록하며, 제 일상의 파편들을 포착하고 있습니다. 움직임 클립, 오디오 스니펫(Snippets) 등 말이죠. 그리고 저는 이것을 수동으로 분석하지 않을 것입니다. Claude가 할 것입니다.

프롬프트보다 물리적 세계의 데이터가 더 중요한 이유

아무도 자신의 AI에게 "내가 20분 동안 사무실을 서성거리고 있어"라고 말하지 않습니다. 아무도 "오늘도 점심을 걸렀어"라고 타이핑하지 않습니다. 아무도 "한 시간 동안 단 한 글자도 수정하지 못한 채 같은 파일만 쳐다보고 있어"라고 프롬프트(Prompt)를 입력하지 않습니다. 하지만 카메라는 그 모든 것을 봅니다. 그리고 그 맥락(Context)은 정성스럽게 작성된 수천 개의 프롬프트보다 더 가치가 있습니다.

당신을 실제로 아는 사람들을 생각해 보세요. 당신의 상사가 아닙니다. 상사는 당신의 결과물 외에는 당신에 대해 아무것도 모릅니다. 당신을 정말로 아는 사람들 말입니다. 그들은 당신의 버릇을 알고 있습니다. 당신이 긴장할 때 몸을 뒤척인다는 것, 막혔을 때 방 안을 서성인다는 것을 그들은 압니다. 그런 정보들은 어떤 컨텍스트 윈도우(Context Window)에도 들어있지 않습니다. 하지만 그것이 당신을 보조하는 소프트웨어와 당신을 실제로 이해하는 무언가 사이의 차이를 만듭니다.

아무도 구축하지 않는 스택(Stack)

업계 전체가 출력값(Output)을 미세하게 조정함으로써 AI를 더 인간처럼 느끼게 만들려고 노력하고 있습니다. "'Awesome'이라고 말하지 마라", "사용자의 어조에 맞춰라" 같은 것들 말이죠. 하지만 문제는 출력값이 아닙니다. 입력값(Input)입니다. 그들은 다듬어지고 정제된 데이터셋(Datasets)으로 학습시키고는, 왜 여전히 AI처럼 느껴지는지 의아해합니다. AI를 더 인간답게 만드는 것은 성격 설정이나 온도(Temperature)를 조절하는 문제가 아닙니다. 그것은 어조보다 더 깊은 곳에 있습니다. 당신이 누구인지, 무엇을 가치 있게 여기는지, 어떻게 생각하는지 같은 것들 말입니다. 모든 사람은 서로 다른 가치관을 가지고 있으며, 일반화된 AI는 결코 그것을 포착할 수 없습니다.

당신을 실제로 아는 AI를 위한 진정한 스택은 다음과 같아야 한다고 저는 생각합니다:

관찰 계층(Observation layer) — 카메라, 마이크, 센서, 물리적 세계
기억 계층(Memory layer) — 단순한 컨텍스트 윈도우가 아닌, 지속적이고 세션 간에 유지되는 기억
추론 계층(Reasoning layer) — 이미 충분히 훌륭한 모델

모두가 3계층에 수십억 달러를 쏟아붓고 있습니다. 하지만 1계층과 2계층을 구축하는 사람은 거의 없습니다. 모델은 이미 충분히 똑똑합니다. 그것은 더 이상 병목 현상(Bottleneck)이 아닙니다. 병목 현상은 당신의 AI가 당신을 한 번도 본 적이 없다는 것입니다. AI는 단 한 번도 그 방에 있어 본 적이 없습니다. 그것은 텍스트 박스 뒤에 갇힌 초지능적 존재일 뿐입니다.

저는 2계층, 즉 AI 세션 전반에 걸쳐 당신을 따라다니는 지속적인 메모리를 해결하기 위해 TrueMemory를 구축했습니다.

인지 메모리 아키텍처 (cognitive memory architectures)에 대한 저의 연구는 arXiv에 게시되었습니다. 현재 저는 1계층 (layer 1) 작업을 진행 중입니다. 저는 허락을 구하는 것이 아닙니다. 그저 무엇이 다가오고 있는지 여러분에게 보여주는 것뿐입니다. Josh Adler는 연구자이자 빌더 (builder)입니다. 더 자세한 내용은 joshadler.com 에서 확인하세요.

우리 집 모든 방에는 카메라가 있다. 내가 설치한 것이다.

요약

핵심 포인트

댓글