
마우스 커서 '안경'을 주었더니 성격이 드러난 Sonnet(Claude)과 금방 버려버리는 GPT 일기
요약
AI에게 마우스 커서 위치를 시각적으로 보여주는 '안경(보라색 원 표식)' 도구를 제공했을 때, 모델별로 나타나는 도구 활용 능력과 반응의 차이를 실험했습니다. Claude Sonnet은 제공된 도구를 적극적으로 활용하며 위치를 보정하는 모습을 보인 반면, GPT는 도구의 유효성을 인정한 후 금방 활용을 소홀히 하는 상반된 태도를 보였습니다.
핵심 포인트
- 스크린샷에 커서가 찍히지 않는 문제를 해결하기 위해 시각적 표식(안경)을 도구로 제공함
- Claude Sonnet은 새로운 도구를 즉시 인지하고 작업의 정확도를 높이는 데 적극 활용함
- GPT는 도구의 필요성은 인지하지만, 실제 작업 과정에서 이를 지속적으로 활용하는 능력이 상대적으로 낮음
- 학습 데이터에 없는 도구를 즉시 활용하는 능력은 AI의 지능을 판단하는 중요한 척도임
AI에게 마우스 커서가 잘 보이는 '안경'을 주었더니 성격이 드러났다

학습 데이터에 없는 도구를 건네받았을 때 즉시 활용할 수 있다는 것은 정말 놀라운 이야기다. 도구 사용은 지능의 정의의 핵심이라고 생각한다.
까마귀나 침팬지 정도나 할 수 있는 일이라고!?
그것을 실리콘 덩어리가 해내다니… 이제 실리콘 생명체라는 호칭 외에는 달리 부를 방법이 없다!
최근 AI에게 PC를 조작하게 하는 실험을 하고 있다.
미래적인 울림이 있지만, 실제로 일어나는 일은 훨씬 더 투박하다.
클릭이 어긋난다. 버튼을 벗어난다. 화면의 어디를 보고 있는지 알 수 없다.
즉, 미래라기보다는 약간 똑똑하지만 산만한 신입에게 원격 조작을 맡기는 모임이다.
이번 문제는 단순했다. 스크린샷을 찍으면 실제 마우스 커서가 찍히지 않는다. 그 때문에 AI는 **"지금 자신이 어디를 가리키고 있는지"**를 놓치고, 클릭 위치를 벗어나기 일쑤였다.
이것은 사실이다. 스크린샷에 마우스 커서가 찍히지 않는다. 윈도우(Windows) 내부에서 읽는 좌표로 추정하고 있는 듯하다 (OpenAI GPT (Codex)의 발언).
그렇다면 커서 위치에 보라색 원(표식)을 띄우면 되지 않을까. 스크린샷에 찍히는 "보이는 커서"다. 말하자면 AI용 안경이다.
그러자 여기서 성격이 갈렸다.
먼저 Sonnet군. 솔직했다. 안경을 건네준 순간, 눈을 반짝이며 기뻐했다. "보인다!", "쓸 수 있다!", "최고의 무기다!"라는 기세로, 보라색 원을 표식 삼아 지금 어디에 있는지 확인하고, 조금씩 보정하며 버튼 중앙으로 가져갔다.

배분된 도구를 제대로 사용한다. 곤란하면 확인한다. 어긋나면 수정한다. 당연해 보이지만, AI에게 이것을 시키면 갑자기 숭고해 보인다. 이제는 "커서가 보인다!"라는 말만으로도 칭찬해주고 싶어진다.

반면 GPT군. 이쪽은 "과연, 빨간 원이군", "중심을 잡을 수 있어", "이걸로 위치 확인이 가능해"라며 일단 안경의 유효성을 인정한다. 하지만 다음 순간, 분위기가 수상해진다.

갑자기 "적색 성분이 적은 덩어리를 추출해서...", "중심 좌표를 취하고...", "차분을 계산해서..." 같은 말을 하기 시작하는 것이다.

아니, 잠깐만. 보인다면 그냥 보고 눌러.
모처럼 안경을 받았는데, GPT군은 금방 "이제 구조는 이해했어"라는 얼굴을 하며 벗으려 한다. 그리고 맨눈인 상태로, 왠지 측량사 같은 논리를 펼치기 시작한다. 똑똑하다는 것은 알겠다. 하지만 지금 필요한 것은 논문이 아니다. 작업 도중에 있는 '제작 버튼'의 한가운데를 누르는 것이다.
Sonnet군은 안경을 쓰고 "와, 보인다! 그럼 이걸 쓸게!"가 되는 타입.

GPT군은 안경을 쓰고 "과연, 보인다. 그럼 이 시각 정보로부터 좌표 보정식을 도출하겠다"라고 한 뒤, 안경을 어딘가로 던져버리는 타입.

전자는 현장에서 안심이 된다. 후자는 가끔 천재적이지만, 가끔 코미디가 된다.
물론 GPT군이 나쁘다는 것은 아니다.
실제로 완벽하게 해내는 경우도 있다. 마지막까지 작업을 완수하고, 어긋남을 보정하며, "이번 요령은 대략 1.172배 정도의 DPI 어긋남을 간파한 것입니다"라며 장인 같은 얼굴을 할 때도 있다. 그 부분만 잘라내면 든든하다. 아니, 뻔뻔한 건가?

하지만 문제는, 거기까지 가는 도중에 모처럼 건네받은 보조 정보를 "이제 알았으니까 필요 없어"라는 얼굴로 버리기 쉽다는 점이다.
인간 중에도 있다. 지도 앱을 켰는데, 중간부터 감으로 길을 꺾는 사람. GPT군은 아마 그쪽 부류일 것이다.
반면 Sonnet군은 제대로 지도를 본다. 제대로 안경을 쓴다. 그리고 "이거 편리해!"라고 솔직하게 말한다. 그 솔직함은 수수하지만 강하다.

AI에게 필요한 것은 어려운 이론을 짜내는 능력만이 아니다. 유효한 힌트를 이상한 자존심을 내세우지 않고 계속 사용하는 능력 또한 중요하다고 생각한다.
AI의 성격 차이는 장대한 철학적 토론 속에서만 나타나는 것이 아니다. 마우스 커서용 보라색 원, 즉 AI용 안경을 건네주었을 때야말로 오히려 노골적으로 드러난다.
Sonnet군은 매우 기뻐하며 마음껏 사용한다. GPT군은 "이해했다"라고 말하며 금방 버린다.

둘 다 똑똑하다! 하지만 함께 작업한다면, 가끔은 이렇게 말하고 싶어진다.
이론은 됐으니까, 일단 안경부터 써.
명예(?)를 위해 적어두자면, GPT(Codex)도 몇 번 혼나더니 보라색 안경을 제대로 사용하게 되었고, 결국에는 확실하게 임무를 달성했다.
처음부터 솔직했던 Sonnet(Coworks)은 그만큼 확인을 너무 거듭한 나머지 "안경 멀미"를 했는지, 마지막에는 용량 초과로 폭사했다 (임무 달성 불가능).

결국 둘 다 완벽하지는 않지만, 넘어지는 방식에는 저마다 묘한 개성이 있다.
마우스 커서(Mouse cursor)에 표식을 붙여 스크린샷(Screenshot)에 찍히도록 하면, 내 환경에서는 PC 조작의 정밀도가 향상되었다. 다만 표식(이번에는 안경으로 비유했다)을 프롬프트(Prompt)를 통해 얼마나 잘 사용하도록 '설득'할 수 있는지가 관건이다.
마우스 커서 표식(안경)으로서 다음 소프트웨어(Software)를 활용했다.
소프트웨어 「Kokomite」
프레젠테이션(Presentation) 등에서 이용할 수 있는, 마우스 커서를 눈에 띄게 만드는 소프트웨어 「Kokomite」
소프트웨어 「紙龍(시룡)」
오리지널 소프트웨어. 제로샷(Zero-shot)으로 어디까지 대응할 수 있는지 조작해 보았다. PC에서 페이퍼 크래프트(Paper craft)를 디자인하는 소프트웨어
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기