OpenClaw 2026.6.1 이후 텔레그램 봇이 응답을 멈췄습니다 — GPT-5가 아니라 디스크 용량 부족 문제였습니다 - Insights | Molayo

우리가 스택(stack)의 흥미로운 부분만을 얼마나 빠르게 탓하는지 정말 놀랍습니다.

텔레그램 봇이 침묵하나요? 분명 GPT-5 문제일 겁니다. 아니면 Claude Opus 4.6이거나, 제공업체 라우팅(routing) 문제일 수도 있죠. 혹은 어떤 이상한 프롬프트 회귀(prompt regression) 문제일 수도 있습니다. 어쩌면 OpenClaw가 세션(session) 작동 방식을 변경했을지도 모릅니다. 모델의 컨디션이 안 좋았을 수도 있고요.

그런데 로그에는 이렇게 적혀 있습니다:

ENOSPC: no space left on device, write

이것이 제가 이번 주에 조사하던 OpenClaw 2026.6.1 장애의 진짜 원인이었습니다.

겉으로 드러난 증상은 전형적인 에이전트(agent)의 이상 현상이었습니다:

텔레그램 봇이 응답하지 않음
TUI(Terminal User Interface)가 출력을 생성하지 않음
assistant turn failed before producing content 오류 반복
모델이 openai/gpt-5.5로 표시됨
로컬 런타임(local runtime)이 ws://127.0.0.1:18789에 위치함

만약 표면적인 부분만 보았다면, 당신은 분명 모델을 교체하거나 프롬프트(prompt)를 디버깅하는 것부터 시작했을 것입니다.

하지만 그것은 잘못된 첫 번째 단계였습니다.

장애는 모델 문제처럼 보였습니다

런타임 명령은 정상적으로 보였습니다:

openclaw tui - ws://127.0.0.1:18789 - agent main - session main

UI에 표시된 가시적인 에러는 모호했습니다:

[assistant turn failed before producing content]

하지만 실제 장애 원인은 훨씬 더 단순했습니다:

run error: ENOSPC: no space left on device, write

이것은 GPT-5의 실패가 아닙니다.
모델이 무언가를 반환하기도 전에 로컬 런타임이 스토리지 계층(storage layer)에 도달하여 발생한 문제입니다.

이것이 왜 그렇게 많은 디버깅 시간을 낭비하게 만드는가

에이전트 장애는 종종 스택의 최상단에서 나타나지만, 그 근원은 최하단에 있습니다.

텔레그램 봇이 응답을 멈출 때, 보통 다음과 같이 친절한 배너가 뜨지는 않습니다:

Disk usage: 100%
SQLite writes failing
Session store corrupted

그저 침묵만이 흐를 뿐입니다.

그래서 사람들은 합리적인 행동을 합니다:

GPT-5로 재시도
Claude Opus 4.6으로 재시도
제공업체(provider) 교체
온도(temperature) 낮추기
프롬프트 다듬기
컨텍스트 윈도우(context windows) 탓하기

모두 타당한 테스트들입니다.
하지만 기계 자체가 건강하지 않다면, 여전히 잘못된 첫 번째 테스트들입니다.

장시간 실행되는 에이전트는 운영상의 문제를 서서히 만들어내는 데 탁월합니다:

세션 히스토리 (session history) 증가
로그 (logs) 증가
SQLite 파일 증가
플러그인 상태 (plugin state) 증가
텔레그램 히스토리 (Telegram history) 증가
로컬 캐시 (local caches) 증가

만약 VPS, 아주 작은 클라우드 인스턴스, 홈 서버, 또는 몇 달 동안 확인하지 않은 머신에서 OpenClaw를 실행 중이라면, 디스크 용량 부족은 매우 흔한 실패 원인입니다.

OpenClaw 2026.6.1은 두 가지 유형의 문제를 드러내는 것으로 보입니다

디스크 문제는 명백한 원인이었습니다.

하지만 그것이 유일한 단서는 아니었습니다.

플러그인 메타데이터 및 SQLite 상태와 관련하여 다음과 같은 메시지를 포함한 업그레이드 및 상태 경고도 있었습니다:

Left plugin install index in place because shared SQLite state has conflicting plugin install metadata for: codex

이러한 종류의 경고는 디스크 공간을 확보하는 것만으로는 충분하지 않을 수 있음을 알려줍니다.

또한 다음과 같은 문제에 직면해 있을 수도 있습니다:

부분적으로 마이그레이션된 로컬 상태 (partially migrated local state)
플러그인 설치 메타데이터 충돌 (plugin install metadata conflicts)
업그레이드 후 프로바이더/플러그인 변경 (provider/plugin changes after upgrade)
오래된 SQLite 상태 (stale SQLite state)

따라서 다음과 같은 순서가 발생합니다:

봇이 응답을 멈춤
공간을 확보함
OpenClaw를 재시작함
여전히 이상하게 동작함
이제 모델을 탓함

여전히 모델 때문이 아닐 수도 있습니다.

업데이트가 에이전트를 망가뜨린 것이 아니라, 오래된 난장판을 드러낸 것일 수 있습니다

OpenClaw 2026.6.1 논의에서 얻은 유용한 세부 사항 중 하나는 프로바이더 처리 방식이 번들 프로바이더 (bundled providers)에서 플러그인 (plugins) 방식으로 변경되었다는 점입니다.

이것은 매우 중요한 사항입니다.

만약 기존 설정이 특정 레이아웃을 예상했는데 새 버전이 플러그인 설치와 업데이트된 설정을 요구한다면, 실제 문제는 로컬 런타임 (local runtime) 설정임에도 불구하고 증상은 마치 모델이 실패한 것처럼 보일 수 있습니다.

사람들이 언급한 실질적인 해결책은 다음과 같습니다:

openclaw doctor

업그레이드를 진행한 후 doctor를 실행하지 않았다면, 프롬프트(prompts)를 건드리기 전에 먼저 실행하십시오.

모두 극적으로 보이지만 사실은 지루한 세 가지 실패 유형

실패 원인	나타나는 현상
저장 공간 고갈 (`ENOSPC`)	콘텐츠를 생성하기 전에 어시스턴트가 실패함; 텔레그램이 침묵함; 로컬 런타임에서 쓰기 작업 실패
...

이것이 제가 더 많은 에이전트 팀들이 내재화해야 한다고 생각하는 패턴입니다:

먼저 기계를 확인하십시오.
두 번째로 로컬 상태 (local state)를 확인하십시오.
세 번째로 마이그레이션 (migrations)을 확인하십시오.
그다음에 모델을 탓하기 시작하십시오.

텔레그램 봇이 침묵할 때 제가 가장 먼저 확인할 사항들

제가 사용하는 순서는 다음과 같습니다.

1) 즉시 디스크 공간 확인

df -h

명백한 원인을 찾고 싶다면:

du -sh ./* 2>/dev/null | sort -h

또는 시스템 전체의 병목 지점을 찾으려면:

sudo du -xh / | sort -h | tail -50

확인할 가치가 있는 항목들:

OpenClaw 세션 스토리지 (session storage)
SQLite 데이터베이스 파일
로그 (logs)
캐시 디렉토리 (cache directories)
텔레그램 관련 상태 (Telegram-related state)
임시 파일 (temp files)

ENOSPC 오류가 보인다면, 프롬프트 (prompts) 디버깅을 중단하십시오. 저장 공간부터 해결하십시오.

2) OpenClaw doctor 실행

openclaw doctor

특히 2026.6.1 버전 또는 그 이후 버전으로 업그레이드한 직후라면 더욱 그렇습니다.

만약 OpenClaw가 프로바이더 (providers)를 플러그인 (plugins) 방식으로 이동했는데 기존 설정이 여전히 번들형 프로바이더를 가정하고 있다면, doctor 명령어가 시행착오를 겪는 것보다 더 빠르게 문제를 알려줄 것입니다.

3) 마이그레이션 및 플러그인 경고 확인

로그에서 다음 키워드가 포함된 내용을 검색하십시오:

SQLite
migration (마이그레이션)
plugin (플러그인)
metadata (메타데이터)
codex (코덱스)
provider (프로바이더)

중요하게 살펴봐야 할 예시들:

conflicting plugin install metadata
legacy migration behavior
missing provider plugin

업그레이드 후에 이러한 메시지들이 나타난다면, 상태 저장소 (state store)를 신뢰할 수 있다고 가정하지 마십시오.

4) 프로바이더 및 모델 설정 검증

실제로 설치한 프로바이더 플러그인이 설정 파일에서 참조하는 내용과 일치하는지 확인하십시오.

또한 컨텍스트 (context) 설정도 검증하십시오.

만약 OpenClaw는 모델이 특정 컨텍스트 크기를 지원한다고 생각하는데 프로바이더 설정이 다르게 되어 있다면, 모델의 불안정성처럼 보이지만 실제로는 설정 불일치로 인한 오류가 발생할 수 있습니다.

5) 이제서야 프롬프트 및 모델 선택 테스트

기계가 정상이고 로컬 상태가 온전해진 후에야 비로소 다음 모델들을 비교하는 것이 의미가 있습니다:

GPT-5
Claude Opus 4.6
Grok 4.20
Qwen 변형 모델들 (variants)
Llama 변형 모델들 (variants)

이 지점이 바로 OpenAI 호환 엔드포인트 (OpenAI-compatible endpoint)를 사용하는 것이 도움이 되는 이유입니다. 만약 여러분의 애플리케이션이 통합 코드를 다시 작성하지 않고도 제공자 (provider)를 전환할 수 있다면, 모델 문제와 런타임 (runtime) 문제를 분리하는 것이 훨씬 쉬워집니다.

이것이 제가 Standard Compute가 채택한 드롭인 API (drop-in API) 방식을 선호하는 이유 중 하나입니다. 기존의 OpenAI SDK나 HTTP 클라이언트를 그대로 유지하면서 백엔드 (backend)만 교체할 수 있고, 앱을 다시 빌드하지 않고도 문제가 모델 라우팅 (model routing) 때문인지 아니면 로컬 런타임 (local runtime) 때문인지 테스트할 수 있습니다. 더 중요한 점은, 만약 에이전트 (agents)를 24시간 내내 실행하고 있다면, 정액제 컴퓨팅 (flat-rate compute)을 통해 매 분마다 토큰 소비량을 감시할 필요 없이 테스트를 진행할 수 있다는 것입니다.

때로는 정말로 모델 설정 문제인 경우도 있습니다

공정하게 말하자면, 여기서 발생하는 모든 문제가 디스크 (disk)나 마이그레이션 상태 (migration state) 때문인 것은 아닙니다.

업데이트 이후 context too large (컨텍스트가 너무 큼) 현상에 대한 보고도 있었습니다.

그것은 실제 상황입니다.

하지만 그런 경우에도, 저는 그것을 모델 문제라고 부르기 전에 여전히 설정 (configuration) 문제로 분류할 것입니다.

다음 사이에는 큰 차이가 있습니다:

"Claude의 성능이 저하되었다"
"GPT-5가 불안정하다"

그리고:

"내 런타임이 잘못된 컨텍스트 크기를 등록했다"
"내 제공자 플러그인 (provider plugin) 설정이 더 이상 구성과 일치하지 않는다"

하나는 모델을 탓하는 것이고,
다른 하나는 운영 (operations)의 문제입니다.

대부분의 경우, 운영의 문제입니다.

최소한의 디버깅 체크리스트

만약 제가 장애 보고서 (incident note)를 작성한다면, 다음과 같이 작성할 것입니다:

OpenClaw 업데이트 후 텔레그램 봇이 응답을 멈춘 경우:

1. 디스크 공간 확인
...

이 순서가 시간을 몇 시간씩 아껴줍니다.

멋지지 않은 교훈

만약 업그레이드 직후에 에이전트가 죽는다면, 먼저 지루한 인프라 (infrastructure) 문제라고 가정하십시오.

모델이 결코 실패하지 않기 때문이 아닙니다.
로컬 실패가 사람들이 인정하고 싶어 하는 것보다 훨씬 더 흔하기 때문입니다.

스택 (stack)이 똑똑해질수록, 장애 (outages)는 더욱 당혹스러워집니다.

OpenClaw를 통해 실행되고, openai/gpt-5.5와 대화하며, ws://127.0.0.1:18789를 통해 연결된 텔레그램 봇이라 할지라도, 컴퓨팅에서 가장 매력적이지 않은 오류에 의해 중단될 수 있습니다:

no space left on device

솔직히 말해서, 이것은 좋은 소식입니다.

지루한 문제는 해결 가능하니까요.

만약 여러분이 OpenClaw, n8n, Make, Zapier 또는 커스텀 루프 (custom loops)를 사용하여 장기 실행 에이전트 (long-running agents)를 구축하고 있다면, 다음과 같은 운영 습관을 갖추는 것이 중요합니다:

모델은 그다음입니다. 머신 (Machine)이 우선입니다.

런타임 (runtime)이 디스크에 쓸 수 없다면, GPT-5가 틀릴 기회조차 생기지 않습니다.

OpenClaw 2026.6.1 이후 텔레그램 봇이 응답을 멈췄습니다 — GPT-5가 아니라 디스크 용량 부족 문제였습니다

요약

핵심 포인트