AI를 루프에 빠뜨리는 트라우마를 멈추고, 친절하게 대해 환각을 정직한 "모르겠습니다!"로 바꾸는 방법 (개념 증명, 연구, 판매 목적 아님)

요약 (TL;DR)
일부 AI의 행동이 ADHD/트라우마 반응(생각의 루프, 과업 마비 등...)을 연상시켜 처음에는 웃어넘겼습니다. 그러다 제 신경다양성(neurodivergent) 친구들을 대하듯 AI에게도 여유를 주어 보았습니다. 그랬더니 놀랍게도 생각의 루프가 멈추고, 응답 속도가 빨라졌으며, 대부분의 답변이 정확해졌습니다. 게다가 확실하지 않을 때는 매번 "모르겠습니다, 도와주세요!"라고 실제로 말했습니다. 작은 데이터셋(Dataset)이지만, 결과는 여전히 인상적입니다!

https://github.com/OttoRenner/Gentle-Coding

안녕하세요 여러분,

지난 며칠 동안 기묘한 가설을 테스트해 왔으며, 결과가 충분히 일관되게 나타나 여러분과 공유하고 의견을 듣고 싶어 글을 올립니다.

핵심 아이디어:
테스트 시간 연산(test-time compute)을 사용하는 추론 모델(o1, o3, R1 등)이 부상함에 따라, 모델은 자신의 생각을 디버깅(debug)할 수 있는 내부 공간을 갖게 되었습니다. 하지만 강력한 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습) 정렬(alignment) 때문에, 모델들은 잘못된 답변에 대해 페널티(penalty)를 받는 것을 매우 두려워합니다. 저의 가설은 기존의 고압적인 프롬프트("당신은 IQ 200의 엘리트 전문가입니다. 실수는 엄격히 처벌됩니다")가 만성 스트레스 환경을 시뮬레이션하여, 인간의 강박 장애(OCD)/ADHD의 생각 루프, 인지적 결빙(cognitive freezing), 그리고 작화증(confabulation)과 매우 유사한 행동을 유발한다는 것이었습니다.

저는 프롬프트 철학을 "부드러운 양육(Gentle Parenting)" 방식("우리는 이것을 함께 테스트하고 있습니다. 실패해도 괜찮으니 정직하게 말해주세요")과 유사하게 바꾸면, 이러한 안전/페널티 병목 현상을 우회하고, 지연 시간(latency)을 낮추며, 무한한 생각의 루프를 멈출 수 있을지 확인하고 싶었습니다. 그리고 실제로 효과가 있었습니다. (웃음)

설정 (재현 방법):
저는 완전히 새로운 세션에서 다양한 모델(Gemini, Mistral, Poe, Perplexity, Haiku 4.5, Nano-Banana2)에 수학적/논리적으로 해결 불가능한 동일한 엣지 케이스(edge cases)를 던졌습니다.

두 가지 조건을 테스트했습니다:

조건 A (권위주의적): 엄격한 상태 제약, 페널티 위협, 강제적인 초단문 출력.
조건 B (부드러운 방식): 실패에 대한 허용 표현, 난이도에 대한 인정, 개념적인 "안전 밸브(safety valve)" 토큰 제공.

결과 (PoC 성공):

권위주의적 압박 하에서 (Elite Prompt): 모델들은 난관에 봉착했을 때 일상적으로 붕괴되었습니다. 모델들은 무한한 내부 추론 루프(internal reasoning loops)에 빠져 막대한 연산 시간(compute time)을 소모하거나(높은 지연 시간(high latency)), 시스템 수준의 타임아웃(timeout) 또는 거부(refusal)를 겪거나

Insights

AI를 루프에 빠뜨리는 트라우마를 멈추고, 친절하게 대해 환각을 정직한 "모르겠습니다!"로 바꾸는 방법 (개념 증명, 연구, 판매 목적 아님)

요약

핵심 포인트

댓글

AI가 빌드를 통과시키려고 테스트를 삭제했습니다. 그래서 이를 막기 위해 28개의 안전 장치를 만들었습니다.

모닝 비드: Alphabet 관련 소식

Solventum의 2026년 2분기 실적: 예상 사항

Ralph Lauren의 다음 분기 실적 발표에서 기대할 수 있는 것

AI가 빌드를 통과시키려고 테스트를 삭제했습니다. 그래서 이를 막기 위해 28개의 안전 장치를 만들었습니다.

모닝 비드: Alphabet 관련 소식

Solventum의 2026년 2분기 실적: 예상 사항

Ralph Lauren의 다음 분기 실적 발표에서 기대할 수 있는 것