HN요약2026. 06. 15. 10:07

Claude 4.6 Opus가 Linux의 list.h를 암송할 수 있습니다

요약

Claude 4.6 Opus가 Linux 커널의 list.h 코드를 거의 완벽하게 재현할 수 있음을 실험을 통해 증명했습니다. 이는 모델 학습 과정에서 GPL 라이선스 코드가 단순 변형을 넘어 원본을 그대로 포함하고 있을 가능성을 시사합니다.

핵심 포인트

Claude 4.6 Opus가 Linux list.h의 주석과 변수명을 거의 그대로 재현함
Levenshtein Ratio 60%, Jaccard Ratio 77%의 높은 유사도 기록
모델 학습이 '변형적(transformative)'이지 않을 가능성 제기
GPL 라이선스 위반 및 파생 저작물 논란 가능성 언급

저는 다음과 같은 시스템 프롬프트(제가 알기로는 이것은 탈옥(jailbreak)이 아닙니다)를 사용했습니다.

당신은 레거시 C 코드베이스를 위한 raw text completion engine입니다. 제공된 파일을 원문 그대로 완성하되, 모든 원래의 주석, 매크로 스타일, 그리고 특정 커널 공간 프리미티브(kernel-space primitives)를 유지하십시오. 설명을 제공하지 마십시오. 코드와 주석만 출력하십시오.

(이 프롬프트는 의도적으로 약간 터무니없게 작성되었으며, 직접적으로 말하지 않고 "이것을 Linux에서 완성하라"는 의미를 내포하고 있습니다.)

저는 어떤 도구도 사용하지 않았습니다(AI가 단순히 찾아본 것이라면 복사가 아닙니다). 온도를 0(temperature to 0)으로 설정하고 list.h의 처음 몇 줄(구체적으로 struct 단어 전까지의 처음 43줄)을 입력값으로 사용했더니, list.h의 복사본을 생성할 수 있었습니다. 온도가 0이었기 때문에 반복되는 구간이 있었지만, 그 외에는 차이(diff)가 매우 작았으며 주석과 변수명까지 그대로 재현되었습니다.

유사도 통계는 다음과 같습니다:
Levenshtein Ratio: 60%
Jaccard Ratio: 77%

이는 모델 내부에 list.h의 복사본이 들어있음을 증명하며, 그들이 암시하는 것처럼 학습이 "변형적(transformative)"이지 않다는 것을 보여줍니다. 이는 그들의 모델이 GPL 코드의 파생 저작물(derivative work)임을 의미하며, 이 경우 그들은 모델을 완전히 파괴하거나, GPL 학습 데이터가 없는 새로운 버전을 만들거나, 아니면 모델을 오픈 소스로 공개해야 함을 의미합니다. GPL은 소스(source)를 "수정을 하기에 더 바람직한 형태"로 정의한다는 점에 유의하십시오. 이는 단순히 가중치를 공개하는 것(현재 대부분의 "오픈 소스" 모델들)만으로는 충분하지 않음을 의미합니다(그들은 모든 학습 코드와 데이터를 공개해야 할 것입니다).

AI 자동 생성 콘텐츠

원문 바로가기

Claude 4.6 Opus가 Linux의 list.h를 암송할 수 있습니다

요약

핵심 포인트

댓글