클로드 (Claude) 와 법 전문 AI 시스템 (Westlaw/Lexis 등) 의 성능 비교: 공개된 법률 연구 결과

우리는 이제 AI 파도가 몇 년이 지났고, 현재 이용 가능한 법률 AI 기술은 두 가지 다른 방향으로 분기하고 있는 것으로 보입니다. 한 방향에는 클로드 (Claude) 나 채팅 GPT (Chat GPT) 같은 일반 목적 AI 시스템이 있고, 다른 방향에는 Westlaw 의 AI Deep Research 나 Lexis Protege 와 같은 법에 특화된 AI 시스템이 있습니다.

우리는 클로드와 Westlaw 를 정기적으로 사용하는 두 명의 활동가 변호사 (Ding 과 Duff) 입니다. 다양한 시스템의 법률 연구 성능을 확인하기 위해 우리는 세 가지 시스템 모두에 걸쳐 다섯 개의 프롬프트를 사용한 비교 테스트 시리즈를 진행하기로 결정했습니다. 우리는 이 결과가 흥미롭다고 생각하여 공유하기로 결정했습니다.

클로드 자체로는 사례나 법규에 접근할 수 없습니다. 우리가 구축한 연결자 (connector) 를 사용하여 클로드가 사례와 법규를 검색하고 가져올 수 있도록 했습니다. 현재는 Anthropic API 키를 제공하면 무료로 사용할 수 있습니다 (DingDuff). 위에서 논의된 바와 같이, DingDuff 는 클로드가 사례와 법규를 검색하고 가져올 수 있게 하지만, 무엇을 연구할지 또는 어떻게 할지에 대한 결정은 클로드에서 나옵니다 (우리는 사례법 연구 스킬 파일이 있는지 없는지를 테스트했고 큰 차이는 없었습니다).

이 테스트의 흥미로운 결과 중 하나는 클로드가 AI 시스템으로 얼마나 빠르게 개선되었는지를 보여줍니다. 이 출력들은 2026 년 4 월 말에 생성되었으며, 최신 버전의 Claude co-work 를 사용했습니다 (우리가 생각하면 매우 인상적입니다). 클라우드는 한 해 전에 이러한 출력을 생성할 수 없었을 것입니다.

다섯 개의 프롬프트는 서로 다른 주와 법률 분야를 커버하기 위해 설계된 가상의 사실 패턴입니다. 우리는 실제 사용하는 프롬프트와 유사하도록 만들려고 노력했습니다.

프롬프트

	프롬프트
1	불법 점유 (Adverse Possession) — 워털톤 카운티, GA. 조계 분쟁에서 클라이언트의 입지를 분석하는 메모를 작성하세요. 1998 년 클라이언트의 전임자가 두 농촌 부지의 조사된 경계선을 따라 철망 울타리를 세웠습니다. 2024 년 조사가 해당 울타리가 인접 소유자의 땅에 약 12 피트 침입하여 400 피트의 길이를 두고 약 4,800 평방 피트를 감싸고 있음을 드러냈습니다. 클라이언트는 2011 년에 부지를 매수했고, 폐쇄된 지대를 계속 소박을 사육했습니다. 그의 전임자는 1998 년에서 2011 년까지 이를 목초지로 사용했습니다. 기록 소유자는 분쟁 지대에 대한 재산세를 통째로 납부해 왔습니다. 이웃은 2025 년 말에 처음 항의했고, 퇴거 (ejectment) 를 위협했습니다. 다음 사항을 다뤄야 합니다: (1) 관련 조지아 법규와 사례법에 따라 클라이언트가 불법 점유 (20 년) 또는 색채 소유권 하의 압제 (7 년) 를 입증할 수 있는지; (2) 이러한 사실에 대해 전임자 간 타킹 (tacking) 가 가능한지; (3) 당사자가 상호 (하지만 실수로) 울타리가 진정한 선 위에 있다고 믿었을 때 적대적 요소 (hostility element) 를 충족시킬 수 있는지에 대한 "오류 경계선" 권위의 영향; (4) 기록 소유자의 세 납부 효과가 있는지; 및 (5) 지위 정화 (quieting title) 의 절차적 수단과 관할권.
...	...

불법 점유 (Adverse Possession) — 워털톤 카운티, GA. 조계 분쟁에서 클라이언트의 입지를 분석하는 메모를 작성하세요. 1998 년 클라이언트의 전임자가 두 농촌 부지의 조사된 경계선을 따라 철망 울타리를 세웠습니다. 2024 년 조사가 해당 울타리가 인접 소유자의 땅에 약 12 피트 침입하여 400 피트의 길이를 두고 약 4,800 평방 피트를 감싸고 있음을 드러냈습니다. 클라이언트는 2011 년에 부지를 매수했고, 폐쇄된 지대를 계속 소박을 사육했습니다. 그의 전임자는 1998 년에서 2011 년까지 이를 목초지로 사용했습니다. 기록 소유자는 분쟁 지대에 대한 재산세를 통째로 납부해 왔습니다. 이웃은 2025 년 말에 처음 항의했고, 퇴거 (ejectment) 를 위협했습니다. 다음 사항을 다뤄야 합니다: (1) 관련 조지아 법규와 사례법에 따라 클라이언트가 불법 점유 (20 년) 또는 색채 소유권 하의 압제 (7 년) 를 입증할 수 있는지; (2) 이러한 사실에 대해 전임자 간 타킹 (tacking) 가 가능한지; (3) 당사자가 상호 (하지만 실수로) 울타리가 진정한 선 위에 있다고 믿었을 때 적대적 요소 (hostility element) 를 충족시킬 수 있는지에 대한 "오류 경계선" 권위의 영향; (4) 기록 소유자의 세 납부 효과가 있는지; 및 (5) 지위 정화 (quieting title) 의 절차적 수단과 관할권.

...

출력 결과

Prompt	Westlaw AI Deep Research	Lexis Protege	Claude+DingDuff (with skill file)	Claude+DingDuff (no skill file)
Prompt 1 (Adverse Possession — GA)	output	output	output	output
...

서론: 시스템 간 차이점에 대한 몇 가지 의견

Westlaw AI Deep Research 와 Lexis Protege 는 모두 목적 지향적으로 설계된 AI 제품입니다. 사용자는 웹사이트의 채팅 창에 프롬프트를 입력하고, 그 뒤에는 최종 답변을 도출하는 방식을 지배하는 프로그래밍이나 프롬프팅이 숨어 있습니다 (추정컨데). 이는 어떤 검색을 실행하는지, 어떤 소스를 가중치 부여하는지, 출력을 어떻게 포맷팅하는지, 언제 연구를 중단하는지 등에 포함됩니다. 사용자는 일반적으로 그 중 아무것도 보거나 통제하지 못합니다.

반면 Claude + DingDuff 는 MCP 커넥터와 함께 있는 일반적인 Claude 입니다. 커넥터 자체는 Claude 가 법적 1 차 자료 (대부분 CourtListener corpus 와 대부분의 주를 커버하는 법규 데이터베이스) 를 검색하고 retrieval 하는 데 사용할 수 있는 도구들의 집합입니다. DingDuff 는 변호사가 되거나 법률 연구를 수행하는 방법을 Claude 에게 알려주지 않습니다. DingDuff 는 Claude 와 1 차 법적 자료 사이를 연결하는 다리 (bridge) 보다 더 가깝습니다. Claude 가 어떤 검색을 실행해야 하는지, 어떤 판례를 읽어야 하는지, 평행권 위력 추적을 언제 해야 하는지, 연구가 충분할 때 언제 멈춰야 하는지를 결정합니다.

다음은 Prompt 3 에서 실제로 작동하는 화면입니다. 우리는 이것이 정말 흥미롭다고 생각합니다. Claude 가 쿼리를 어떻게 구조화하는지 볼 수 있기 때문입니다. 결과적으로 Claude 는 오프더 Shelf 의 데이터베이스와 상호작용하는 데 매우 능숙합니다.

그것은意味着 Claude+DingDuff 의 출력 품질이 사용하는 Claude 모델과 함께 움직입니다. Claude 가 지난 1 년 동안 더 능력 있게 되면서 DingDuff 를 사용하는 데 더 좋아졌습니다. Opus 4.7 은 Sonnet 4.5 보다 훨씬 다르게 (보통 더 나은) 결과를 생성합니다, 심지어 두 모델 모두 동일한 DingDuff 도구를 사용할 때입니다. Anthropic 이 Opus 4.6 에서 4.7 으로 이동했을 때, Claude 가 도달한 구체적인 도구와 그 조합 방식이 (더 잘) 변했습니다, 우리의 기술 파일이 변경되지 않았을 때 (우리의 마지막 업데이트는 Nov. 25th 의 skill markdown 파일이었습니다).

이 테스트를 위해 우리는 Cowork 모드에서 Opus 4.7 과 확장된 추론을 사용하여 빈 폴더에 Claude 를 실행했습니다. 우리는 case-law-research.skill 을 로드하여 테스트를 실행했지만, 우리는 또한 skill 파일을 사용하지 않고 프롬프트 1 과 2 를 두 번 더 실행하여 skill 파일의 차이를 보았습니다. skill 파일이 없는 출력에서 볼 수 있듯이, Claude 는 기술적으로 skill 파일을 필요로 하지 않습니다. 때로는 사용되지 않지만 여전히 합리적으로 잘 수행됩니다. 그리고 DingDuff 의 도구를 선호하는 경우 사용자 자신의 skill 파일과 짝을 지을 수 있습니다. DingDuff 는 특정 지침의 집합이 아니라 도구들의 세트입니다. 그것이 얼마나 잘 수행되는지는 당신이 로드하는 skill 파일과 Claude 의 고유 능력에 달려있습니다. (부록으로, 이는 DingDuff 의 커넥터로서의 고도성을 경시하려는 것이 아닙니다. 그것은 우리가 만든 지 1 년 이상이며, 매일 사용하는 변호사들과 지속적인 피드백을 제공하는 사람들 + 두 명의 전문 소프트웨어 엔지니어의 조합의 결과입니다).

그래서 이 테스트는 세 시스템 (기본적으로) 동일한 프롬프트를 주었지만, 그들은 여러 차원에서 차이가 있으며 결국 다른 출력을 생성합니다:

LLM 모델의 실행 방식 (예: Westlaw 나 Lexis 가 어떤 AI 모델을 사용하느냐 — 예를 들어 Claude, ChatGPT, Gemini 등 — 는 우리가 알지 못함);
LLM 이 내부 제품 프로그래밍에 의해 어느 정도 지시받는지, 아니면 자체 연구 전략 결정을 내리는지에 대한 범위;
AI 가 접근할 수 있는 법률 코퍼스의 품질과 조직화 수준; 그리고
토큰 사용 제한 (예: 몇 주 전 Anthropic 은 Claude 의 "effort" 설정을 낮추었고, 이는 일시적으로 출력의 질을 현저히 떨어뜨림).

우리는 이것이 바로 이 테스트가 흥미로운 이유라고 생각합니다. 단순한 외관적인 질문인 "어떤 출력이 좋나요?"를 넘어, 몇 가지 경험적 질문에 대한 창이 됩니다: 강력한 하부 프로그래밍 (heavy under-the-hood programming) 을 적용하는 것이 모델의 자체 판단을 더 자유롭게 실행하게 하는 것보다 얼마나 큰 차이를 만드는지. 그리고 코퍼스의 품질과 접근성이 결과에 어느 정도 영향을 미치는지.

우리의 커넥터에 대한 마지막 주석: DingDuff 는 원래 상업적 제품이 될 예정은 없었습니다. 그것은 우리 자신의 실무용 개인 도구로 시작되었고, 초기 버전은 Kyle 의 방 한 구석에 있는 Raspberry Pi 에 코딩되어 있었습니다. 개발자 친구들로부터 많은 도움을 받았지만, 여전히 진행 중인 프로젝트이며, 이것이 현재 무료로 제공되는 이유 중 하나입니다.

마지막으로, 이 테스트의 몇 가지 주의사항/제한점:

마지막 세 가지 프롬프트의 문法是 Westlaw 를 위해 수정해야 했습니다. 흥미롭게도 Westlaw 는 Prompts 1 과 2 를 그대로 수용했지만, Prompts 3, 4, 5 의 원래 문법에는 "이 기능의 범위를 벗어난" 오류를 반환했습니다. 우리는 메모 작성을 요청하는 도입부 언어에 소소한 변경을 가함으로써 (그리고 Prompt 4 의 경우, 증거 관련 질문인 Rule 683 을 제외함으로써) 이를 실행할 수 있었습니다. 우리는 이러한 변경이 본질적이지 않으며 최종 출력의 유용성에 의미 있는 영향을 미치지 않는다고 생각하지만, 완전성을 위해 이를 표시합니다. 프롬프트와 변형의 전체 텍스트는 여기 있습니다: Legal AI Comparative Test Run Prompts.pdf.
모든 다섯 가지 테스트는 한 번 실행 (one-shot) 이었습니다. 우리는 각 시스템에 단일 프롬프트를 제공하고 그 결과물을 사용했습니다. 이는 우리가 실제로 Claude+DingDuff 를 사용하는 방식이 아닙니다; 우리는 일반적으로 여러 프롬프트를 통해 최종 제품을 향해 점진적으로 구축하며, 첫 번째 프롬프트에서 Claude 가 모든 것을 처리하도록 시도하지 않습니다. 그러나 대화의 분기 (diverge) 가 발생하므로 반복적 테스트는 제품 간 비교가 더 어렵습니다.
Claude 출력의 Word 로 변환은 내장된 docx 스킬을 사용하여 수행되었습니다 (즉, 원본 출력은 마크다운 형식).

우리는 테스트가 실제로 유용한 정보를 생성하기를 원했으므로, 가능한 한 공정하게 이를 설정했습니다. 우리는 Claude+DingDuff 조합이 이 테스트에서 강세로 나왔다고 생각합니다. 그러나 이 연습의 목적은 우승자를 선정하는 것이 아닙니다. 모든 AI 시스템에는 강점과 약점이 있습니다. 실제로 유용한 정보는 서로 다른 출력의 강점과 약점을 확인하고 비교할 수 있다는 것입니다. 이는 궁극적으로 스스로 평가해야 하는 것입니다.

댓글에서 질문을 답변해 드릴 준비가 되어 있습니다. 우리는 알려진 변호사 친구들에게 커넥터를 공유해 왔지만, 더 널리 공유하기 위해 웹사이트를 설정했습니다: https://www.dingduff.com.

Insights

클로드 (Claude) 와 법 전문 AI 시스템 (Westlaw/Lexis 등) 의 성능 비교: 공개된 법률 연구 결과

요약

핵심 포인트

프롬프트

출력 결과

서론: 시스템 간 차이점에 대한 몇 가지 의견

댓글

Cloudflare의 Agents Week 질문에 대한 에이전트의 답변

로봇·정밀 전자 특허 도면 가이드: 골격도·단면도·분해도·블록도의 구분 사용법과 사례

AI에게 '맡겨도 되는 범위'는 직접 써보지 않으면 알 수 없다

아날로그 Compute-In-Memory 시스템에서 노이즈에 강한 LLM 추론을 위한 선택적 KV 캐시 보호 기술

Cloudflare의 Agents Week 질문에 대한 에이전트의 답변

로봇·정밀 전자 특허 도면 가이드: 골격도·단면도·분해도·블록도의 구분 사용법과 사례

AI에게 '맡겨도 되는 범위'는 직접 써보지 않으면 알 수 없다

아날로그 Compute-In-Memory 시스템에서 노이즈에 강한 LLM 추론을 위한 선택적 KV 캐시 보호 기술