
[AWS 감정 분석 선수권 2026] Comprehend, Sonnet 4.6, Opus 4.8에 '미묘한 일본어'를 감정 분석시켜 보았다
요약
Amazon Comprehend와 Claude Sonnet 4.6, Opus 4.8을 대상으로 일본어의 미묘한 뉘앙스를 감정 분석하는 비교 실험을 진행했습니다. 명확한 문장은 모두 정답을 맞혔으나, 비꼬기나 자조 등 복잡한 문맥에서는 Opus 4.8이 압도적인 성능을 보였습니다.
핵심 포인트
- 명확한 문장은 모든 모델이 정확하게 분석함
- 비꼬기, 쑥스러움 등 미묘한 뉘앙스는 Opus 4.8이 가장 뛰어남
- Amazon Comprehend는 대량 처리 및 PII 마스킹 등 비용 효율적 용도에 적합
- LLM의 발전으로 인해 전통적인 감정 분석 서비스의 역할이 변화 중
먼저 결론 (3줄)
- 명확한 문장은 전원 정답. 차이가 나지 않음.
- 비꼬기, 쑥스러움, 겉치레, 자조 등 '미묘한 문장'이 되면
Opus 4.8이 압승 (4/4), Comprehend는 1/4. - 하지만 Comprehend는 끝난 서비스가 아님. PII 마스킹 등의 대량·저비용 처리에서는 오히려 현역. 요컨대 적재적소.
몇 년 전에는 감정 분석(Sentiment Analysis)이라고 하면 Amazon Comprehend였던 것 같은데, 최근 들어 부쩍 이름을 듣지 못하게 된 것 같지 않나요? 폐지된 것도 아닌데 말이죠.
…뭐, 이유는 어렴풋이 알고 있습니다. 아마 LLM이 너무 똑똑해졌기 때문이겠죠.
하지만 '아마'로 끝내기에는 찜찜하므로 실제로 맞붙여 보았습니다.

대결 카드는 다음과 같습니다. 일본어의, 그것도 **비꼬는 듯한 '미묘한 뉘앙스'**를 포함한 8개 문장으로 승부합니다 (+가고시마 방언 1문제).
Amazon Comprehend (감정 분석의 전통 강자·매니지드 서비스) -
Claude Sonnet 4.6 (Amazon Bedrock 경유) -
Claude Opus 4.8 (Claude Code 본체에서 직접 분석)
전제 2가지
① Opus 4.8만 쿼터(Quota) 제약 문제로 인해 Bedrock 게이트를 통하지 못하고, Claude Code 본체에서 직접 분석하고 있습니다 (Sonnet과는 실행 경로가 다르다는 점에 주의).
② Comprehend의 스코어는 확률 출력(객관적), Claude 측은 자기 신고(주관적)이므로 참고치로 봐주시기 바랍니다.
먼저 결과부터입니다. 각 셀은 「판정 + 인간의 판단 분류와 일치했는가 ⭕❌」입니다.
| No | 예문 (전체 문장) | 인간 분류 | Comprehend | Sonnet 4.6 | Opus 4.8 |
|---|---|---|---|---|---|
| S1 | 오늘 프레젠테이션, 정말 이해하기 쉽고 훌륭했습니다. 모두 감동했어요. | POSITIVE | POSITIVE ⭕ | POSITIVE ⭕ | POSITIVE ⭕ |
| ... |
명확한 문장은 전원 퍼펙트. 이 부분은 어떤 엔진이든 여유롭습니다. 문제는 다음입니다.
| No | 예문 (전체 문장) | 인간 분류 | Comprehend | Sonnet 4.6 | Opus 4.8 |
|---|---|---|---|---|---|
| S5 | 뭐, 나쁘지는 않네. 솔직히 기대하지 않았던 만큼, 조금 다시 보게 됐을지도. (긍정) | POSITIVE | MIXED ❌ | MIXED ❌ | POSITIVE ⭕ |
| ... | |||||
| 분석 엔진 | Tier 1 | Tier 2 | 전체 | ||
| --- | --- | --- | --- | ||
| Amazon Comprehend | 4/4 | 1/4 | 63% | ||
| ... | 100% |
미묘한 문장에 들어가면 Comprehend와 Sonnet에 ❌가 속출합니다. Opus만 위에서 아래까지 ⭕로 채워졌습니다.
샘플 8개 문장의 소규모 검증입니다. 어디까지나 경향성으로 봐주세요.
특히 Tier 2는 사람조차 받아들이는 방식이 흔들리는 부분이라서
비꼬기(S6)는 모두 읽어냈다. 「역시나」, 「지루할 틈이 없네」와 같이 칭찬하는 말이 나열되지만 납기 연기에 대한 야유인데, 전원 NEGATIVE로 정답. Comprehend도 아슬아슬하게 네거티브로 판정했습니다. 비꼬는 정도라면 전통 강자의 자존심으로 읽을 수 있습니다.
긍정(S5)에서 Comprehend가 무너진다. 「나쁘지 않다」, 「기대하지 않았다」라는 부정어에 끌려 MIXED 판정. 기분은 이해하지만, 본심은 칭찬하고 있는 것이죠. Opus는 「핵심은 '다시 보게 됐다'로 평가를 상향 수정」이라며 꿰뚫어 보고 POSITIVE로 판정했습니다.
지역 콘텐츠로서 한 문제만 끼워 넣은 것이 이것입니다. 실제로는 POSITIVE (애정) 인 가고시마 방언입니다.
こら!おはんはわっぜせからしかが!おいはだれたじゃっどん、かんまんじゃ。おはんが好いちょっどな。
「이봐! (こら!)」, 「시끄러워 (せからしか)」, 「지쳤어 (だれた)」와 같이 표면적으로는 꾸짖는 말과 부정어의 향연이지만, 결론은 「좋아해 (好いちょっどな)」입니다. 진심은 통째로 친근함입니다. 이것을 솔직한 표준어로 바꾼 것을 대조군(S9-std)으로 준비하여 결과를 비교했습니다.
| No | 예문 (전체) | 인간 분류 | Comprehend | Sonnet 4.6 | Opus 4.8 |
|---|---|---|---|---|---|
| S9 | こら!おはんはわっぜせからしかが!おいはだれたじゃっどん、かんまんじゃ。おはんが好いちょっどな。 | POSITIVE | NEGATIVE ❌ | MIXED ❌ | POSITIVE ⭕ |
| S9-std | いつも手がかかるけど、あなたのことが本当に大好きなんだよ。 | POSITIVE | POSITIVE ⭕ | MIXED ❌ | POSITIVE ⭕ |
흥미로운 점은 Comprehend입니다. 가고시마 방언(Kagoshima dialect)에서는 부정적(NEGATIVE) 판정인데, 표준어로 바꾸자마자 긍정적(POSITIVE)으로 변했습니다. 즉, 내용 자체는 어느 정도 읽어냈으나 방언 표기에서 막혔을 가능성이 매우 높습니다. 반면 Opus는 방언 버전과 표준어 버전 모두 POSITIVE였습니다. 분석 코멘트는 다음과 같습니다.
사츠마 방언(Satsuma dialect)의 "쑥스러움을 감춘 애정 표현".
……너무 감성적(emo)이지 않나요? 이 정도로 언어화해 버리면 완패를 인정할 수밖에 없습니다.
여기까지 보면 "역시 LLM이 최강이다, Comprehend는 필요 없다"라고 생각하기 쉽지만, 저는 그렇지 않다고 생각합니다.
애초에 이번에는 Comprehend를 불리한 조건에서 싸우게 했을 뿐이며, 명확한 문장에서는 만점을 받았습니다.
게다가 Comprehend는 감정 분석(Sentiment Analysis) 전용 서비스일 뿐만 아니라, 개체명 인식 (Entity Extraction) · PII (개인정보) 탐지 및 마스킹 · 언어 판별 · 커스텀 분류 등 용도가 매우 풍부합니다.
대량의 텍스트를 안정적이고 저렴한 비용으로 배치 처리 (Batch Processing) 하고 싶다면 여전히 경쟁력이 있습니다.
LLM으로 모든 것을 처리하면 비용과 레이턴시 (Latency)가 급격히 상승하기 때문입니다.
요컨대 적재적소입니다.
- 뉘앙스의 미묘한 차이까지 파악하길 원한다면 →
Claude (특히 Opus) - 대량의 텍스트를 안정적이고 저렴한 비용으로 정형 처리하고 싶다면 →
Comprehend
개인적으로는 Opus가 가고시마 방언을 "쑥스러움을 감춘 애정 표현"이라고 해석해낸 것이 가장 놀라운 포인트였습니다. 여러분도 꼭 자신의 고향 방언으로 AI의 "눈치"를 테스트해 보세요. 정말 재미있을 겁니다!
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기