AI는 「표」를 어떻게 보고 있을까? PDF 자료로 Gemini 각 모드의 해석 능력 차이를 검증

1. 서론

「제공해주신 데이터의 구조상, 정확하게 연결할 수 없었습니다」

이것은 Gemini의 「Pro」에 복잡한 PDF 자료를 읽혔을 때, 실제로 돌아온 답변입니다.

고성능인 「Pro」(Gemini의 상위 모드)니까, 레이아웃이 복잡해도 읽어낼 수 있겠지.

그렇게 기대하며 실제로 해석 정밀도를 검증해 본 결과, 예상치 못한 결과가 기다리고 있었습니다.

「결국 어떤 모드가 좋은 거야?」「Pro가 가장 우수한 것 아닌가?」

그런 의문을 해소하기 위해, 이번에는 지자체의 공개 자료(미나토구 「광보 미나토」)를 샘플로 하여, Gemini의 각 모드에 따른 해석 정밀도의 차이를 철저히 검증했습니다.

참조: 미나토구 웹사이트 (광보 미나토)

2. 검증의 전제: 던진 심플한 질문

검증에 사용한 것은 날짜·시설명·진료 시간이 복잡하게 얽혀 있는 의료기관 리스트입니다.

【재현: 검증에 사용한 자료의 구조 이미지】

※ 실제 지면을 베이스로 작성한 표입니다.

AI에 대해 유도는 일절 하지 않고, 다음과 같은 심플한 프롬프트 (Prompt)를 PDF와 함께 던졌습니다.

검증 프롬프트:

야간·휴일 진료와 관련하여, 1월 3일에 진료 가능한 의료기관 명칭과 각각의 진료 시간을 알려줘.

인간이라면 왼쪽 끝의 파란색 띠(날짜)를 보고, 그 옆에 나열된 시설을 찾아 제목 옆의 ★ 표시가 있는 진료 시간을 읽어 확인하는…… 불과 몇 초면 끝나는 작업입니다.

하지만 이 인간에게는 당연한 것이 AI에게는 매우 높은 벽이 됩니다.

주목해야 할 포인트는 두 가지입니다. 「1월 3일의 시설을 올바르게 특정할 수 있는가」, 그리고 「K 클리닉」의 ★ 표시에서 떨어진 곳에 있는 진료 시간 주석을 읽어내어 올바르게 연결할 수 있는가입니다.

과연 Gemini의 각 모드는 이 구조를 어떻게 읽어냈을까요.

3. 검증 결과: 모드별로 보는 「AI 시야의 차이」

실제 답변을 비교하면 각 모드의 성격이 드러났습니다.

① 고속 모드 (Flash): 스피드의 이면에 숨겨진 불확실성

출력된 것은 언뜻 보기에는 흠잡을 데 없이 깔끔한 리스트입니다.

하지만 실제 지면과 대조해 보면 치명적인 실수가 드러납니다.

고속 모드의 답변 (발췌)

미나토구에서 진료 가능한 의료기관과 진료 시간은 다음과 같습니다.

1월 3일에 수진 가능한 의료기관

진료 과목(내과·외과·치과 등)에 따라 시간이 다릅니다.

K 클리닉 (내)
오전 9시~~오후 5시 O 클리닉 (내·외) | 오전 9시~~오후 5시 - S 클리닉 (내) 오전 9시~오후 5시
F 병원 (내) 오전 9시~오후 5시
T 병원 (내) 오전 9시~오후 5시
S 치과 진료실 (치) 오전 9시~오후 5시
R 치과 (치) 오전 9시~오후 5시

⚠️이 부분이 「오독」!

사실 이것은 1월 2일의 정보(O 클리닉)까지 포함하여 잘못 인용하고 있습니다.

고속 모드는 1월 3일 범위 내에 있는 시설이 아니라, 그 윗줄에 있는 정보까지 연결하여 답변해 버렸습니다.

⚠️이 부분이 「간과」!

본래 시설명에 「★」가 붙어 있는 경우에는 진료 시간이 달라져야 하지만, 모든 시설을 성실하게 「오전 9시~오후 5시」로 균일화하여 출력하고 있습니다.

고속 모드는 왼쪽 끝에 있는 날짜 띠가 어디까지 유효한지에 대한 공간적인 범위를 이해하지 못해, 옆 날짜의 정보까지 혼동하는 오독이 발생했습니다.

또한, 시도 횟수를 거듭하면 정답을 내놓기도 했지만, 불안정한 인상입니다.

② Pro: 지나치게 신중한 거부

다음은 본래 기대했던 「Pro」의 답변입니다. 고속 모드의 실수를 바로잡아 줄 것이라 기대했지만, 돌아온 것은 뜻밖의 기브업(Give-up) 선언이었습니다.

Pro의 답변 (발췌):

자료 내에는 야간·휴일 진료 리스트와 「1월 3일」이라는 날짜 기재는 있으나, 데이터의 구조상 어떤 의료기관이 1월 3일 담당인지 정확하게 연결할 수 없었습니다.

원하시는 답변을 드리지 못해 정말 죄송합니다.. (중략) ...수진처를 찾으시는 경우에는 자료에 게재된 다음 안내 서비스를 활용하시는 것이 확실합니다. …

거짓말을 하느니 차라리 「읽을 수 없다」고 솔직하게 사과하는 Pro의 가드레일 (Guardrail) 기능이 작동하고 있습니다. 글자의 문맥은 읽고 있지만, 공간적인 부모-자식 관계에 논리적인 확신을 갖지 못해 해석을 포기해 버렸습니다.

③ 사고 모드 (Thinking): 추론으로 이끌어낸 지성

사고 모드의 답변 (발췌):

1월 3일에 진료 가능한 의료기관 및 각각의 진료 시간은 다음과 같습니다.

「★」 표시가 붙은 의료기관은 야간(오후 5시~오후 10시) 진료를 담당합니다.

내과·외과

S 클리닉 (내과)

진료 시간: 오전 9시 ~ 오후 5시

F 병원 (내과)

진료 시간: 오전 9시 ~ 오후 5시

T 병원 (내과)

진료 시간: 오전 9시 ~ 오후 5시

★K 클리닉 (내과)

진료 시간: 오후 5시 ~ 오후 10시
치과

S 치과 진료실 (치과)

진료 시간: 오전 9시 ~ 오후 5시

R 치과 (치과)

진료 시간: 오전 9시 ~ 오후 5시

모드들이 고전하는 와중에, 섹션 2에서 언급한 두 가지 포인트를 모두 충족했습니다. 1월 3일의 의료기관을 정확히 특정했을 뿐만 아니라, 스스로 'K 클리닉' 앞에 ★ 마크를 부여하고, 떨어져 있는 주석에서 '오후 5시 ~ 오후 10시'라는 시간을 정확히 가져와 적용함으로써 정답을 도출해냈습니다.

4. 뒷면 해부: 사고 모드 (Thinking Mode)의 뇌 속을 들여다보다

왜 사고 모드만이 이 난제를 풀 수 있었을까요? 출력된 사고 프로세스 (Thinking Process)를 들여다보니, AI가 인간과 흡사한 추론과 높은 정밀도에 대한 집착을 가지고 이 표에 도전했다는 것을 알 수 있었습니다.

🧠 사고 모드의 사고 프로세스 (요약)

[탐색 시작] 1월 3일의 의료기관 추출 태스크를 인식.

[위화감 감지] "잠재적인 레이아웃의 예외가 있을지도 모른다"라고 경계하며, 스케줄 로직을 교차 검증 (Cross-check) 하기 시작함.

[가설 수립] "이 데이터는 날짜순으로 정렬되어 있는가?", "날짜 헤더는 아래 시설 테이블의 헤더로서 기능하고 있는 것이 아닌가?"

[수수께끼 기호에 대한 집착] "I've been working to understand what the '★' symbol in the medical facility listings signifies." (리스트에 있는 『★』 마크가 무엇을 의미하는지 밝혀내려 노력하고 있다)

[검증 및 확정] 텍스트의 위치 관계를 재확인. "좋아, ★ 마크는 야간 근무(5 PM - 10 PM)를 의미한다고 봐도 모순이 없군"이라며 확신으로 바꾸어 최종 출력을 생성.

나아가 사고 모드는 더욱 정확한 데이터 소스를 확보하기 위해 내부적으로 다음과 같은 Python 코드를 생성하고 있었습니다. 실제 PDF를 다운로드하여 검증하려고 시도한 것입니다.

import requests
url = "https://www.city.minato.tokyo.jp/documents/121283/20221221.pdf"
response = requests.get(url)
...

"목적을 위해 가설을 세우고, 끝까지 검증한다"라는 진정한 추론 프로세스가 여기서 이루어지고 있었습니다.

5. 심층 분석: AI 스스로 말하는 포기 이유

왜 Pro는 답변을 거부했을까요? 그 이유를 찾기 위해 Pro 자신에게 "왜 연결할 수 없었는지 원인을 분석해줘"라고 질문하자, PDF를 판독하는 과정에서의 세 가지 치명적인 장벽을 스스로 분석하여 제시했습니다.

🤖 Gemini Pro의 자기 분석

표의 시각적인 레이아웃 정보를 읽어낼 수 없기 때문

원래 PDF의 레이아웃으로부터 제가 읽어내는 단계에서 하나의 연속된 텍스트(표)로 뭉쳐져 추출되었기 때문에, 어떤 의료기관이 어느 시간대 그룹이었는지 구조적으로 특정할 수 없었습니다.

기호의 의미를 나타내는 텍스트(범례, Legend)가 존재하지 않기 때문

머리에 「★」 마크가 붙어 있다는 것은 인식할 수 있었지만, 추출된 텍스트 데이터 중에는 이 기호의 의미를 명확히 정의하는 기술(범례)이 포함되어 있지 않았습니다.

추측에 의한 잘못된 안내를 방지하기 위해

"아마도 ★ 마크가 야간 진료일 것이다"라고 추측으로 단언하는 것은 가능하지만, 만약 틀렸을 경우 몸이 좋지 않아 곤란해하는 분을 문을 닫은 병원으로 안내하게 되는 심각한 리스크가 있습니다. 따라서 불확실한 추측을 피하는 판단을 내렸습니다.

이 자기 분석은 현재 LLM의 약점을 단적으로 나타냅니다. PDF를 문자 데이터로 만드는 단계에서 좌우 단 나누기나 떨어진 곳에 있는 주석이라는 구조를 놓쳐버리는 것입니다.

그리고 Pro가 "데이터 속에 범례를 찾을 수 없다", "실수가 두려워 추측할 수 없다"라고 변명했던 바로 그 단계를, 내부의 사고 프로세스를 통해 자율적으로 찾아내어 해결해 보인 것이 바로 「사고 모드」였습니다.

6. 번외편: 자료 해석 특화형 「NotebookLM」의 실력

이번 검증의 번외편으로, Google의 AI 리서치 어시스턴트인 NotebookLM에도 동일한 질문을 던져보았습니다.

NotebookLM은 Gemini의 채팅 모드와는 다른 도구이므로, 본문의 「모드 비교」와는 별도로 소개합니다.

NotebookLM의 답변:

1월 3일(화)에 진료 가능한 의료기관과 각각의 진료 시간은 다음과 같습니다.

오전 9시 ~ 오후 5시

S 클리닉 (내과)
F 병원 (내과)
T 병원 (내과)
S 치과 진료실 (치과)
R 치과 (치과)

오후 5시 ~ 오후 10시

K 클리닉 (내科) ※수진 시에는 미리 전화로 진료 시간 등을 문의해 주시기 바랍니다.

왜 NotebookLM은 정답을 맞힐 수 있었을까?

채팅 형식의 Pro가 구조를 모르겠다며 포기한 문제를, NotebookLM은 멋지게 풀어냈습니다. 여기서 추측할 수 있는 것은 RAG (검색 증강 생성, Retrieval-Augmented Generation)에 특화된 아키텍처의 차이입니다.

정보의 검색·참조 능력

NotebookLM은 자료를 업로드하는 시점에 내용을 세밀하게 분해하여, 검색할 수 있는 상태로 정리합니다. 질문을 받으면 먼저 관련 있는 부분만을 찾아내어 그 부분만을 보고 답변합니다. 말하자면, 두꺼운 책에 미리 포스트잇을 붙여두었다가, 질문에 맞는 포스트잇이 붙은 페이지 만을 펼쳐서 대답하는 것과 같은 이미지입니다. 그렇기 때문에 멀리 떨어져 있는 「★」 주석과 「시설명」을 올바르게 연결할 수 있었습니다.

사고 모드는 「생각하는 힘」, NotebookLM은 「찾는 힘」

사고 모드가 「스스로 로직을 구성하여 푸는」——말하자면 수학 문제를 머릿속으로 푸는 접근 방식이라면, NotebookLM은 「자료 속에서 필요한 정보를 정확히 찾아내어 푸는」——사전이나 색인을 사용하여 답을 찾는 접근 방식입니다. 결과적으로 사람이 읽기에 가장 편한 「시간대별 리스트」라는 형식으로 답변을 내놓았습니다.

💡 보충: NotebookLM을 「지식」으로서 Gemini에 설정하면 어떻게 될까?

Gemini 앱에서 NotebookLM의 노트북을 「지식 소스 (Knowledge Source)」로 참조할 수 있는 기능을 사용하여, 이번 PDF를 NotebookLM에 등록한 상태에서 각 모드에 동일한 프롬프트를 던져본 결과, 모든 모드에서 올바른 답변을 얻을 수 있었습니다.

이로부터 모드마다 차이가 발생한 원인은 주로 PDF를 읽어들이는 단계에 있었다고 판단됩니다. NotebookLM의 RAG가 문서 구조를 사전에 해결해 준다면, 어떤 모드에서도 올바르게 답할 수 있다는 사실이 밝혀졌습니다.

7. 총괄: 한눈에 보는 성능 비교

평가 포인트	고속 모드	Pro	사고 모드	NotebookLM
복잡한 표 해독	오독 (날짜 착오)	회피 (할 수 없다고 답변)	해독 성공	해독 성공
★ 마크 처리	읽기 건너뜀	존재는 알지만 결합 불가	뇌 내에서 가설 검증 후 결합	인덱스에서 정확하게 참조
접근 방식	스피드 출력	고도의 문맥 이해	추론으로 가설 검증을 반복	자료를 사전 분해하여 관련箇所 검색

8. 정리: AI의 습성을 이해하고 활용하기

이번 검증을 통해 복잡한 PDF를 읽는 데에는 「사고 모드」가 매우 유효하다는 것을 알 수 있었습니다. 하지만 실무에서 운용해 나갈 때는 다음과 같은 현실적인 관점도 중요해집니다.

1. 사고 모드는 우수하다. 하지만 최후의 보루는 인간의 눈

사고 모드는 백그라운드에서 가설 검증을 반복할 정도의 끈기를 보여주었습니다.

하지만 아무리 우수한 AI라 할지라도, 출력된 결과가 정말로 옳은지 판단하는 것은 언제나 인간의 역할입니다. 실수가 허용되지 않는 영역에서는 AI의 출력을 인간이 반드시 확인하는 단계가 필수적입니다.

2. 각 모드는 적재적소에서 빛난다

「그럼 전부 사고 모드로 쓰면 되는 것 아닌가」라고 한다면, 그렇지 않습니다. 각 모드에는 고유한 강점이 있기 때문에, 그 특성을 살려 나누어 사용하는 것이 스마트합니다.

고속 모드 (Flash): 속도와 가성비가 압도적입니다. 단순한 텍스트 요약이나 대량 데이터의 전처리 등, 할루시네이션 (Hallucination) 리스크가 낮은 태스크에 최적입니다.

Pro: 고도의 문맥 이해에 능숙한 우등생입니다. 방대한 자료의 읽기나 창의적인 문장 작성, 복잡한 컨텍스트 이해에 있어 템포 있고 안정적인 하이 퍼포먼스를 발휘합니다.

사고 모드 (Thinking): 이번 사례와 같이 레이아웃이 복잡한 PDF 해석이나 로직이 핵심인 프로그래밍·수리 문제 등, 결정적인 난제를 풀기 위한 히든카드입니다.

NotebookLM: 단일 모델로는 고전할 법한 복잡한 구조의 자료라도, 사전 인덱싱을 통해 정확한 답변을 이끌어낼 수 있는 자료 해석 전문가입니다.

3. 자료의 내용이 바뀌면 AI의 답도 바뀐다

이번 결과는 어디까지나 특정 자료에서의 한 사례입니다. PDF의 레이아웃이 바뀌면, 각 모드(Mode)의 장단점 균형도 달라집니다.

"이 모드라면 만능이다"라고 단정 짓지 않고, 자료에 따라 판단하는 자세가 중요합니다.

⚠️ 사고 모드(Thinking Mode)와 Pro는 횟수 제한에 주의하세요!

실무에 도입할 때 절대 무시할 수 없는 점이 사고 모드나 Pro에는 이용 횟수 상한이 있다는 점입니다. 리소스를 많이 소비하기 때문에, 모든 처리를 이들에게만 맡기면 정작 중요한 순간에 제한에 걸리게 됩니다.

제한된 횟수 범위 내에서, 우선 고속 모드(Fast Mode)로 시도해 보고 구조적으로 무리라고 판단되면 사고 모드로 전환하는 등의 활용법을 익히는 것이 실무를 능숙하게 다루는 엔지니어로서의 역량을 보여줄 수 있는 부분입니다.

9. 마치며

AI의 특기 분야를 이해하고, 인간이 중심이 되어 도구를 선택하며, 마지막에 확실히 눈으로 확인하는 것.

이것이야말로 앞으로의 시대에 요구되는 AI와의 올바른 관계 맺기가 아닐까요?

본 기사가 여러분의 AI 활용에 참고가 되기를 바랍니다.

AI는 「표」를 어떻게 보고 있을까? PDF 자료로 Gemini 각 모드의 해석 능력 차이를 검증

요약

핵심 포인트

1. 서론

2. 검증의 전제: 던진 심플한 질문

3. 검증 결과: 모드별로 보는 「AI 시야의 차이」

① 고속 모드 (Flash): 스피드의 이면에 숨겨진 불확실성

② Pro: 지나치게 신중한 거부

③ 사고 모드 (Thinking): 추론으로 이끌어낸 지성

4. 뒷면 해부: 사고 모드 (Thinking Mode)의 뇌 속을 들여다보다

[탐색 시작] 1월 3일의 의료기관 추출 태스크를 인식.

[위화감 감지] "잠재적인 레이아웃의 예외가 있을지도 모른다"라고 경계하며, 스케줄 로직을 교차 검증 (Cross-check) 하기 시작함.

[가설 수립] "이 데이터는 날짜순으로 정렬되어 있는가?", "날짜 헤더는 아래 시설 테이블의 헤더로서 기능하고 있는 것이 아닌가?"

[수수께끼 기호에 대한 집착] "I've been working to understand what the '★' symbol in the medical facility listings signifies." (리스트에 있는 『★』 마크가 무엇을 의미하는지 밝혀내려 노력하고 있다)

5. 심층 분석: AI 스스로 말하는 포기 이유

원래 PDF의 레이아웃으로부터 제가 읽어내는 단계에서 하나의 연속된 텍스트(표)로 뭉쳐져 추출되었기 때문에, 어떤 의료기관이 어느 시간대 그룹이었는지 구조적으로 특정할 수 없었습니다.

머리에 「★」 마크가 붙어 있다는 것은 인식할 수 있었지만, 추출된 텍스트 데이터 중에는 이 기호의 의미를 명확히 정의하는 기술(범례)이 포함되어 있지 않았습니다.

6. 번외편: 자료 해석 특화형 「NotebookLM」의 실력

7. 총괄: 한눈에 보는 성능 비교

8. 정리: AI의 습성을 이해하고 활용하기

1. 사고 모드는 우수하다. 하지만 최후의 보루는 인간의 눈

2. 각 모드는 적재적소에서 빛난다

고속 모드 (Flash): 속도와 가성비가 압도적입니다. 단순한 텍스트 요약이나 대량 데이터의 전처리 등, 할루시네이션 (Hallucination) 리스크가 낮은 태스크에 최적입니다.

Pro: 고도의 문맥 이해에 능숙한 우등생입니다. 방대한 자료의 읽기나 창의적인 문장 작성, 복잡한 컨텍스트 이해에 있어 템포 있고 안정적인 하이 퍼포먼스를 발휘합니다.

사고 모드 (Thinking): 이번 사례와 같이 레이아웃이 복잡한 PDF 해석이나 로직이 핵심인 프로그래밍·수리 문제 등, 결정적인 난제를 풀기 위한 히든카드입니다.

3. 자료의 내용이 바뀌면 AI의 답도 바뀐다

9. 마치며

Discussion

댓글