왜 AI 주식 분석은 그토록 책임감 있게 들리면서도 실속은 없는가?

사람들은 자신의 챗봇(Chatbot)이 작성한 주식 분석 스크린샷을 나에게 보내며 제대로 된 것인지 묻곤 합니다. 나는 대개 답변을 다 읽기도 전에 그 답변의 형태를 알아차릴 수 있습니다. 모델은 약 10초 만에 자신감 넘치는 텍스트 뭉치를 생성하며, 몇 가지 기회 요인과 리스크를 나열하고, 다음 실적 발표(Earnings report)를 지켜보라고 권고하며, 분산 투자(Diversification)에 대한 부드러운 조언으로 마무리합니다. 이는 마치 신입 분석가에게 오후 시간 정도를 주었을 때 그가 작성할 법한 방식입니다. 하지만 그 답변이 담고 있는 것처럼 보이는 판단은 실제로 형성된 적이 없습니다.

빈 채팅창에서 돌아오는 답변은 실제 업무가 어떻게 이루어지는지에 대한 기억이 없는, 예의 바른 방과 같습니다. 모든 질문에는 정중한 답변이 돌아오지만, 그 답변 중 어느 것도 의미를 가질 수 있는 순서로 구축되지 않았습니다.

주식 리서치(Stock research)는 각 답변이 독립적으로 존재하는 대화가 아닙니다. 그것은 하나의 질문에 대한 답변이 다음 질문이 무엇이어야 하는지를 결정하는 일련의 과정입니다. 그 순서가 업무의 대부분을 차지합니다. 모든 것은 비즈니스와 그것이 실제로 무엇을 판매하는지에서 시작됩니다. 그다음은 경쟁 우위(Competitive position)가 오고, 그다음은 재무제표(Balance sheet)가 오며, 밸류에이션(Valuation)은 마지막에 등장합니다. 왜냐하면 무엇이 가격 책정되고 있는지 알기 전까지는 가격이 아무것도 알려주지 않기 때문입니다. 하락장 시나리오(Bear case)는 상승장 시나리오(Bull case)가 명확하게 설명된 후에야 비로소 그 자리를 얻습니다. 일반적인 모델은 이 모든 것을 뒤집습니다. 모델은 결론을 먼저 작성하고, 마치 앞서 도출된 것처럼 들리는 이유들을 나중에 채워 넣습니다. 그리고 그 문단은 분석의 표면적인 질감을 가지고 있기 때문에 훑어보는 것만으로는 통과됩니다. 하지만 그 결론을 만들어냈어야 할 근거는 애초에 존재하지 않았습니다.

동일한 모델(room)은 어떤 종류의 기업이 어떤 방식으로 실패하는지에 대한 감각이 없습니다. 바이오테크 (Biotech) 기업은 임상 시험 리스크 (trial risk), 현금 보유 기간 (cash runway), 그리고 이분법적 결과값 (binary readouts)에 의해 생사가 결정됩니다. 경기 순환주 (Cyclicals)은 정상화된 마진 (normalized margins)과 현재 사이클의 어느 지점에 있는지에 따라 움직입니다. 소형주 (Microcaps)는 유동성 (liquidity)을 사후 고려 사항으로 취급하는 누구에게나 징벌을 가합니다. 범용 모델 (general model)은 하나의 템플릿 (template)을 찾아 모든 기업에 이를 덧씌우며, 그 템플릿은 학습 데이터에서 지배적이었던 것, 즉 미국 대형주 (American large-cap)에 의해 형성되어 있습니다. 이 모델을 일본의 은행이나 브라질의 유틸리티 기업에 적용하면, 첫 문장을 읽기도 전에 분석은 틀리게 됩니다. 이는 모델이 멍청해서가 아니라, 눈앞에 있는 기업에 대한 교리 (doctrine)가 없기 때문입니다.

진정한 리서치 (research)는 넓게 시작하여 좁혀 나가는 과정입니다. 결과에 실제로 영향을 미치는 단 하나의 동인 (driver)이 남을 때까지 중요하지 않은 것들을 쳐내 나갑니다. 반면, 빈 채팅창은 그 반대로 동작하며, 확신할 근거가 아무것도 없기에 모든 주제에 걸쳐 균등하게 내용을 퍼뜨립니다.

워크플로우 (workflow)는 모델이 제로(zero) 상태에서 시작하는 것을 방지함으로써 결과를 변화시킵니다. 채팅 외부의 무언가가 무엇을 수집할지, 어떤 순서로 할지, 그리고 어떤 결론이 내려지기 전에 무엇을 먼저 파고들어야 할지를 결정합니다. 빈 상자 안에서 유창하고 평범한 답변을 써 내려가던 동일한 모델이라도, 먼저 압축하고 논쟁하도록 강제되면 훨씬 더 날카로운 결과물을 만들어낼 수 있습니다. 이는 금융 분야에서 다른 어느 곳보다 중요합니다. 왜냐하면 이곳에서의 위험한 실패는 명백한 오류가 아니라, 바로 '유창한 오류'이기 때문입니다. 잘못된 수치가 내부에 숨겨진 자신감 넘치는 문단은 눈에 띄게 망가진 문단보다 더 큰 피해를 줍니다. 매끄러운 다듬기(polish)가 원래는 면밀한 검토 (scrutiny)가 수행했어야 할 역할을 대신해 버리기 때문입니다. OpenAI의 연구원들은 작년에 모델이 환각 (hallucinate)을 일으키는 이유 중 하나가, 학습 과정에서 불확실성을 정직하게 인정하는 것보다 자신감 있게 추측하는 것에 보상을 주기 때문이라고 주장했습니다. 규제 당국 또한 다른 관점에서 유사한 우려를 제기하며, 개인 투자자들에게 AI 라벨이 품질의 보증 수표가 아니며, 내용이 부실하거나 사기적인 상품을 꾸미는 데 점점 더 많이 사용되고 있다고 경고하고 있습니다.

금융은 오래된 수치와 맥락에 국한된 주장 위에서 움직이며, 바로 이 지점이 확신에 찬 추측이 가장 큰 비용을 초래하고, 독자가 매끄러운 표현을 엄밀함(rigor)으로 오해할 가능성이 가장 높은 곳입니다.

이 분야를 잘 아는 사람이라면 숙련된 프롬프트 작성자(prompter)가 빈 채팅창에서 진정으로 훌륭한 연구 결과를 끌어낼 수 있다고 답할 것이며, 좁은 범위 내에서는 그것이 사실입니다. 무엇이 좋은 결과인지 이미 알고 있는 사용자는 더 날카로운 질문을 던지고, 돌아오는 과정에서 부실한 답변을 잡아냅니다. 하지만 이 경우 규율(discipline)은 모델이 아닌 사용자에게 내재되어 있으며, 그 사용자가 워크플로우(workflow)가 대신 짊어져야 할 모든 인지적 비용을 스스로 감당하고 있는 것입니다. 빈 채팅창은 가장 전문적인 방문자에게는 보상을 주지만, 무엇을 물어야 할지 확신이 없는 채로 찾아온 이에게는 거의 아무것도 제공하지 않습니다. 그리고 후자는 AI를 찾는 거의 모든 사람의 모습입니다. 실제로 필요하지 않은 사람들에게만 작동하는 도구를 판매하는 것은, 도움을 주고 있다고 주장하기에는 매우 이상한 방식입니다.

이것이 바로 제가 Tesseract Stock Agent를 구축하여 메우고자 했던 간극이며, 그렇기에 이 도구가 성공했는지 여부를 말씀드리기에는 제가 적절한 사람이 아닐 수도 있습니다. 제가 설명할 수 있는 것은 의도(intent)입니다. 그 의도는 규율을 사용자의 머릿속에서 꺼내 프로세스 자체로 옮기는 것이었습니다. 그래야 사용자가 규율을 적용하는 것을 잊더라도 그 질서가 유지될 수 있기 때문입니다.

더 깊은 오류는 모델을 그저 친절하게 질문하기만 하면 되는 영리한 직원으로 취급하는 것입니다. 더 나은 결과는 모델에게 보상을 기대하기 전에 먼저 우위(edge)를 제공할 때 나타납니다. 그 우위가 소스 라이브러리(source library)든, 연구 프레임워크(research framework)든, 혹은 모델을 순차적인 단계로 안내하는 체인(chain)이든 상관없습니다. 모델은 전달받은 구조를 배가시킬 수는 있습니다. 하지만 게으른 질문으로부터 적절한 구조를 신뢰성 있게 발명해낼 수는 없으며, 질문이 게을렀다고 당신에게 경고해 주지도 않을 것입니다.

따라서 빈약한 답변에서 결여된 것은 애초에 지능(Intelligence) 그 자체가 아니었습니다. 빈 채팅창은 언제나 답변을 내놓을 것이며, 대충 훑어보는 정도로는 충분히 그럴싸해 보일 만큼 잘 답변할 것입니다. 바로 이 점이 위험을 초래하는 핵심입니다. 모델이 숨기고 있는 것은 질문의 순서이며, 그 순서야말로 모델이 당신에게 말한 내용이 간직할 가치가 있는지를 결정하는 부분입니다.

출처:
OpenAI, Why Language Models Hallucinate
FINRA, Artificial Intelligence (AI) and Investment Fraud
저자: Benet Bani

왜 AI 주식 분석은 그토록 책임감 있게 들리면서도 실속은 없는가?

요약

핵심 포인트

댓글