Anthropic가 금융 업무에 특화된 클로드 파이낸스(Claude Finance)를 공개하며 투자은행(IB)의 주니어 뱅커 업무 자동화 가능성을 제시했다. 이번 공개는 단순한 챗봇 기능을 넘어 재무 모델링, 공시 자료 분석, 피치북 초안 작성 등 고도의 전문성이 요구되는 금융 실무 영역으로 AI의 범위를 확장했다는 점에서 주목받는다. 하지만 실제 현장의 반응은 냉정하다. 뱅커툴벤치(BankerToolBench)라는 실무자 평가 지표에 따르면, 골드만삭스나 JP모건 같은 글로벌 투자은행 현직자들이 평가한 AI의 산출물 중 고객에게 즉시 보낼 수 있는 수준은 단 0%에 불과했다.

이는 AI가 방대한 데이터를 처리하는 속도는 압도적일지 몰라도, 금융업의 핵심인 '정확성'과 '비즈니스 맥락'을 잡는 데는 여전히 거대한 벽이 존재함을 시사한다. 개발자 커뮤니티에서는 이미 이 수치를 두고 "할루시네이션(Hallucination, 환각 현상)이 치명적인 금융권에서 0%라는 숫자는 당연한 결과"라는 냉소와 "그럼에도 리서치 시간을 시간 단위에서 분 단위로 줄인 것은 파괴적"이라는 기대가 격렬하게 충돌하고 있다. 지금 커뮤니티가 주목하는 것은 AI가 뱅커를 완전히 대체하느냐가 아니라, 어떤 업무부터 빠르게 잠식해 들어갈 것인가 하는 '침투 경로'다.

뱅커툴벤치(BankerToolBench)가 증명한 '산출물 0%'의 실체

골드만삭스, JP모건, 에버코어 소속 현직자 502명이 직접 채점기에 매달렸다. 이들이 참여한 뱅커툴벤치(BankerToolBench, 금융 에이전트 성능 측정 도구)의 결과는 냉혹하다. AI가 내놓은 결과물 중 고객에게 즉시 송출 가능한 수준의 산출물은 단 하나도 없었다. 즉, 산출물 0%라는 충격적인 성적표가 나온 셈이다. 개발자 커뮤니티에서는 AI가 화이트칼라의 전문직 영역을 빠르게 잠식하고 있다는 낙관론이 뜨거웠지만, 실제 현장의 잣대는 훨씬 엄격했다. 지금 금융권에서 AI 에이전트를 바라보는 시선은 혁신적인 도구가 아니라, 아직은 믿고 맡길 수 없는 불안한 인턴에 가깝다. 현직자들의 평가 기준은 단순한 정답 여부가 아니라 실무에 바로 투입할 수 있는 완성도였기에, 0%라는 수치는 AI 에이전트의 현주소를 적나라하게 보여준다.

단순히 완벽하지 않다는 수준을 넘어선다. 뱅커툴벤치 분석 결과, AI 산출물의 27%는 아예 사용 불가능한 수준이었으며, 41%는 대대적인 재작업이 필요한 상태였다. 그나마 가벼운 수정만으로 사용할 수 있었던 비율은 13%에 불과했다. 이는 AI가 생성한 엑셀 시트나 보고서 초안을 그대로 믿고 썼다가는 곧바로 치명적인 금융 사고로 이어질 수 있다는 뜻이다. 개발자들 사이에서는 프롬프트 엔지니어링으로 해결될 문제가 아니라 모델의 기초적인 추론 능력 자체가 금융 도메인의 극도로 정밀한 요구사항을 따라가지 못하고 있다는 분석이 지배적이다. 특히 숫자의 정확성이 생명인 투자은행(IB) 업무에서 이러한 높은 오류율은 도구로서의 신뢰성을 완전히 무너뜨리는 요소가 된다.

실패의 양상을 구체적으로 뜯어보면 AI가 어디서 무너지는지 명확히 드러난다. 가장 높은 비중을 차지한 것은 코드와 수식 버그로 전체 실패 사례의 41%에 달했다. 이어 비즈니스 로직 오류가 27%, 데이터 쿼리 중단이 18%를 기록했다. 가장 심각한 지점은 13%의 사례에서 숫자를 조작하거나 잘못 생성하는 환각 현상이 발견되었다는 점이다. Vals AI Financial Agent 2.0(금융 특화 AI 에이전트)의 상위 모델들조차 성능의 임계점인 52% 벽을 넘지 못했고, 특히 정교한 설계와 논리적 연결이 필수적인 재무 모델링 카테고리에서는 최고점이 23%에 그쳤다. 결국 지금의 AI 금융 에이전트는 복잡한 금융 공학적 사고를 실제로 수행하는 것이 아니라, 그럴싸한 보고서 형식을 흉내 내는 수준에 머물러 있다는 사실이 수치로 증명되었다.

'데이터룸 Q&A'는 가능해도 '경영진 통화'는 불가능한 경계선

주니어 뱅커가 밤을 새우며 뒤지던 공시 자료와 트랜스크립트(Transcript, 회의록) 검색 작업은 이제 AI의 영역으로 빠르게 넘어갔다. 어닝 콜 요약이나 Comps(Comparable Company Analysis, 유사기업 비교분석) 평가, 1차 밸류에이션 산출 같은 업무는 정해진 규칙과 데이터 구조가 명확하기 때문이다. 피치 초안을 잡거나 데이터룸 Q&A(Virtual Data Room Question and Answer, 가상 데이터룸 질의응답)를 처리하는 일 역시 텍스트 기반의 매칭과 구조화 작업에 가깝다. 커뮤니티에서는 이런 단순 반복형 리서치 업무가 자동화되는 속도를 보며 주니어들의 입지가 좁아졌다는 탄식이 터져 나온다. 하지만 개발자들은 여기서 명확한 선을 긋는다. 데이터가 정제되어 있고 정답의 범위가 정해진 규칙 기반의 업무는 대체 가능하지만 그 너머의 영역은 완전히 다른 이야기라는 반응이다. 이들은 AI가 엑셀 시트의 숫자를 맞추는 속도는 압도적이지만 그 숫자가 왜 그렇게 나왔는지에 대한 맥락적 의심은 하지 못한다는 점을 지적한다.

반면 MNPI(Material Non-Public Information, 미공개 중요 정보) 여부를 판단하거나 경영진과 직접 통화하며 행간을 읽는 작업은 여전히 인간의 영역으로 남았다. 매도자가 왜 지금 이 시점에 회사를 팔려고 하는지 그 숨은 동기를 파악하거나 자문사 간의 미묘한 관계를 조율하는 일은 데이터룸에 기록되지 않는다. 규제 기관의 분위기나 정치적 흐름을 감지해 딜의 성사 가능성을 점치는 직관 역시 AI가 학습할 수 있는 정형 데이터가 아니다. 무엇보다 최종적인 책임과 승인이라는 무거운 결정권은 알고리즘에 맡길 수 없는 영역이다. 커뮤니티에서는 이를 두고 데이터로 치환되지 않는 비정형적 맥락의 승리라고 부른다. 단순한 정보의 조합이 아니라 책임이 따르는 판단의 영역이기 때문이다. 특히 법적 책임이 따르는 금융 업무의 특성상 AI의 결과물을 그대로 믿고 승인 버튼을 누를 수 있는 시니어는 아직 없다는 냉소적인 반응이 주를 이룬다.

과거에는 리서치 역량이 곧 뱅커의 실력이었으나 이제는 그 경계선이 무너지고 있다. 단순 정보 취합에 능했던 인력은 AI 에이전트의 효율성에 밀려 빠르게 대체될 위기에 처했다. 반면 정제되지 않은 날것의 정보를 수집해 전략적 판단으로 연결하는 능력은 오히려 가치가 높아지는 추세다. 개발자들 사이에서는 AI가 문서 구조화라는 껍데기는 완벽하게 흉내 낼 수 있어도 그 안에 담긴 인간의 욕망과 정치적 역학 관계라는 알맹이는 건드리지 못한다는 분석이 지배적이다. 결과적으로 규칙화할 수 있는 모든 프로세스는 AI가 가져가고 측정하기 어려운 판단의 무게는 인간에게 더 무겁게 지워지는 구조다. 이 경계선에서 살아남는 법에 대해 커뮤니티의 논쟁은 지금 이 순간에도 뜨겁게 달아오르고 있다. 단순한 도구의 변화가 아니라 업무의 본질이 리서치에서 판단으로 이동하고 있다는 점에 모두가 동의하는 분위기다.

2026년 리서치 자동화와 한국 시장의 '특수 컨텍스트' 변수

지금 개발자 커뮤니티와 금융권 백엔드 엔지니어들 사이에서 가장 뜨거운 화두는 리서치 업무의 자동화 속도다. 불과 얼마 전까지 사람이 직접 붙잡고 4~5시간씩 매달려야 했던 공시 자료 분석이나 어닝 콜 요약 작업이 이제는 4~5분 내외로 단축되었다. 이 변화는 단순히 속도의 문제가 아니라 업무의 밀도를 완전히 재편하고 있다. 2027년에서 2028년으로 넘어가는 구간에서는 피치 초안 작성이나 1차 재무 모델링, 메모 초안 생성까지 AI 에이전트가 도맡게 될 전망이다. 이때가 되면 시니어 뱅커 1인이 5~6개의 에이전트 흐름을 동시에 검토하며 결과물의 질을 조율하는 새로운 워크플로우가 표준으로 자리 잡을 것이다.

하지만 한국 시장은 글로벌 표준 모델이 쉽게 침투하지 못하는 독특한 장벽을 가지고 있다. 미국이나 유럽의 금융 시장이 데이터 기반의 투명한 공시와 표준화된 재무 지표를 중심으로 움직인다면, 한국은 가족 승계 과정에서의 지배구조 변화, 재벌 그룹 간의 복잡한 순환 출자 관계, 그리고 금감원(금융감독원)과 공정위(공정거래위원회)의 정책적 우선순위라는 비정형 컨텍스트가 핵심 변수로 작용하기 때문이다. 특히 연기금의 의결권 행사나 대규모 자본 이동에 얽힌 정치적 뉘앙스는 데이터룸에 기록되지 않는 경우가 태반이다. 이런 영역은 프론티어 모델이 아무리 고도화되어도 학습 데이터의 공백으로 남을 수밖에 없다.

개발자들 사이에서는 이러한 한국적 특수성이 AI 도입의 걸림돌이 될지, 아니면 오히려 더 정교한 로컬 에이전트를 개발해야 할 기회가 될지를 두고 논쟁이 벌어지고 있다. 일부는 한국 금융 특유의 폐쇄적 네트워크가 AI의 진입 장벽이 되어 생산성 혁명을 지연시킬 것이라고 경고한다. 2029년 이후 시트리니 리서치(Citrini Research)가 경고한 피드백 루프, 즉 AI 생산성 향상이 역설적으로 임금 감소와 소비 위축, 그리고 금융 서비스 수요 붕괴로 이어질 수 있다는 시나리오가 한국 시장에서는 더 복잡하게 전개될 가능성이 높다. 결국 한국의 실무 환경에서는 글로벌 모델의 범용성보다, 규제 당국의 미묘한 기류와 기업 간의 특수 관계를 이해하는 고도의 도메인 특화 에이전트가 시장의 승패를 가를 것으로 보인다.