벤치마크 너머 '사고의 궤적'을 데이터화한 Persona Atlas

Persona Atlas의 3단계 프로세스와 구성 요소

AI 성능은 정답률이 높을수록 뛰어나다고 믿는다. Persona Atlas는 정답이 없는 질문을 던져 모델의 사고방식을 측정한다. 전체 공정은 리서치, 페르소나 답변, 임베딩 변환의 3단계로 구성된다. 기존 벤치마크가 모델이 무엇을 아는가를 측정했다면 이 툴은 모델이 어떻게 생각하는가를 추적한다. 지식의 양을 재는 대신 사고의 궤적을 시각화해 인물 간 사고방식의 거리를 측정하는 것이 목적이다. 정량적 성능 지표 외에 페르소나의 일관성과 사고 스타일을 정밀하게 제어하고 검증하는 기준을 확보한다.

두 번째 단계인 답변 과정에서는 10가지 개방형 프롬프트를 사용한다. 정체성, 윤리, 진실, 자유의지, 의미, 기계 의식 등이 주요 주제다. 모든 질문은 의도적으로 정답이 없도록 설계했다. 정답이 정해진 문제는 모델의 학습 데이터와 연산 능력만으로 해결 가능하다. 반면 개방형 질문에서는 모델의 원시적인 능력이 아니라 설정된 페르소나의 고유한 성향이 밖으로 드러난다. 이를 통해 인물 간의 사고방식 차이를 극명하게 갈라낸다. 정답 없는 질문에 대한 답변이 곧 그 페르소나의 정체성을 규정하는 데이터가 된다.

생성된 답변은 세 번째 단계에서 임베딩(Embedding, 텍스트를 수치 벡터로 변환하는 기술)으로 변환된다. 텍스트 형태의 응답이 다차원 공간의 좌표로 치환되는 과정이다. 좌표화된 페르소나들은 서로 간의 거리를 통해 비교된다. 두 인물의 답변이 임베딩 공간에서 얼마나 멀리 떨어져 있는지를 측정해 사고의 발산 정도를 수치화한다. 이는 단순한 텍스트 유사도 비교를 넘어 사고의 기하학적 구조를 통해 정체성을 관리하는 방식이다. 답변의 내용이 아니라 답변이 위치한 공간적 좌표가 분석의 핵심이 된다.

시스템 구동에는 Hugging Face(허깅페이스, AI 모델 공유 플랫폼) Inference Providers의 소형 모델들이 사용된다. 에이전트를 구동하는 컴팩트 생성 모델과 기하학적 분석을 수행하는 경량 임베딩 모델이 조합되었다. 거대 모델 없이도 정밀한 페르소나 구현과 분석이 가능함을 입증한다. 사용자 인터페이스는 Gradio(그라디오, 머신러닝 앱 프로토타이핑 도구)를 적용했다. 리서치, 저장된 페르소나 비교, 전체 에이전트 추적 기능을 탭 형태로 제공한다. 페이지 로드 즉시 비교가 가능하도록 사전 구축된 페르소나 세트를 함께 제공한다. 전체 기능은 huggingface.co/spaces/build-small-hackathon/persona-atlas에서 확인할 수 있다.

툴 콜링 에이전트 기반의 페르소나 생성 원리

정교한 AI 페르소나를 구축하려면 수많은 프롬프트 수정과 수동 튜닝 비용이 들어간다. Persona Atlas는 이 과정을 툴 콜링 에이전트(Tool-calling Agent, 외부 도구를 직접 호출해 작업을 수행하는 AI)로 자동화했다. 에이전트는 실시간 웹 검색을 수행하여 대상 인물의 공개 프로필과 근거 팩트를 수집한다. 단순히 텍스트를 긁어오는 것이 아니라 실제 방문한 소스 링크를 각각의 팩트에 연결해 데이터의 신뢰도를 확보한다. 수집된 데이터는 인물의 외형적 특징을 담은 포트레이트와 함께 하나의 공개 프로필로 정리된다. 에이전트는 이렇게 확보한 팩트를 기반으로 스타일 가설을 수립한다. 스타일 가설은 해당 인물이 한 번도 경험하지 못한 새로운 문제에 직면했을 때 어떤 논리 구조로 접근하고 해결할지를 추론한 가이드라인이다. 이 가설은 페르소나가 답변을 생성할 때 준거 틀로 작동한다.

페르소나가 생성한 답변은 임베딩 벡터(Embedding Vector, 텍스트를 다차원 공간의 수치 좌표로 변환한 값)로 변환된다. 텍스트라는 비정형 데이터가 수학적으로 계산 가능한 좌표값으로 바뀌는 과정이다. 이 단계를 거치면 각 페르소나는 임베딩 공간 내에서 고유한 위치를 가진 하나의 점으로 정의된다. 두 페르소나의 좌표 사이의 직선 거리를 측정하면 사고방식의 차이를 구체적인 수치로 산출할 수 있다. 이는 단순히 단어의 유사성을 비교하는 것이 아니라 답변에 내재된 사고의 방향성과 거리감을 측정하는 방식이다. 임베딩 공간에서의 거리가 멀수록 두 인물의 사고방식은 더 크게 발산하는 것으로 판단한다. 좌표의 이동 경로를 통해 페르소나의 정체성이 얼마나 일관되게 유지되는지도 확인한다.

전체 공정은 웹 검색을 통한 근거 확보와 이를 좌표로 변환하는 기하학적 분석으로 이어진다. 사람이 임의로 설정한 페르소나의 성격이나 톤앤매너에 의존하지 않는다. 웹상에 존재하는 실제 데이터가 페르소나의 논리적 뼈대를 만들고 임베딩 모델이 이를 검증하는 구조다. 스타일 가설이 답변의 방향을 결정하면 임베딩 벡터가 그 결과물을 좌표계 위에 배치한다. 좌표 간의 거리는 인물 간 사고의 이격 정도를 보여주는 정량적 지표가 된다. 정답이 없는 개방형 질문에 대해 모델이 출력한 응답의 궤적을 데이터화하여 정체성을 관리하는 방식이다. 텍스트 생성을 넘어 사고의 기하학적 구조를 통해 페르소나의 정밀도를 제어한다.

기존 방식과 달라진 지점

정답을 많이 맞힌다고 해서 더 똑똑한 모델이라고 단정할 수 없다. 기존의 AI 벤치마크는 모델이 무엇을 알고 있는지를 측정하는 지식 검증에 집중했다. 정해진 답이 있는 문제를 얼마나 빠르고 정확하게 푸느냐가 성능의 척도였다. Persona Atlas(페르소나 아틀라스, 인물 특성 분석 도구)는 접근법을 바꿨다. 모델이 어떻게 생각하는지를 측정하는 사고 방식의 궤적에 주목한다. 정답이 정해진 문제가 아니라 정답이 없는 질문을 던져 모델의 내면적 경향성을 끌어낸다. 지식의 양이 아니라 사고의 결을 측정하는 방식으로 평가의 축을 옮긴 것이다.

분석의 기준은 10가지 특성 앵커다. 치밀함, 명확성, 창의성, 회의론, 자신감, 친절함, 유머, 호기심, 실용주의, 추상화 능력이 여기에 포함된다. 이 앵커들을 기반으로 각 인물의 성향을 시각화한 히트맵을 제공한다. 텍스트로 설명하던 인물의 성격을 정량적인 좌표와 색상으로 변환했다. 추상적인 인격의 특성을 데이터화하여 시각적으로 비교 가능한 형태로 구현했다. 이는 단순한 텍스트 생성을 넘어 인격의 구성 요소를 개별 지표로 분리해 관리할 수 있게 한다.

데이터 표현 방식에는 더블 센터드(Double-centered) 그리드가 적용됐다. 히트맵에서 특정 셀의 색이 짙다고 해서 그 특성의 절대값이 높다는 뜻이 아니다. 함께 비교 대상이 된 다른 페르소나들에 비해 해당 특성이 상대적으로 더 강하다는 의미다. 비교군에 어떤 인물을 넣느냐에 따라 동일 인물의 특성 강조 지점이 실시간으로 변한다. 예를 들어 매우 회의적인 인물들 사이에 실용주의자를 넣으면 실용주의적 특성이 강하게 나타나지만, 극단적 실용주의자들 사이에 넣으면 그 특성은 희석된다. 절대적 수치가 아닌 비교 대상 간의 상대적 경향성을 통해 인물의 정체성을 정의하는 구조다.

성능 평가의 기준이 정답률에서 일관성으로 이동한다. 이제 개발자는 AI가 정답을 맞혔는지가 아니라 설정한 페르소나의 사고 스타일을 얼마나 정밀하게 유지하는지를 검증한다. 정량적 성능 지표 외에 페르소나의 사고 체계를 제어하고 검증하는 새로운 기준을 확보했다. 모델의 성능을 단순히 점수로 매기는 시대를 지나 사고의 스타일을 정밀하게 튜닝하는 단계로 진입했다. 이는 AI 에이전트의 정체성을 정량적으로 관리할 수 있는 비즈니스적 토대가 된다.

AI 에이전트 설계 기준의 변화와 검증 가능성

기존 벤치마크는 모델이 무엇을 아는가라는 정답률에 매몰됐다. Persona Atlas는 정답이 없는 10가지 개방형 질문을 던져 모델의 사고방식을 측정한다. 정체성, 윤리, 자유의지 같은 질문에서 모델의 원시 성능이 아닌 페르소나의 특성이 드러난다. 답변을 임베딩 벡터로 변환해 좌표화하면 텍스트 생성을 넘어 사고의 기하학적 구조로 정체성을 관리할 수 있다. 이는 프롬프트 몇 줄로 성격 부여를 시도하던 기존 방식과 완전히 다르다. 사고의 거리와 방향을 수치로 제어하는 정밀 설계 영역으로 진입한 것이다.

이 모든 과정은 Hugging Face(허깅페이스, AI 모델 공유 플랫폼) Inference Providers의 소형 모델들로 구동된다. 거대 모델 없이도 정밀한 페르소나 구현이 가능하다는 점을 입증했다. 기업 입장에서 추론 비용을 낮추면서도 특정 정체성을 가진 에이전트를 대량으로 배포할 수 있는 기술적 근거가 된다. 모델의 파라미터 크기가 아니라 임베딩을 통한 정밀한 제어력이 에이전트의 품질을 결정한다. 경량 모델로도 충분한 정체성 구현이 가능하다면 인프라 비용 절감과 응답 속도 개선이라는 실무적 이점을 동시에 확보할 수 있다.

검증 방식은 에이전트 추적(Agent Trace) 기능으로 구체화된다. 에이전트가 어떤 웹 페이지를 방문했고 어떤 팩트를 참조했는지 전 과정을 투명하게 공개한다. 사용자는 결과물뿐 아니라 참조 소스를 직접 대조해 환각 여부를 즉시 판별한다. 단순한 답변 생성이 아니라 근거 기반의 사고 궤적을 검증하는 체계다. 기업용 에이전트에서 가장 치명적인 환각 문제를 추적 가능성으로 해결한 사례다. 개발자는 에이전트가 엉뚱한 소스를 참조했는지, 혹은 수집한 팩트를 잘못 해석했는지 지점에서 정확히 짚어낼 수 있다.

에이전트 설계 기준은 이제 정답률에서 스타일 일관성으로 이동한다. 정량적 지표만으로는 알 수 없던 페르소나의 사고 스타일을 정밀하게 제어하고 검증하는 기준이 마련됐다. 법률이나 의료 같은 전문 도메인 에이전트의 사고 궤적을 데이터화해 튜닝하는 작업이 가능해진다. 이는 에이전트의 정체성을 단순한 설정값이 아닌 검증 가능한 데이터로 취급하게 만든다. 기업은 이제 에이전트가 무엇을 아는가를 넘어 어떻게 생각하는가를 기준으로 품질을 관리한다.

국내 특화 에이전트 개발에 주는 실무적 시사점

프롬프트에 '전문가처럼 말해줘'라고 적는 것만으로 충분할까? 기존의 페르소나 설정은 친절하게 혹은 단호하게 같은 형용사 기반의 지시어에 의존했다. Persona Atlas는 사고방식을 임베딩 벡터로 변환해 인물 간의 거리를 측정한다. 개발자는 이제 정성적인 요청 대신 수치화된 데이터로 페르소나를 정렬할 수 있다. 지시어의 모호함에 기대지 않고 모델의 응답 성향을 좌표계 위에서 직접 조정하는 방식이다. 이는 프롬프트 엔지니어링의 한계를 데이터 기반의 제어로 극복하는 과정이다.

법률이나 의료 같은 전문 도메인 에이전트는 정답의 유무보다 정답에 이르는 경로가 중요하다. 특정 분야 전문가가 복잡한 사례를 분석할 때 보여주는 사고 궤적을 데이터화하면 모델 튜닝의 구체적인 기준으로 삼을 수 있다. 일반적인 LLM이 정답률에만 집중할 때 전문 에이전트는 전문가 특유의 추론 스타일을 복제하는 데 집중한다. 정답은 맞지만 전문가답지 않은 응답을 걸러내는 필터로 작동한다. 이는 고정밀 페르소나 구축을 위한 실질적인 벤치마크가 된다. 전문가의 사고방식을 모사하는 정도를 수치로 확인하며 튜닝의 방향을 잡을 수 있다.

사용자 맞춤형 AI 서비스에서 톤앤매너 관리는 그동안 기획자의 주관적인 판단에 의존했다. 10가지 특성 앵커를 활용하면 AI의 성격적 경향성을 정량적 지표로 관리할 수 있다. 치밀함이나 회의론, 실용주의 같은 특성의 강도를 수치로 제어해 서비스 전체의 일관성을 확보한다. 기업은 브랜드가 추구하는 정체성을 좌표 위에 찍고 모델의 응답을 그 지점으로 수렴시킨다. 이는 단순한 말투 변경을 넘어 사고의 틀 자체를 브랜드 가치에 맞추는 작업이다. 정량적 지표는 여러 명의 개발자가 협업할 때 동일한 페르소나 기준을 유지하게 만든다.

국내 AI 기업들은 범용 모델 래퍼 서비스에서 벗어나 특정 산업에 특화된 버티컬 에이전트로 이동하고 있다. 사고 스타일의 정밀 제어는 단순한 기능 구현을 넘어 서비스 차별화의 핵심 요소가 된다. 정량적 페르소나 제어 기술은 성능 경쟁을 넘어 사용자 경험의 정밀도를 높이는 도구가 된다. 데이터 기반의 정렬은 에이전트가 제공하는 조언의 신뢰도를 결정하는 기준이 된다. 결과적으로 모델의 지능보다 모델의 성격이 비즈니스 임팩트를 결정하는 시점이 온다. 이제 경쟁력은 무엇을 아느냐가 아니라 어떻게 생각하게 만드느냐에서 갈린다.

AI 모델의 성능 평가가 정답률이나 벤치마크 점수라는 단일 지표를 벗어나고 있다. Persona Atlas는 정답 없는 10가지 질문에 대한 답변을 임베딩으로 변환해 인물 간 사고방식의 거리를 측정한다. 10가지 특성 앵커를 기반으로 한 더블 센터드 히트맵 구조는 모델의 상대적 경향성을 정밀하게 보여준다.

정량적 성능 지표 외에 페르소나의 일관성과 사고 스타일을 제어하고 검증하는 실질적 기준을 확보한 셈이다. AI 에이전트의 경쟁력은 이제 지식의 양이 아니라 사고 궤적에 대한 통제력에서 결정된다.