상담원들이 매일 받는 전화가 수천 통이라고 생각해보자. 그 많은 이야기를 다 듣고 누가 화가 났는지, 무엇 때문에 전화를 했는지 알아내려면 시간이 너무 많이 걸린다. 일일이 듣지 않고도 고객의 마음을 한눈에 알 수 있는 방법은 없을까.

OpenAI Whisper로 전화 내용을 글자로 바꾸는 도구 제작

최근 개발자 커뮤니티에서는 녹음된 전화 파일을 넣으면 자동으로 분석해 주는 도구가 소개되었다. 이 도구는 OpenAI의 Whisper(목소리를 글자로 바꿔주는 인공지능)를 사용해 말소리를 텍스트로 바꾼다. 그다음 RoBERTa(글의 분위기가 긍정적인지 부정적인지 읽어내는 도구)가 고객의 기분을 분석하고, BERTopic(비슷한 내용의 글들을 하나로 묶어주는 도구)이 어떤 주제로 이야기를 나누었는지 찾아낸다.

이 과정은 단순히 단어를 찾는 수준이 아니다. 예를 들어 배송이 늦었다는 말과 물건이 안 왔다는 말이 서로 다른 단어지만, 결국 같은 불만이라는 것을 인공지능이 스스로 깨닫는다. 이렇게 분석된 결과는 Streamlit(파이썬 코드를 간단한 웹사이트로 만들어주는 도구)이라는 도구를 통해 예쁜 그래프와 표로 보여준다. 결국 복잡한 녹음 파일들이 클릭 몇 번으로 정리된 보고서가 된다.

내 컴퓨터에서 직접 돌리는 로컬 AI의 안전함

보통 인공지능을 쓰려면 인터넷을 통해 외부 서버에 데이터를 보내야 한다. 하지만 고객의 전화 내용에는 이름이나 전화번호 같은 중요한 개인 정보가 들어있다. 외부 서버로 데이터를 보내면 정보가 샐 위험이 있고, 사용할 때마다 이용료를 내야 하는 경우도 많다. 인터넷 연결이 끊기면 도구를 사용할 수 없다는 점도 불편하다.

비유하자면 외부 업체에 내 일기장을 맡겨서 분석 보고서를 받는 것과, 내 방에서 혼자 일기장을 읽고 정리하는 것의 차이다. 내 컴퓨터에서 직접 실행하는 로컬 AI 방식을 쓰면 돈이 전혀 들지 않고 비밀도 안전하게 지킬 수 있다. 외부의 도움 없이 내 컴퓨터의 힘만으로 모든 분석을 끝낼 수 있기 때문이다.

소리를 그림으로 바꿔서 읽는 인공지능의 원리

인공지능이 소리를 이해하는 방식은 생각보다 독특하다. Whisper는 소리를 그대로 듣는 것이 아니라 멜 스펙트로그램(소리의 높낮이와 크기를 그림으로 나타낸 지도)이라는 이미지로 바꾼다. 쉽게 말하면 소리를 눈으로 볼 수 있는 그림으로 그려서 읽는 셈이다.

사람의 귀가 낮은 소리는 잘 듣고 높은 소리는 덜 듣는 것처럼, 이 기술도 사람의 청각 구조를 흉내 내어 그림을 그린다. 이렇게 하면 주변에 시끄러운 소음이 섞여 있어도 인공지능이 중요한 말소리 부분만 그림에서 찾아낼 수 있다. 그림을 다 그린 후에는 Transformer(문장 속 단어들의 관계를 파악해 의미를 이해하는 기술)가 이 그림을 읽어 정확한 글자로 옮긴다.

마지막으로 분석된 결과는 Plotly(데이터를 움직이는 그래프로 그려주는 도구)를 통해 화면에 나타난다. 사용자는 그래프 위에 마우스를 올려 구체적인 내용을 확인하거나, 특정 시간대의 감정 변화를 확대해서 볼 수 있다. 단순한 숫자의 나열이 아니라 고객의 마음이 어떻게 변했는지 보여주는 하나의 이야기가 되는 것이다.

이제는 수많은 녹음 파일을 일일이 듣지 않아도 인공지능이 고객의 마음을 빠르게 읽어낼 수 있다. 기술이 발전하면서 개인 정보 보호와 업무 효율성이라는 두 마리 토끼를 모두 잡게 되었다.