
카카오가 사람과 같이 보고, 듣고, 말하는 고도화된 멀티모달 인공지능(AI) 기술의 연구 성과를 공식 발표하며, K-AI의 새로운 지평을 열었다. 특히 한국어와 한국 문화를 깊이 있게 이해하는 데 초점을 맞춘 독자적인 AI 모델들은 글로벌 선두 모델들과의 경쟁에서 우위를 점할 잠재력을 입증했다.
한국적 맥락 최적화된 '통합 AI' 기술력 입증
카카오는 최근 테크 블로그를 통해 통합 멀티모달 언어모델 카나나-오(Kanana-o)’와 멀티모달 임베딩 모델 ‘카나나-브이-임베딩(Kanana-v-embedding)’의 개발 과정과 벤치마크 결과를 상세히 공개했다. 이는 카카오가 자체적으로 구축한 AI 모델의 기술적 성숙도와 완성도를 재차 확인하는 계기가 되었다.
Kanana-o는 텍스트, 음성, 이미지를 동시에 인식하고 실시간으로 응답할 수 있는 통합 멀티모달 언어모델이다. 이 모델의 가장 큰 특징은 글로벌 모델 대비 한국어 맥락 이해 능력이 압도적이라는 점이다. 지난 5월 성능 공개 이후 지속적인 고도화를 거쳐, 마치 사람처럼 자연스럽고 풍부한 표현력을 갖추게 됐다.
카카오 개발팀은 기존 멀티모달 모델들이 텍스트 입력에서는 강점을 보였으나, 음성 대화 시에는 답변의 깊이가 얕아지고 추론 능력이 떨어지는 한계를 명확히 인식했다. 이를 극복하고자 Kanana-o의 지시 이행 능력을 대폭 강화했다. 그 결과, 사용자의 표면적인 질문을 넘어 숨겨진 의도와 복잡다단한 요구사항까지 정교하게 파악하고 처리할 수 있게 되었다.
감정·호흡까지 이해하는 'AI 대화의 진화’
Kanana-o는 자체 구축한 대규모 데이터셋을 활용해 학습을 진행함으로써, 다양한 종류의 입출력 모달리티(텍스트, 음성, 이미지)에서도 기존 언어모델의 성능을 일관되게 유지했다. 단순한 질의응답을 넘어 요약, 감정 및 의도 해석, 오류 수정, 형식 변환, 번역 등 복합적인 과업을 성공적으로 수행하는 수준으로 성능이 향상되었다.
특히, 음성 분야에서의 발전이 눈에 띈다. 고품질 음성 데이터와 직접 선호 최적화(Direct Preference Optimization, DPO) 기술을 적용하여 억양, 감정, 호흡 등을 세밀하게 학습시켰다. 이를 통해 기쁨, 슬픔, 분노, 공포 등 상황별로 생생한 감정 표현은 물론, 미묘한 음색이나 어조 변화에 따른 감정까지 인식하고 표현하는 능력이 대폭 향상됐다.
더불어 호스트와 게스트가 대화를 나누는 '팟캐스트' 형태의 데이터셋 구축을 통해 끊김 없이 자연스럽게 이어지는 '멀티턴(Multi-turn) 대화'까지 가능해졌다. 벤치마크 평가 결과, Kanana-o는 영어 음성 성능 면에서는 GPT-4o와 유사한 수준을 보였으나, 한국어 음성 인식, 합성, 감정 인식 능력에서는 비교 모델 대비 월등히 높은 성과를 기록하며 한국어 기반 AI 대화의 새로운 표준을 제시했다.
이미지 검색 패러다임 변화: 'Kanana-v-embedding’
함께 공개된 ‘Kanana-v-embedding’은 이미지 기반 검색의 핵심 동력으로 작용하는 한국형 멀티모달 모델이다. 이 모델은 텍스트와 이미지를 동시에 이해하고 처리하여 텍스트로 이미지를 검색하거나, 특정 이미지와 관련된 정보를 탐색하고, 이미지가 포함된 문서를 찾아내는 등의 기능을 지원한다.
이 모델은 실질적인 서비스 적용을 염두에 두고 개발되었기에, 한국어와 한국 문화에 대한 이해도가 매우 탁월하다는 강점을 지닌다. '경복궁', '붕어빵' 같은 한국 고유명사뿐만 아니라, '하멜튼 치즈'처럼 오타가 포함된 단어까지도 문맥을 통해 정확한 이미지를 찾아낸다. 또한, '한복 입고 찍은 단체 사진'과 같은 복합적인 검색 조건도 정확히 해석하여, 조건의 일부에만 해당하는 사진을 걸러내는 높은 변별력을 갖췄다.
현재 Kanana-v-embedding은 카카오 내부 광고 소재의 유사도 분석 및 심사 시스템에 이미 적용되어 활용되고 있다. 카카오는 향후 적용 범위를 비디오나 음성 등 다른 모달리티로 확장하여 더욱 폭넓은 서비스에 이 기술을 적용할 계획이다.
카카오가 선보인 Kanana 시리즈는 한국어 기반 AI 기술의 현주소를 한 단계 끌어올렸다는 평가를 받는다. Kanana-o는 단순 정보 제공을 넘어 감정을 이해하고 의도를 파악하는 '인간적인 대화'를 구현하며, Kanana-v-embedding은 한국 문화와 맥락에 최적화된 검색 혁신을 예고한다. 이러한 기술력은 카카오 서비스 전반에 걸쳐 사용자 경험을 극적으로 개선하고, 국내외 AI 시장에서 카카오의 기술 리더십을 공고히 하는 핵심 동력이 될 것으로 기대된다.
김병학 카나나 성과리더는 "카카오의 자체 AI 모델 카나나는 단순한 정보 나열 수준을 넘어, 사용자의 감정을 이해하고 친숙하게 대화하는 AI가 되도록 한국적 맥락의 이해와 표현력을 높이는 데 주력했다"고 밝혔다. 카카오는 현재 온 디바이스 환경에서 동작하는 모델의 경량화 연구와 더불어, MoE(Mixture of Experts) 구조를 적용한 고성능·고효율 모델인 'Kanana-2' 개발을 준비하고 있다. 이처럼 카카오는 지속적인 기술 진화를 통해 일상 속에서 사람처럼 상호작용하는 AI 구현에 박차를 가하고 있으며, 향후 글로벌 AI 경쟁 구도에 큰 영향을 미칠 전망이다.
















