카카오, '인간처럼 소통하는 AI' 시대 개막 선언!

한국적 맥락 최적화된 '통합 AI' 기술력 입증

감정·호흡까지 이해하는 'AI 대화의 진화’

이미지 검색 패러다임 변화: 'Kanana-v-embedding’

이미지=캔바, kanana-o

 

 

카카오가 사람과 같이 보고, 듣고, 말하는 고도화된 멀티모달 인공지능(AI) 기술의 연구 성과를 공식 발표하며, K-AI의 새로운 지평을 열었다. 특히 한국어와 한국 문화를 깊이 있게 이해하는 데 초점을 맞춘 독자적인 AI 모델들은 글로벌 선두 모델들과의 경쟁에서 우위를 점할 잠재력을 입증했다.

 

한국적 맥락 최적화된 '통합 AI' 기술력 입증

 

카카오는 최근 테크 블로그를 통해 통합 멀티모달 언어모델 카나나-오(Kanana-o)’와 멀티모달 임베딩 모델 ‘카나나-브이-임베딩(Kanana-v-embedding)’의 개발 과정과 벤치마크 결과를 상세히 공개했다. 이는 카카오가 자체적으로 구축한 AI 모델의 기술적 성숙도와 완성도를 재차 확인하는 계기가 되었다.

 

Kanana-o는 텍스트, 음성, 이미지를 동시에 인식하고 실시간으로 응답할 수 있는 통합 멀티모달 언어모델이다. 이 모델의 가장 큰 특징은 글로벌 모델 대비 한국어 맥락 이해 능력이 압도적이라는 점이다. 지난 5월 성능 공개 이후 지속적인 고도화를 거쳐, 마치 사람처럼 자연스럽고 풍부한 표현력을 갖추게 됐다.

 

카카오 개발팀은 기존 멀티모달 모델들이 텍스트 입력에서는 강점을 보였으나, 음성 대화 시에는 답변의 깊이가 얕아지고 추론 능력이 떨어지는 한계를 명확히 인식했다. 이를 극복하고자 Kanana-o의 지시 이행 능력을 대폭 강화했다. 그 결과, 사용자의 표면적인 질문을 넘어 숨겨진 의도와 복잡다단한 요구사항까지 정교하게 파악하고 처리할 수 있게 되었다.

 

감정·호흡까지 이해하는 'AI 대화의 진화’

 

Kanana-o는 자체 구축한 대규모 데이터셋을 활용해 학습을 진행함으로써, 다양한 종류의 입출력 모달리티(텍스트, 음성, 이미지)에서도 기존 언어모델의 성능을 일관되게 유지했다. 단순한 질의응답을 넘어 요약, 감정 및 의도 해석, 오류 수정, 형식 변환, 번역 등 복합적인 과업을 성공적으로 수행하는 수준으로 성능이 향상되었다.

 

특히, 음성 분야에서의 발전이 눈에 띈다. 고품질 음성 데이터와 직접 선호 최적화(Direct Preference Optimization, DPO) 기술을 적용하여 억양, 감정, 호흡 등을 세밀하게 학습시켰다. 이를 통해 기쁨, 슬픔, 분노, 공포 등 상황별로 생생한 감정 표현은 물론, 미묘한 음색이나 어조 변화에 따른 감정까지 인식하고 표현하는 능력이 대폭 향상됐다.

 

더불어 호스트와 게스트가 대화를 나누는 '팟캐스트' 형태의 데이터셋 구축을 통해 끊김 없이 자연스럽게 이어지는 '멀티턴(Multi-turn) 대화'까지 가능해졌다. 벤치마크 평가 결과, Kanana-o는 영어 음성 성능 면에서는 GPT-4o와 유사한 수준을 보였으나, 한국어 음성 인식, 합성, 감정 인식 능력에서는 비교 모델 대비 월등히 높은 성과를 기록하며 한국어 기반 AI 대화의 새로운 표준을 제시했다.

 

이미지 검색 패러다임 변화: 'Kanana-v-embedding’

 

함께 공개된 ‘Kanana-v-embedding’은 이미지 기반 검색의 핵심 동력으로 작용하는 한국형 멀티모달 모델이다. 이 모델은 텍스트와 이미지를 동시에 이해하고 처리하여 텍스트로 이미지를 검색하거나, 특정 이미지와 관련된 정보를 탐색하고, 이미지가 포함된 문서를 찾아내는 등의 기능을 지원한다.

 

이 모델은 실질적인 서비스 적용을 염두에 두고 개발되었기에, 한국어와 한국 문화에 대한 이해도가 매우 탁월하다는 강점을 지닌다. '경복궁', '붕어빵' 같은 한국 고유명사뿐만 아니라, '하멜튼 치즈'처럼 오타가 포함된 단어까지도 문맥을 통해 정확한 이미지를 찾아낸다. 또한, '한복 입고 찍은 단체 사진'과 같은 복합적인 검색 조건도 정확히 해석하여, 조건의 일부에만 해당하는 사진을 걸러내는 높은 변별력을 갖췄다.

 

현재 Kanana-v-embedding은 카카오 내부 광고 소재의 유사도 분석 및 심사 시스템에 이미 적용되어 활용되고 있다. 카카오는 향후 적용 범위를 비디오나 음성 등 다른 모달리티로 확장하여 더욱 폭넓은 서비스에 이 기술을 적용할 계획이다.

 

카카오가 선보인 Kanana 시리즈는 한국어 기반 AI 기술의 현주소를 한 단계 끌어올렸다는 평가를 받는다. Kanana-o는 단순 정보 제공을 넘어 감정을 이해하고 의도를 파악하는 '인간적인 대화'를 구현하며, Kanana-v-embedding은 한국 문화와 맥락에 최적화된 검색 혁신을 예고한다. 이러한 기술력은 카카오 서비스 전반에 걸쳐 사용자 경험을 극적으로 개선하고, 국내외 AI 시장에서 카카오의 기술 리더십을 공고히 하는 핵심 동력이 될 것으로 기대된다.

 

김병학 카나나 성과리더는 "카카오의 자체 AI 모델 카나나는 단순한 정보 나열 수준을 넘어, 사용자의 감정을 이해하고 친숙하게 대화하는 AI가 되도록 한국적 맥락의 이해와 표현력을 높이는 데 주력했다"고 밝혔다. 카카오는 현재 온 디바이스 환경에서 동작하는 모델의 경량화 연구와 더불어, MoE(Mixture of Experts) 구조를 적용한 고성능·고효율 모델인 'Kanana-2' 개발을 준비하고 있다. 이처럼 카카오는 지속적인 기술 진화를 통해 일상 속에서 사람처럼 상호작용하는 AI 구현에 박차를 가하고 있으며, 향후 글로벌 AI 경쟁 구도에 큰 영향을 미칠 전망이다.

 

 

명인자 칼럼리스트 기자 88hagee@gmail.com
작성 2025.12.16 11:24 수정 2025.12.16 11:24

RSS피드 기사제공처 : AI지구백과저널 / 등록기자: 명인자 칼럼리스트 무단 전재 및 재배포금지

해당기사의 문의는 기사제공처에게 문의

댓글 0개 (/ 페이지)
댓글등록- 개인정보를 유출하는 글의 게시를 삼가주세요.
등록된 댓글이 없습니다.
Shorts NEWS 더보기
칭찬랜드의 마지막 비전 #요양원 #존엄한노년 #칭찬랜드 #노년의가치 #인..
서울 한채 값으로 지방 아파트 700 채.
만보 걷기? 오히려 건강 해칠 수 있다.
앵무새 밈
호랑이 지금 AI동영상
Create a 19 second vertical short video ..
AI 숏츠 데모영상 너구리편
AI동영상제작 나레이션·앵커뉴스·동물밈 선택
사람 많다고 소문 나는 학원이 좋은 학원은 아니다#음악학원운영 #음악학원..
커리큘럼이 있는 학원과 없는 학원의 차이#음악학원운영 #커리큘럼 #음악교..
욕심이 화를 부른다#음악학원운영 #음악학원창업 #신도시학원 #학원입지전략..
더 이상 상업적 마인드는 통하지 않는다 : 음악학원의 진정한 가치와 운영..
왜 우리는 쇼팽으로 시작하는가#클래식음악 #쇼팽 #프레데리크쇼팽 #피아노..
콩쿠르는 왜 이렇게 많아졌을까#클래식음악 #콩쿠르 #음악교육 #음악입시 ..
AI는 음악의 값을 낮추는가, 돈의 길을 바꾸는가#ai 음악 #AI작곡 ..
쿠팡 3,370만명 개인정보 유출 사태의 본질은'데이터 주권 침해'라고 ..
국회 과학기술정보방송통신위원회 최민희 위원장 백주선 변호사 쿠팡의 대규모..
이건 테마공원이 아닙니다 신도시입니다 #칭찬랜드 #문화IP신도시 #한중일..
이름이 브랜드라면 반드시 거쳐야 할 단계 #이름이브랜드 #개인브랜딩 #전..
나쁜 뉴스 말고, 좋은 사람 찾는 기자 모집합니다 #지금문자하면기자됩니다..
별이 된 세기의 유혹자, 브리지트바르도, 누구인가?
당신의 이름은 이 도시에서 빛이 됩니다 #CCBS #칭찬랜드 #칭찬나무 ..
당신 직업에 ‘기자’라는 역할을 더해보세요 #기자모집 #시민기자 #전문가..
자식보다 낫다? 부모님 홀리는 ai의 정체!
직장 내 괴롭힘의 끔찍한 결말
검색하면 남지 않는 강사들의 공통점 #강사 #코치 #강연가 #교육강사 #..
을지로위원장이 가장 자랑스럽다 우원식 국회의장 을지로위원회 12년 역..
[인물포커스-금융보험인] 35년 보험을 정리해온 이 사람 보험 이야기를 ..
유튜브 NEWS 더보기

드론와이드샷/고층 외벽 점검의 패러다임 전환, 드론와이드샷이 바꾸는 시설물 안전 관리

인내의 아홉 달, 탄생의 신비: 거룩한 자궁, 숨겨진 선함

[법륜스님의 즉문즉설 제 1518회] 40대 실업, 어떻게 살아야 할까요?

당신의 영혼을 무장시키는 법: 세상의 소음으로부터 나를 지키는 자인의 방어벽

AI 밈 동물 숏츠 영상

세계최상위 귀족이 끝까지 지켜낸 것은?

당신의 삶을 지탱하는 ‘갈고리’는 무엇인가? 바브(ו)가 전하는 수직과 수평의 연결 철학

헬라 철학은 어떻게 성경의 방패가 되었나 - 플라톤

호흡의 경제학 진정한 부의 비밀 - 헤(ה)

하나님의 화려한 외출. 작곡작사: 백종찬

부의 이동심리, 타워팰리스가 던지는 경제적 신호

뉴욕을 뒤흔들 ‘K-컨템퍼러리’의 역습, 한예종 청년 예술가들 맨해튼 점령

주님수세주일, 우리 정체성의 재확인 - 물과 성령으로 여는 새 시대

성공의 문턱을 넘는 마지막 열쇠, 달렛(ד)의 ‘가난한 마음’이 만드는 기적 같은 변화

국민의힘 최고의원 조수진 남양주"병"에 주광덕위원장과 함께 합동대선유세 2/25

신학적 지식을 넘어 삶의 노래로: 창세기를 만나는 가장 아름답고 서정적인 방법

1% 리더만 아는 히브리어 쉼표의 비밀: 멈춤과 실행 사이, 승패를 가르는 0.1초의 직관

The Father’s Heart and the Core of the Gospel Through the Pa...

당신의 눈물이 보석이 되는 순간,『고난, 절망의 늪에서 피어난 꽃』이 던지는 화두

교회력의 비밀 쉼 없는 세상에서 리듬을 찾다