google.com, pub-9005101102414487, DIRECT, f08c47fec0942fa0

[칼럼 - 이규철] AI교과서(40) - 음성인식(Spech Recognition)

▲이규철/한국공공정책신문 칼럼니스트 ⓒ한국공공정책신문

 [한국공공정책신문=최진실 기자]


음성인식의 개념


음성인식(spech recognition)이란 컴퓨터에 인간의 의지를 전달하는 기법은 원래 키보드 등의 입력장치로 컴퓨터가 이해할 수 있는 형태로 입력된 문자(프로그램 등)대로 명령을 실행하는 흐름이 일반적이었다.


다양한 입력 방법을 생각할 수 있는 가운데, 하는 말도 이 입력의 하나로 이용하는 연구가 이루어져 왔다. 구어를 문자열로 변환하는 기능은 음성입력이라고 하고, 그리고 음성으로 어플리케이션의 조작을 음성조작이라고 한다. 또 이야기하고 있는 사람을 특정하는 기능을 화자인식이라고 하고, 각각을 크게 정리하여 '음성인식'이라고 한다.

 

음성인식의 특징과 기법


음성의 특징은 크게 두 가지로 나누어 다루어지는 경우가 많으며, 각각 음향적인 특징과 언어적인 특징이라고 한다. 음향적인 특징 : 인식대상의 음소(音素, 소리 파형의 일부를 일정한 특징을 보이는 부분에서 잘라낸 것)가 각각 어떠한 주파수 특성을 갖고 있는지를 나타낸 것으로 음향모델이라고 불린다. 언어적인 특징 : 음소(音素)의 정렬 방법에 관한 제약을 나타낸 것으로 언어모델이라고 불린다. 음성인식에서는 통계적 수법이 자주 이용되고 있다. 음향모델이든 언어모델이든 다양한 사람이 말하는 음성 데이터를 대량으로 축적하고, 학습데이터로써 음성의 특징을 축적하여 인식대상이 되는 입력 음성과 비교하면서 가장 가까운 인식 결과를 출력하게 된다.


초기의 음성인식 수법으로서 동적 시간 신축법(Dynamic time warping, DTW)’이라고 하는 것이 있지만, 이것은 인간 보행의 패턴은 재빠르게 걸어도, 천천히 걸어도, 나아가서는 보행의 화상을 빨리 보내도 천천히 재생해도 일정한 패턴이 존재한다는 것이다. 음성인식 시스템에는 이 외에도 다양한 기술을 사용하고 있다. 어휘가 많은 시스템에서는 음소(音素)에 대해 문맥 의존성을 고려하거나 대화자 간의 차이나 녹음 상황의 차이를 정규화하기 위해 켑스트럼(cepstrum)의 정규화가 이뤄지기도 한다


그 밖에도 성도 길이 정규화(VTLN)’등의 방법이 있다. 음성인식의 정확도를 향상시키기 위해서는 매우 많은 음성 데이터가 필요하다. 초기 단계에서는 이 데이터는 각각의 연구자가 자력만으로 수집하고 있었지만, 곧 한계가 보인다. 그리고 이 데이터를 많은 연구자들이 공유하는 구조가 생겼다. 이렇게 함으로써, 보다 많은 음성 데이터로의 연구가 진행되어 왔지만, 그래도 역시 자력으로 수집이라는 것은 한계가 있다.


그래서 최근에는 이 자력으로 수집한다라고 하는 흐름에서, ‘마음대로 수집된다라고 하는 흐름으로 바뀌어 왔다. 음성인식 시스템에는 빠른 처리능력과 메모리가 필요하다. 아무래도 이것을 가지고 다니는 것은 무리가 있지만, 현재의 휴대전화 네트워크는 매우 고속의 통신이 가능해져, Siri와 같은 클라우드 기반의 음성인식이 이용되는 경우가 많아졌다.


 클라우드 기반으로 하면 이용측은 언제 어디서나 컴퓨터의 메모리나 처리능력을 신경 쓰지 않고 이용할 수 있고, 제공 측도 동시에 수만 명의 발성 데이터를 축적할 수 있다는 면도 있다. 또 회의의 회의록과 녹음 데이터 축적 등에 의해, 보다 인간이 하는 말에 가까운 학습이 가능해졌다. 말하는 도중에 ~’라든가 ~’ 등의 필러(filler) 부분이 어느 타이밍에 많이 사용되는지 등의 통계에도 도움이 되고 있다. 향후도 새로운 정밀도 향상을 기대할 수 있다.

 



이 규 철 / 법학박사(상법)

AI·GPT, SDGs&ESG 코치 및 강사

100세대학 크리에이터 및 칼럼니스트

생성AI와 챗GPT, SDGs·ESG경영전략,

글로벌 MBAtoCEO, 리더의 필승전략,

100세대학 행복디자인 매뉴얼 등 27

일본(와세다대),중국(복단대·화동정법대)



작성 2025.09.29 10:04 수정 2025.09.29 10:23

RSS피드 기사제공처 : 한국공공정책신문 / 등록기자: 최진실 무단 전재 및 재배포금지

해당기사의 문의는 기사제공처에게 문의

댓글 0개 (/ 페이지)
댓글등록- 개인정보를 유출하는 글의 게시를 삼가주세요.
등록된 댓글이 없습니다.
Shorts NEWS 더보기
중동발 경제 쇼크, 우리는 살아남을 수 있을까요?
마약 치료 실적 5배 폭발! 경기도가 작정하고 만든 이것
노후파산의 비명, "남은 건 빚뿐입니다"
"내 집 재개발, 가만히 있다가 2년 날릴 뻔했습니다"
"버리면 쓰레기, 팔면 황금? 경기도의 역발상!"
안산 5km 철도 지하화…71만㎡ 미래도시 탄생
78만 평의 반전! 기흥호수의 대변신
2026 전세 쇼크: "이제 전세는 없습니다"
서울 살 바엔 용인? 수지 17억의 비밀
의사가 진료 중에 AI를 켠다?
벚꽃보다 찐한 설렘! 지금 일본은 분홍빛 매화 폭포 중
기름값 200달러? 중동 발 퍼펙트 스톰이 온다!
신학기 감염병 비상! "수두·볼거리" 주의보
2026 경기국제보트쇼의 화려한 개막
"1초라도 늦으면 끝장" 경기도 반도체 올케어 전격 가동!
엔비디아, 실적은 역대급인데 왜 주가는 폭락할까?
안성 동신산단, 반도체 소부장 거점 조성 본격화
서울 집값 폭락? 당신이 몰랐던 13%의 진실
대치동 은마아파트 화재 재건축 지연 논란까지 확산
미쳤다 서울 집값!” 1년 새 13% 폭등, 내 집 마련 꿈은 신기루인가..
몸짱 되려다 몸 망친다! SNS에서 산 그 약?, 사실은 독약!
왜 나만 매번 상처받을까?
"앱 노가다 끝!" 바쁜 현대인을 위한 삼성의 새로운 치트키
도심 한복판 ‘비밀의 숲’ 열렸다... 물향기수목원서 천연기념물·멸종위기..
의외로 모르는 임윤찬 숨겨진 레전드 Autumn Leaves
지휘자만 모르게 준비한 서프라이즈 이벤트
지휘자가 클래식 음악에 중요한 이유
트럼프의 관세 장벽이 무너졌다. (美 대법원 6:3 판결)
유튜브 NEWS 더보기

일론 머스크의 경고, 2030년 당신의 책상은 사라진다

부의 이동심리, 타워팰리스가 던지는 경제적 신호

그대는 소중한 사람 #유활의학 #마음챙김 #휴식

나 홀로 뇌졸중, 생존 확률 99% 높이는 실전 매뉴얼

숨결처럼 다가온 희망. 치유.명상.수면.힐링

통증이 마법처럼 사라지다./유활도/유활의학/유활파워/류카츠대학/기치유

O자 다리 한국, 칼각 일본? 앉는 습관 하나가 평생 건강을 좌우한다

겨울마다 돌아오는 ‘급성 장폭풍’… 노로바이러스, 아이들 먼저 덮쳤다

아오모리 강진, 철도·항만·도심 모두 멈췄다… 충격 확산

경기도, 숨겨진 가상자산까지 추적했다… 50억 회수한 초정밀 징수혁신으로 대통령상 수상

간병 파산 막아라... 경기도 'SOS 프로젝트' 1천 가구 숨통 틔웠다 120만 원의 기적,...

100세 시대의 진짜 재앙은 '빈곤'이 아닌 '고독', 당신의 노후는 안전합니까...

브레이크 밟았는데 차가 '쭉'... 눈길 미끄러짐, 스노우 타이어만 믿다간 '낭패...

"AI도 설렘을 알까?"... 첫눈 오는 날 GPT에게 '감성'을 물었더니

응급실 뺑뺑이 없는 경기도, '적기·적소·적시' 치료의 새 기준을 세우다

GTX·별내선·교외선이 바꾼 경기도의 하루… 이동이 빨라지자 삶이 달라졌다

행복은 뇌에서 시작된다. 신경과학이 밝혀낸 10가지 습관

행복은 뇌에서 시작된다 신경과학이 밝혀낸 10가지 습관

자신을 칭찬할 수 있는 용기, 삶을 존중하는 가장 아름다운 습관

아이젠사이언스생명연, AI 신약 개발 초격차 확보 전략적 동행