[한국공공정책신문=김유리 기자] 교사가 없는 학습(Unsupervised Learning)은 라벨이 없는 데이터를 사용해 패턴이나 구조를 찾아내는 기계학습의 수법이다. 즉 교사가 없는 학습은 라벨이 없는 데이터를 사용하여 그 안의 패턴이나 구조를 자동으로 찾아내는 방법이다. 고객의 구매 데이터를 분석해 비슷한 경향을 가진 그룹으로 나누는 등이 예이다. 교사가 있는 것과 같이 학습하는 것처럼 정답이 없기 때문에 알고리즘은 데이터 자체에 숨겨진 규칙성을 찾으려고 한다.
◇ 교사가 없는 학습의 기본적인 구조
교사가 없는 학습에서는 다음 단계로 진행한다. ① 데이터 수집이다. 먼저 라벨이 없는 대량의 데이터를 모은다. 이 데이터는 텍스트, 이미지, 수치 데이터 등 다양한 형식이 있다. ② 데이터 전처리다. 수집한 데이터는 전처리가 필요하다. 노이즈(noise)나 결손 가치의 처리, 표준화 등을 실시해, 데이터를 분석하기 쉬운 형태로 정돈한다. ③ 모델 선택이다. 교사가 없는 학습에는 많은 알고리즘이 있다. 대표적인 것으로 클러스터링(예, K-means법), 차원 축소(예, 주성분 분석 PCA), 관련성 규칙 학습 등이 있다. ④ 패턴 발견이다. 데이터를 모델에 입력하고 데이터 내의 공통점이나 그룹을 발견한다. 예컨대, 클러스터링에서는 비슷한 데이터를 정리하여 그룹화한다. ⑤ 결과 해석이다. 알고리즘이 발견한 패턴을 해석하여 데이터의 특징이나 경향을 이해한다. 결과는 마케팅이나 이상 감지 등 다양한 응용에 활용한다.
*k-means법(k-평균법)이란 주어진 데이터를 k개의 중심점(평균값)으로부터의 근접을 기준으로 k개의 클러스터(집단)로 나누는 클러스터링이라 불리는 기법 중의 하나이다. 예컨대, 비즈니스에서는 고객 세그먼테이션(분류), 상품의 카테고리 분류, 큰 손실 리스크 평가 등에 응용할 수 있다.
*주성분 분석(principal component analysis, PCA)은 상관이 있는 다수의 변수로부터 상관이 없는 소수로 전체의 편차를 가장 잘 나타내는 주성분이라고 불리는 변수를 합성하는 다변량 해석의 한 방법이다. 데이터의 차원을 삭감하기 위해 이용된다.
◇ 교사가 없는 학습의 구체적인 사례
교사가 없는 학습은 다음과 같은 분야에서 활용되고 있다. ① 고객 세그먼테이션이다. 마케팅에서는 고객 데이터를 사용하여 고객을 여러 그룹으로 나눔으로써 각각의 그룹에 적합한 광고나 프로모션을 실시한다. ② 이상 감지다. 네트워크의 이상이나 금융 거래의 부정을 검출하기 위해, 통상의 데이터에서 벗어난 비정상적인 패턴을 검출한다. ③ 차원 축소다. 고차원 데이터(예, 이미지 데이터나 유전자 데이터)를 중요한 특징만을 추출하여 데이터를 압축하는 방법이다. 이로 인해 데이터의 가시화나 효율적인 계산이 가능하게 된다.
◇ 교사가 없는 학습의 장점과 과제
교사가 없는 학습의 장점은 라벨이 붙은 데이터를 필요로 하지 않고, 대량의 데이터에서 미지의 패턴을 발견할 수 있다. 이를 통해 새로운 지식을 얻거나 수동으로 라벨을 붙이는 수고를 덜 수 있다. 한편, 과제는 결과의 해석이 어려운 경우가 있다. 알고리즘이 자동으로 찾은 패턴이 실제 현상을 정확하게 반영하지는 않기 때문에 전문가의 해석이 필요할 수도 있다.
이규철 / 법학박사(상법)
∙ AI·GPT, SDGs&ESG 코치 및 강사
∙ 100세대학 크리에이터 및 칼럼니스트
∙ 생성AI와 챗GPT, SDGs·ESG경영전략,
글로벌 MBAtoCEO, 리더의 필승전략,
100세대학 행복디자인 매뉴얼 등 27권
∙ 일본(와세다대),중국(복단대·화동정법대)
















