[한국공공정책신문=김유리 기자]
◇ 교사가 있는 학습이란?
Supervised Learning은 기계학습의 일종으로 데이터와 이에 대응하는 정답 라벨을 사용하여 모델을 훈련하는 방법이다. 즉 교사가 있는 학습에서는 라벨이 붙은 데이터 세트(예, 개의 이미지에 ‘개’라고 라벨을 붙인다)를 사용해 모델을 훈련한다. 이 훈련을 통해 새로운 데이터에 대해서도 정확한 예측 및 분류가 가능하다. 모델은 주어진 데이터를 학습하고 새로운 데이터에 대해 올바른 예측을 하는 것을 목표로 한다.
◇ 교사가 있는 학습의 기본 구조
교사가 있는 학습(Supervised Learning)의 프로세스는 이하의 스텝으로 진행한다. ① 데이터 수집이다. 먼저 학습에 사용할 데이터를 모은다. 이 데이터에는 입력 데이터(특징 분량)와 이에 대응하는 라벨(정답)이 포함되어 있다. 예컨대, 이메일 스팸 판정에서는 이메일 본문이 입력 데이터로 스팸 여부 라벨이 부여된다. ② 데이터 전처리다. 데이터의 품질을 향상시키기 위해 결손치 처리 및 데이터 정규화 등의 전처리를 수행한다.
이 단계는 모델의 성능을 크게 좌우한다. 즉, ① 모델 선택이다. 대표적인 교사가 있는 학습 알고리즘으로는 회귀분석, 결정목(木), 지원 벡터 머신(SVM), k근방법(k-NN) 등이 있다. 데이터의 성질에 맞는 알고리즘을 선택한다. ② 모델 트레이닝이다. 전처리한 데이터를 사용하여 모델을 트레이닝한다.
모델은 데이터와 레이블을 기반으로 특징 분량과 정답의 관계를 학습하고 새로운 데이터에 대해서도 정확한 예측을 할 수 있게 된다. ① 모델 평가다. 학습이 완료되면 테스트 데이터를 사용하여 모델의 정확도를 평가한다. 정밀도, 재현율, F값 등의 지표로 모델의 성능을 확인한다. ② 모델 개선이다. 평가결과를 바탕으로 모델을 개선한다. 파라미터 조정 및 알고리즘 변경을 통해 예측 정확도를 향상시킨다.
◇ 교사가 있는 학습의 구체적인 사례
교사 있는 학습은 현실 세계의 다양한 분야에서 이용되고 있다. 다음은 그 일부이다. ① 이미지 분류다. 손으로 쓴 숫자의 인식이나, 의료 화상으로부터 질환 판정 등에서 정답 라벨을 기본으로 화상의 분류를 실시한다. ② 음성인식이다. 음성 데이터에 대응하는 문자 변환 라벨을 사용하여 음성을 텍스트로 변환하는 모델을 훈련한다. ③ 텍스트 분류다. 이메일 스팸 판정이나 소셜미디어에서 감정 분석 등 텍스트 데이터를 라벨 부착으로 분류한다.
◇ 교사가 있는 학습의 장점과 과제
교사가 있는 학습의 큰 장점은 정확한 라벨링 데이터를 사용하기 때문에 모델의 예측 정확도가 높아진다. 그러나 과제로는 라벨이 붙은 데이터 수집에 시간이 걸리는 것을 들 수 있다. 또한 라벨의 질이 낮으면 모델의 성능이 저하될 위험도 있다. 교사가 있는 학습은 라벨이 붙은 데이터를 사용하여 고정밀 예측 모델을 만들기 위한 방법이다. 일상생활의 많은 장면에서 응용되고 있으며, 화상인식이나 음성인식, 텍스트 분류 등에서 활용되고 있다. 데이터의 질이 중요한 요소임을 이해함으로써 보다 효과적인 모델 개발이 가능하다.
이규철 / 법학박사(상법)
∙ AI·GPT, SDGs&ESG 코치 및 강사
∙ 100세대학 크리에이터 및 칼럼니스트
∙ 생성AI와 챗GPT, SDGs·ESG경영전략,
글로벌 MBAtoCEO, 리더의 필승전략,
100세대학 행복디자인 매뉴얼 등 27권
∙ 일본(와세다대),중국(복단대·화동정법대)
















