[칼럼 - 이규철] AI교과서(63) - 과학습(Overfitting)

기사 제공처 : 한국공공정책신문 / 등록기자: 김유리 기자 [기자에게 문의하기] /

해당 기사에 관련하여 문의하기에 남겨주시면 "김유리"기자에게 전송됩니다

이름

연락처

- -

이메일

▲이규철/한국공공정책신문 칼럼니스트 ⓒ한국공공정책신문

[한국공공정책신문=김유리 기자]

◇ 과학습의 개념

과학습(Overfitting)이란 AI가 훈련 데이터에 지나치게 적응해 새로운 데이터에 대한 범화 성능이 떨어지는 상태를 말한다. AI의 발전이 진행되는 가운데, 많은 사람들이 AI 모델의 정확도나 성능을 중시하고 있다. 그러나 그 고성능을 요구한 나머지, AI 모델이 ‘과학습(過學習, Overfitting)’이라고 하는 현상에 빠질 수 있다. 이는 AI가 훈련 데이터에 지나치게 적응해 새로운 데이터에 대한 범화 성능이 떨어지는 상태를 말한다. 이 현상은 기계학습의 대표적인 분야인 ‘교사가 있는 학습’이나 ‘교사가 없는 학습’ 어느 쪽에서도 일어날 수 있는 문제이다.

◇ 과학습의 구조

AI 모델은 보통 많은 양의 데이터를 사용하여 학습하고 주어진 작업을 수행할 수 있도록 훈련된다. 그러나 훈련 데이터에 지나치게 적합하면 모델이 훈련 데이터의 노이즈(noise)에 과민하게 반응하여 새로운 데이터에 대한 유연성을 잃게 된다. 이는 모델이 학습데이터의 ‘일반적인 경향’이 아닌 ‘개별 세부’에 지나치게 초점을 맞추면서 발생한다. 한편, 미학습(Underfitting, 학습 부족)은 모델이 데이터의 복잡함을 다 포착하지 못한 상태이며, 과학습과 마찬가지로 예측 정확도가 떨어진다.

◇ 과학습이 생기는 요인

과학습 발생하는 요인은 다양하다. ① 데이터 편향이다. 데이터가 편향되어 있으면 과학습이 일어날 가능성이 높아진다. ② 모델의 복잡성이다. 모델의 구조가 너무 복잡할 경우 학습데이터에 대해 지나치게 적합하기 쉬워진다. ③ 학습시간 과잉이다. 학습을 장시간 수행하면 모델이 데이터의 사소한 패턴까지도 기억하게 된다.

◇ 과학습의 사례

이미지 생성 AI를 생각해 본다. 훈련데이터가 특정 동물의 이미지만 있으면 생성된 이미지가 그 동물의 특징을 지나치게 강조해 다른 동물이나 객체를 생성할 때 실패할 수 있다. 이는 모델이 학습데이터에 지나치게 의존한 결과 범화 능력을 상실했기 때문이다.

◇ 과학습을 방지하는 방법

다행히도 과학습을 방지하기 위한 방법이 몇 가지 존재한다. ① 데이터 확장(Data Augmentation)이다. 훈련 데이터를 다양하게 하고 모델에 다양한 경우를 학습시킴으로써 과학습의 위험을 줄인다. ② 정칙화(Regularization)이다. L1이나 L2 정칙화를 사용하여 모델의 복잡성을 제어하고 범화 성능을 높인다. ③ 앙상블(ensemble) 학습이다. 배깅, 부스팅, 스태킹 등 여러 모델을 조합하여 이용하는 방법이다. ④ 조기 정지(Early Stopping)이다. 학습이 진행되는 가운데 검증 데이터의 성능이 향상되지 않게 된 타이밍에 학습을 정지함으로써 과학습을 회피한다.

*참고) 배깅(Bagging)이란 복수의 모델을 병렬로 조합해, 다수결을 취하는 수법, 부스팅(Boosting)이란 모델을 직렬로 조합하여 틀린 부분을 집중적으로 학습하는 기법, 스태킹(stacking)이란 여러 모델을 쌓아 이전 모델의 출력을 특징량으로 학습하는 기법이다.