AI가 사회 예산을 짜면 어떻게 될까—LLM 4종 비교 실험이 드러낸 구조적 편향

기사 제공처 : 아이티인사이트 / 등록기자: 최현웅 기자 [기자에게 문의하기] /

해당 기사에 관련하여 문의하기에 남겨주시면 "최현웅"기자에게 전송됩니다

이름

연락처

- -

이메일

거대언어모델의 영향력 분석

LSE 연구진이 참여한 arXiv 논문 한 편이 인공지능(AI) 거버넌스 논의에 구체적인 데이터를 보탰다. 2026년 5월 공개된 논문 "Social Policy of Large Language Models"(arXiv:2605.10234)에 따르면, GPT-4o·Claude·DeepSeek·Grok 등 4종의 거대언어모델(LLM)은 스페인과 독일의 사회 예산을 배분할 때 공통적으로 실제 유럽 지출 구조와 어긋나는 체계적 편향을 드러냈다. 연금은 실제 지출의 약 3분의 1 수준으로 과소 배분된 반면, 주택은 4배, 고용은 2배로 부풀려졌다.

AI가 공공 예산 결정을 보조할 수 있는지를 두고 각국 정부가 탐색에 나선 시점에, 이 연구 결과는 낙관론에 제동을 거는 근거가 된다. 연구팀은 각 모델과 국가 조합에 동일한 프롬프트를 6회씩 질의해 총 48개의 독립적인 예산 배분 결과를 도출하고, 이를 OECD 참고 예산과 대조했다.

연금 과소·주택 과다라는 패턴은 모델과 국가를 가리지 않고 일관되게 나타났다. 연구팀은 이러한 편향이 AI 모델이 학습한 데이터셋의 구성에서 비롯된다고 분석했다.

온라인 텍스트와 영어권 담론에서 주거난과 청년 고용 문제는 빈번하게 다뤄지는 반면, 고령층 연금 지출의 구조적 필요성은 상대적으로 희석되어 있다는 것이다. 모델 사이의 차이도 뚜렷했으나, 그 양상은 연구팀의 예상과 다른 방향에서 나타났다. 지정학적 편향, 즉 모델 개발국의 정치·경제 문화가 배분 방식에 반영될 것이라는 가설은 실험 결과로 충분히 입증되지 않았다.

대신 모델별로 예산을 특정 항목에 집중하는 경향과 여러 항목에 고르게 분산하는 경향 사이의 차이가 두드러졌다. Claude만이 스페인과 독일 간 국가별 맥락에 유의미한 민감성을 보였고, 나머지 세 모델은 두 나라에 거의 동일한 배분 구조를 적용했다. 연구팀은 이 차이가 모델의 사전 훈련 방식 및 미세조정(fine-tuning) 과정과 연관될 수 있다고 밝혔으나, 인과관계를 단정하기 위해서는 추가 연구가 필요하다고 덧붙였다.

AI 편향과 정책 개발의 딜레마

논문은 LLM이 공공 예산 책정 과정에서 전문가의 심의를 보조할 수는 있어도 대체할 수는 없다는 결론을 명확히 제시한다. 이 결론은 단순한 경고가 아니라 실험 데이터에서 도출된 것이다. 48개의 배분 결과가 OECD 참고 예산과 체계적으로 어긋난다는 사실은, AI가 내놓는 답이 얼마나 자신감 있어 보이더라도 그 안에 특정 방향으로 기울어진 전제가 내장되어 있을 수 있음을 보여준다.

사회 예산은 노인·아동·장애인·실업자 등 다양한 집단의 생계와 직결된다. 편향된 배분 기준이 정책 설계에 반영될 경우, 그 영향은 수치 이상의 의미를 갖는다.

AI 기반 정책 지원 도구 도입을 검토하는 한국의 상황에서 이 연구가 갖는 함의는 작지 않다. 정부와 지방자치단체가 복지 예산 시뮬레이션·수요 예측 등에 AI를 활용하려는 움직임이 가시화되는 가운데, LLM에 내재된 편향이 정책 권고안에 고스란히 흘러들 수 있다는 점은 제도 설계 단계에서 반드시 검토해야 할 변수다.

특히 고령화 속도가 OECD 최고 수준인 한국에서 연금 관련 예산 배분이 AI에 의해 과소 추정될 경우, 그 오차는 수조 원 규모의 정책 결정에 영향을 줄 수 있다.

한국 사회에 미치는 시사점

이 연구가 AI의 사회적 역할 자체를 부정하는 것은 아니다. 대규모 데이터를 바탕으로 한 추세 분석, 기존 정책의 사각지대 탐색, 다양한 예산 시나리오의 신속한 시뮬레이션 등에서 LLM은 실질적인 기여를 할 수 있다. 핵심은 편향의 존재를 인지한 상태에서 AI를 보조 도구로 활용하고, 최종 판단은 민주적 책임을 질 수 있는 인간 전문가가 내리는 구조를 갖추는 것이다.

LSE 연구팀이 논문에서 제시한 결론도 이 방향과 일치한다. 결국 이 연구는 'AI를 쓸 것인가 말 것인가'가 아니라 'AI를 어떤 조건 아래서 어떻게 쓸 것인가'를 물어야 한다는 점을 수치로 보여준 사례다. 각국 정부와 국제기구가 AI 거버넌스 프레임워크를 마련하는 속도를 AI 기술 확산 속도가 앞지르고 있는 지금, 이 질문에 대한 구체적인 답을 서두르지 않으면 편향은 정책 속으로 조용히 스며들 것이다.

FAQ

Q. LLM의 편향이 실제 정책 결정에 미치는 영향은 어느 정도인가?

A. 현재 대부분의 국가에서 LLM은 정책 결정의 최종 단계에 직접 투입되지 않는다. 그러나 예산 시뮬레이션, 수요 예측, 정책 옵션 초안 작성 등 보조 단계에서는 이미 활용이 시작되었다. LSE 연구팀의 실험 결과처럼 LLM이 연금을 실제 지출의 3분의 1로 과소 추정하고 주택을 4배로 과다 추정하는 경향이 있다면, 이를 검토 없이 반영할 경우 복지 수혜 대상자의 실질 급여 수준과 서비스 가용성에 영향을 줄 수 있다. 따라서 AI 보조 도구를 도입하는 기관은 반드시 전문가 검토 단계를 의무화하고, AI 출력값이 어떤 가정에 기반하는지를 추적할 수 있는 감사 체계를 갖추어야 한다.

Q. AI의 편향성을 완화하려면 어떤 조치가 필요한가?

A. 가장 근본적인 접근은 훈련 데이터의 다양성과 대표성을 높이는 것이다. 특정 언어권, 특정 연령대, 특정 사회경제적 집단에 편중된 데이터로 학습한 모델은 그 편중을 재생산한다. 기술적 조치와 함께 모델 출시 전 사회 정책 분야별 편향 검증을 표준 평가 항목으로 의무화하는 규제 프레임워크도 필요하다. 유럽연합이 AI법(AI Act)을 통해 고위험 AI 시스템에 투명성 요건을 부과한 것처럼, 한국도 공공 부문 AI 활용에 대한 편향 감사 기준을 법령 수준에서 명확히 할 필요가 있다.

Q. 한국의 정책 입안자들은 이 연구 결과를 어떻게 활용해야 하나?

A. 첫째, 복지 예산 시뮬레이션에 LLM을 활용할 경우 출력값을 OECD 등 국제기관의 참고 데이터와 반드시 대조하는 절차를 내부 지침으로 규정해야 한다. 둘째, AI가 제안한 배분 방식이 기존 실제 지출 구조와 얼마나 다른지를 명시적으로 보고하는 형식을 정착시켜야 한다. 셋째, 고령화 속도가 빠른 한국의 특성상 연금 분야 과소 배분 편향은 특히 민감하게 다루어야 하며, 이 분야만큼은 AI 출력값을 그대로 정책 근거로 삼는 관행을 제도적으로 차단해야 한다.