‘눈으로 보고, 글자로 계산하는’ 신개념 추론 방식으로 AGI에 한 발 더 다가선 연구

기사 제공처 : AI지구백과저널 / 등록기자: 명인자 칼럼리스트 기자 [기자에게 문의하기] 1 /

해당 기사에 관련하여 문의하기에 남겨주시면 "명인자 칼럼리스트"기자에게 전송됩니다

이름

연락처

- -

이메일

인공지능이 인간처럼 사고하려면 무엇이 필요한가를 둘러싼 논의는 오랫동안 이어져 왔다. 최근 홍콩중문대와 상하이 AI 연구기관 공동 연구팀이 그 해답에 한 걸음 더 다가섰다는 평가가 나온다. 연구팀은 시각 정보와 텍스트 정보를 단계별로 결합하는 새로운 방식으로 AI의 논리 추론 능력을 끌어올리는 데 성공했다. 그 실험 무대는 AI 사고 능력을 검증하는 대표 과제인 ARC-AGI였다.

ARC-AGI란 무엇인가?

ARC-AGI는 인공지능이 최소한의 예시를 통해 추상적인 규칙을 추론하고 일반화하는 능력을 측정하기 위해 2019년에 개발된 벤치마크입니다. '인간에게는 쉬우나 AI에게는 어려운' 과제를 통해 인공지능의 유동 지능(fluid intelligence), 즉 새로운 상황에 적응하고 문제를 해결하는 능력을 평가합니다. 이는 좁은 범위의 작업만 수행할 수 있는 기존 AI와 달리, 인간 수준의 인지 능력을 갖춘 범용 인공지능(AGI)의 가능성을 가늠하는 데 목적이 있습니다.

인간의 뇌는 일반 지능을 증명하는 유일한 존재 증거입니다. 뇌가 지닌 지능적 특성을 파악하는 것은 AI 벤치마킹에 중요한 방향입니다. 일반 지능과 좁은 지능을 구분하는 핵심 요소를 직접적으로 파악하기 때문입니다.

ARC-AGI는 2019년 프랑수아 숄레가 설계한 평가 체계로, 소수의 예시만으로 규칙을 파악한 뒤 이를 새로운 문제에 적용하는 과정을 묻는 과제입니다. 인간은 97% 이상 정답에 접근하지만 최신 AI 모델조차도 절반가량의 문제를 틀릴 만큼 난이도가 높았다. 그동안 대부분의 연구는 컬러 격자를 숫자 배열 형태로 변환해 언어모델이 읽도록 하는 방식을 사용해 왔다. 그러나 이는 인간이 시각적 패턴을 통해 직감적으로 접근하는 방식과 거리가 있어 규칙 탐지에 제약이 있었다.

시각 직관과 언어 논리를 결합한 신개념 추론 방식

연구팀은 먼저 단순한 시각 입력 방식으로 실험을 진행했으나 오히려 성능 하락이라는 역설적인 결과와 마주했다. AI는 이미지로 전체 구조는 인식하지만 개별 좌표의 색상을 정확히 구분하는 데 한계가 있었기 때문이다. 반면 숫자 배열은 특정 위치를 정확히 짚기는 쉽지만 패턴의 전체적 흐름을 놓치기 쉬웠다. 시각과 언어가 서로 다른 강점을 지닌 셈이다.

그 차이를 확인한 연구팀은 두 단계를 구분하는 방식의 ‘VLSR(Visual-Language Synergy Reasoning)’을 고안했다. 규칙을 찾는 과정에는 이미지 입력을 활용해 전체 구조를 직관적으로 파악하게 하고, 규칙을 실제로 적용해 변형 작업을 수행할 때는 숫자 리스트로 전환해 정확한 연산이 가능하도록 한 것이다. 말 그대로 ‘눈으로 보고, 글자로 계산하는’ 방식이다.

여기에서 한 걸음 더 나아간 ‘MSSC(Modality Switch Self-Correction)’는 자기 검증 단계에서도 입력 형태를 바꿔 오류를 발견하는 기법이다. 언어로 계산한 답안을 이미지로 변환해 예시들과 비교하면 기존 텍스트 기반 검토에서는 놓친 공간적 실수를 더 쉽게 잡아낼 수 있었다. GPT-4o의 경우 반복 검토에도 0.5점 오르는 데 그친 기존 방식과 달리, MSSC 적용 시 3.75점 상승이 확인되며 효과가 두드러졌다.

ARC-AGI 난제를 푼 새로운 접근

이 새로운 접근은 주요 AI 모델들의 ARC-AGI 성적을 고르게 끌어올렸다. 구글 Gemini-2.5-Pro는 7.25%포인트, OpenAI o4-mini는 4.5%포인트 상승했고, GPT-4o와 Qwen3-VL 등에서도 평균 4%포인트 이상 개선이 나타났다. 특히 주목할 점은 작은 규모의 모델이 대형 모델을 뛰어넘는 결과가 실제로 발생했다는 것이다. 연구팀이 시각·언어 역할을 분리한 소형 모델 Qwen3-8B를 학습시킨 결과, 정답률이 13.25%에 도달해 GPT-4o보다 5%포인트 높은 수치를 기록했다.

연구진은 이번 성과가 AI가 인간적 사고에 접근하는 데 필요한 핵심 단서를 제공한다고 설명한다. 인간이 시각으로 전체의 구조를 직감적으로 파악하고 언어적 사고로 세부 판단을 정교하게 다듬는 것처럼, 두 정보 체계를 조합하는 방식이 AI 추론 능력을 확장할 수 있다는 것이다. 단일 입력 방식에 의존하는 기존 접근이 놓친 사고 과정의 본질을 재조명한 셈이다.

이번 연구는 단순한 성능 개선을 넘어 ‘언어 모델 중심’으로 흐르던 AI 연구의 균형을 시각적 인지와 추론 과정 쪽으로 돌려놓았다는 점에서도 의미가 크다. 다양한 입력 양식을 유기적으로 결합하는 전략이 차세대 AI 발전의 핵심 축이 될 것이라는 전망도 힘을 얻고 있다.

작은 모델이 대형 AI 성능 앞서는 역전 현상까지 확인된 연구 결과

이번 연구는 이미지 기반 직관과 텍스트 기반 계산을 분리·결합하는 방식으로 AI의 논리 추론 수준을 실질적으로 끌어올렸다. 특히 소형 모델의 성능을 대형 모델보다 앞서게 만드는 결과가 확인되며 새로운 AI 학습 패러다임의 가능성을 보여준다.

인간의 사고방식을 모사하려면 단일 정보가 아닌 다양한 인지 방식을 통합적으로 활용해야 한다는 사실이 재확인됐다. 이 연구는 AI가 복잡한 문제를 해결하는 과정에서 어떤 방식으로 정보 구조를 처리해야 하는지 분명한 방향을 제시한 사례로 평가된다.