google.com, pub-9005101102414487, DIRECT, f08c47fec0942fa0

‘눈으로 보고, 글자로 계산하는’ 신개념 추론 방식으로 AGI에 한 발 더 다가선 연구

시각적 직관과 언어 논리를 결합한 AI의 신개념 추론 방식

ARC-AGI 난제를 푼 새로운 접근

작은 모델이 대형 AI 성능 앞서는 역전 현상까지 확인된 연구 결과

이미지=제미나이 생성, AI 사고 능력 검증

 

 

인공지능이 인간처럼 사고하려면 무엇이 필요한가를 둘러싼 논의는 오랫동안 이어져 왔다. 최근 홍콩중문대와 상하이 AI 연구기관 공동 연구팀이 그 해답에 한 걸음 더 다가섰다는 평가가 나온다. 연구팀은 시각 정보와 텍스트 정보를 단계별로 결합하는 새로운 방식으로 AI의 논리 추론 능력을 끌어올리는 데 성공했다. 그 실험 무대는 AI 사고 능력을 검증하는 대표 과제인 ARC-AGI였다.

 

ARC-AGI란 무엇인가?

 

ARC-AGI는 인공지능이 최소한의 예시를 통해 추상적인 규칙을 추론하고 일반화하는 능력을 측정하기 위해 2019년에 개발된 벤치마크입니다. '인간에게는 쉬우나 AI에게는 어려운' 과제를 통해 인공지능의 유동 지능(fluid intelligence), 즉 새로운 상황에 적응하고 문제를 해결하는 능력을 평가합니다. 이는 좁은 범위의 작업만 수행할 수 있는 기존 AI와 달리, 인간 수준의 인지 능력을 갖춘 범용 인공지능(AGI)의 가능성을 가늠하는 데 목적이 있습니다.

 

인간의 뇌는 일반 지능을 증명하는 유일한 존재 증거입니다. 뇌가 지닌 지능적 특성을 파악하는 것은 AI 벤치마킹에 중요한 방향입니다. 일반 지능과 좁은 지능을 구분하는 핵심 요소를 직접적으로 파악하기 때문입니다.

 

ARC-AGI는 2019년 프랑수아 숄레가 설계한 평가 체계로, 소수의 예시만으로 규칙을 파악한 뒤 이를 새로운 문제에 적용하는 과정을 묻는 과제입니다. 인간은 97% 이상 정답에 접근하지만 최신 AI 모델조차도 절반가량의 문제를 틀릴 만큼 난이도가 높았다. 그동안 대부분의 연구는 컬러 격자를 숫자 배열 형태로 변환해 언어모델이 읽도록 하는 방식을 사용해 왔다. 그러나 이는 인간이 시각적 패턴을 통해 직감적으로 접근하는 방식과 거리가 있어 규칙 탐지에 제약이 있었다.

 

시각 직관과 언어 논리를 결합한 신개념 추론 방식

 

연구팀은 먼저 단순한 시각 입력 방식으로 실험을 진행했으나 오히려 성능 하락이라는 역설적인 결과와 마주했다. AI는 이미지로 전체 구조는 인식하지만 개별 좌표의 색상을 정확히 구분하는 데 한계가 있었기 때문이다. 반면 숫자 배열은 특정 위치를 정확히 짚기는 쉽지만 패턴의 전체적 흐름을 놓치기 쉬웠다. 시각과 언어가 서로 다른 강점을 지닌 셈이다.

 

그 차이를 확인한 연구팀은 두 단계를 구분하는 방식의 ‘VLSR(Visual-Language Synergy Reasoning)’을 고안했다. 규칙을 찾는 과정에는 이미지 입력을 활용해 전체 구조를 직관적으로 파악하게 하고, 규칙을 실제로 적용해 변형 작업을 수행할 때는 숫자 리스트로 전환해 정확한 연산이 가능하도록 한 것이다. 말 그대로 ‘눈으로 보고, 글자로 계산하는’ 방식이다.

 

여기에서 한 걸음 더 나아간 ‘MSSC(Modality Switch Self-Correction)’는 자기 검증 단계에서도 입력 형태를 바꿔 오류를 발견하는 기법이다. 언어로 계산한 답안을 이미지로 변환해 예시들과 비교하면 기존 텍스트 기반 검토에서는 놓친 공간적 실수를 더 쉽게 잡아낼 수 있었다. GPT-4o의 경우 반복 검토에도 0.5점 오르는 데 그친 기존 방식과 달리, MSSC 적용 시 3.75점 상승이 확인되며 효과가 두드러졌다.

 

ARC-AGI 난제를 푼 새로운 접근

 

이 새로운 접근은 주요 AI 모델들의 ARC-AGI 성적을 고르게 끌어올렸다. 구글 Gemini-2.5-Pro는 7.25%포인트, OpenAI o4-mini는 4.5%포인트 상승했고, GPT-4o와 Qwen3-VL 등에서도 평균 4%포인트 이상 개선이 나타났다. 특히 주목할 점은 작은 규모의 모델이 대형 모델을 뛰어넘는 결과가 실제로 발생했다는 것이다. 연구팀이 시각·언어 역할을 분리한 소형 모델 Qwen3-8B를 학습시킨 결과, 정답률이 13.25%에 도달해 GPT-4o보다 5%포인트 높은 수치를 기록했다.

 

연구진은 이번 성과가 AI가 인간적 사고에 접근하는 데 필요한 핵심 단서를 제공한다고 설명한다. 인간이 시각으로 전체의 구조를 직감적으로 파악하고 언어적 사고로 세부 판단을 정교하게 다듬는 것처럼, 두 정보 체계를 조합하는 방식이 AI 추론 능력을 확장할 수 있다는 것이다. 단일 입력 방식에 의존하는 기존 접근이 놓친 사고 과정의 본질을 재조명한 셈이다.

 

이번 연구는 단순한 성능 개선을 넘어 ‘언어 모델 중심’으로 흐르던 AI 연구의 균형을 시각적 인지와 추론 과정 쪽으로 돌려놓았다는 점에서도 의미가 크다. 다양한 입력 양식을 유기적으로 결합하는 전략이 차세대 AI 발전의 핵심 축이 될 것이라는 전망도 힘을 얻고 있다.

 

작은 모델이 대형 AI 성능 앞서는 역전 현상까지 확인된 연구 결과

 

이번 연구는 이미지 기반 직관과 텍스트 기반 계산을 분리·결합하는 방식으로 AI의 논리 추론 수준을 실질적으로 끌어올렸다. 특히 소형 모델의 성능을 대형 모델보다 앞서게 만드는 결과가 확인되며 새로운 AI 학습 패러다임의 가능성을 보여준다.

 

인간의 사고방식을 모사하려면 단일 정보가 아닌 다양한 인지 방식을 통합적으로 활용해야 한다는 사실이 재확인됐다. 이 연구는 AI가 복잡한 문제를 해결하는 과정에서 어떤 방식으로 정보 구조를 처리해야 하는지 분명한 방향을 제시한 사례로 평가된다.

 

 

명인자 칼럼리스트 기자 88hagee@gmail.com
작성 2025.11.28 10:46 수정 2025.11.28 10:46

RSS피드 기사제공처 : AI지구백과저널 / 등록기자: 명인자 칼럼리스트 무단 전재 및 재배포금지

해당기사의 문의는 기사제공처에게 문의

댓글 0개 (/ 페이지)
댓글등록- 개인정보를 유출하는 글의 게시를 삼가주세요.
등록된 댓글이 없습니다.
Shorts NEWS 더보기
서울 살 바엔 용인? 수지 17억의 비밀
의사가 진료 중에 AI를 켠다?
벚꽃보다 찐한 설렘! 지금 일본은 분홍빛 매화 폭포 중
기름값 200달러? 중동 발 퍼펙트 스톰이 온다!
신학기 감염병 비상! "수두·볼거리" 주의보
2026 경기국제보트쇼의 화려한 개막
"1초라도 늦으면 끝장" 경기도 반도체 올케어 전격 가동!
엔비디아, 실적은 역대급인데 왜 주가는 폭락할까?
안성 동신산단, 반도체 소부장 거점 조성 본격화
서울 집값 폭락? 당신이 몰랐던 13%의 진실
대치동 은마아파트 화재 재건축 지연 논란까지 확산
미쳤다 서울 집값!” 1년 새 13% 폭등, 내 집 마련 꿈은 신기루인가..
몸짱 되려다 몸 망친다! SNS에서 산 그 약?, 사실은 독약!
왜 나만 매번 상처받을까?
"앱 노가다 끝!" 바쁜 현대인을 위한 삼성의 새로운 치트키
도심 한복판 ‘비밀의 숲’ 열렸다... 물향기수목원서 천연기념물·멸종위기..
의외로 모르는 임윤찬 숨겨진 레전드 Autumn Leaves
지휘자만 모르게 준비한 서프라이즈 이벤트
지휘자가 클래식 음악에 중요한 이유
트럼프의 관세 장벽이 무너졌다. (美 대법원 6:3 판결)
비아그라 먹었더니… 심장이 좋아진다고?
정부가 찍었다… 아주대 성균관대, 바이오 판 뒤집나
코스피 5000 돌파? 내 지갑은 꽁꽁!!
숲속에 온 듯, 마음이 편해지는 뉴에이지 음악 테라피
유명한 클래식명곡 베스트 100곡 모음, 모차르트,쇼팽,베토벤,바흐,리스..
한국인이 가장 사랑하는 클래식 1위 #라흐마니노프 #조성진
내귀에 익숙한 곡인데 제목이?? 클래식 명곡을 찾아보세요 #클래식 #pi..
익숙한 클래식 음악 20가지
유튜브 NEWS 더보기

안성 전원주택 부지 매매 워케이션 추천 안성 금광면 땅 매매 기반시설 완료

이제 우리가 위험한 진짜 이유는?

#이언주 #무편집 #속도만 #빠르게 #출처 #공개 #진실 #진실은이긴다 #이언주증거 #애국의열단 #진...

[아카 미군점령기편 ⑥] 미군정은 어떻게 이승만과 한민당을 지원했을까?

리박언주 제명 빼박 영상! 이언주의 리박스쿨 강연, 손효숙 (리박스쿨 대표)이 사회 봤다! 매불쇼 해명, 모...

천상의 복지 혜택이 지상의 일상으로 침투하는 은혜의 패키지 - 웨스트민스터 소요리문답으로 읽는 현대 사회(3...

올리고네트웍스–한화리조트, 여행 플랫폼 공동 개발 추진

성범죄가 아니다?앤드류 체포된 진짜 죄명은?

예수성화릴레이 그리기운동 참여. 예수성화연구원. CCBS방송

대한민국 국민이 노벨평화상 후보로 추천됐습니다!

절망의 자각을 넘어 찬란한 영광으로 초대하는 거룩한 강권 - 웨스트민스터 소요리문답으로 읽는 현대 사회(31...

네이버에 “통합 환급서비스란?” 검색해봤습니다… 상단이 이렇게 바뀌었습니다

한예종 2026 입학식 축하공연

그리스도라는 원천에 우리를 접붙이는 성령의 신비로운 이식 수술 - 웨스트민스터 소요리문답으로 읽는 현대 사회...

AI가 대신 설명한다… 네이버·ChatGPT·Gemini 실증 공개 (마술이 아닙니다)

웨이블런트 오션, 2026년 제트서프 아카데미 본격 운영

AI가 지출을 찾아주고, 게임처럼 보상까지…구독 관리 서비스 ‘SubCut’ 주목

54세 왕비가 입대한 진짜 이유, 남 일이 아냐

천상의 자산이 지상의 실존으로 입금되는 경이로운 통로 - 웨스트민스터 소요리문답으로 읽는 현대 사회(29)

AI가 내 말을 대신 보낸다 제미나이 권한 설정 점검 필요