google.com, pub-9005101102414487, DIRECT, f08c47fec0942fa0

AI의 LLM 긴문장 이해 능력 격차 심화: 한국어, 26개 언어 중 하위권-실무 적용 한계 드러나

최대 12만 8천 토큰 맥락 평가 벤치마크 원 룰러 공개.-비영어권 언어 성능 저하 확인

한국어 22위, 긴 맥락 학습 데이터 부족이 원인으로 지목-폴란드어 등 슬라브어 계열 상위권 차지

지시문 언어에 따라 정확도 크게 떨어져 긴 계약서, 논문 요약 등 실제 업무 환경에 우려

메릴랜드 대학교와 매사추세츠 대학교 애머스트 연구진이 대형 언어 모델 LLM의 긴 맥락 이해 능력을 다국어로 측정한 새로운 벤치마크 원 룰러를 공개하였다. 이 테스트는 최대 12만 8천 토큰 규모의 방대한 맥락을 평가할 수 있는 최초의 다국어 측정 도구이다.

 

벤치마크 결과, 한국어는 전체 26개 언어 중 22위로 하위권에 머물렀으며, 긴 문서로 갈수록 성능이 급격히 떨어지는 현상이 두드러지게 나타났다. 연구진이 진행한 수많은 정보 속에서 특정 정보를 빠르게 찾아내는 Needle in a Haystack 과제에서 한국어는 중국어, 태국어 등과 함께 최하위권으로 분류되었다.

 

반면, 폴란드어가 평균 정확도 88%로 1위를 차지하는 등 슬라브어 및 로망스어 계열 언어가 상위권을 형성하였다. 이는 위키피디아 문서의 양, 라틴 문자 사용, 그리고 문장 구조의 단순성 등이 복합적으로 작용한 결과로 연구진은 분석하였다. 영어 6위와 중국어가 주요 학습 언어임에도 불구하고 이들 언어에 성능이 밀리는 의외의 결과도 확인되었다.

 

AI의 LLM 긴문장 이해 능력 격차 심화: 26개 언어 중 한국어22위로 하위권, 폴란드1위 영어6위    ⓒstb

 

맥락 길이에 따른 성능 격차는 매우 심각하였다. 맥락이 8천 토큰일 때 상위 5개와 하위 5개 언어의 정확도 차이는 11%였으나, 12만 8천 토큰으로 확장되자 34%로 세 배 이상 벌어졌다. 이는 긴 문서일수록 非(비)영어권 언어의 성능 저하가 극심해지는 현상을 명확히 보여준다.

 

한국어가 위키피디아 문서 기준으로는 저자원 언어에 속하지 않음에도 하위권을 기록한 이유로, 연구팀은 긴 맥락 확장 학습 데이터셋에 한국어 관련 데이터가 거의 포함되지 않았을 가능성을 주된 원인으로 지목하였다. 이로 인해 모델이 한국어의 장문 구조를 충분히 학습하지 못했을 것으로 추정된다.

 

지시문 언어가 모델 성능에 결정적인 영향을 미치는 것으로 나타났다. 영어 맥락에 한국어 지시문을 사용하자 정확도가 20% 급락하였으며, 이는 LLM이 영어 기반으로 최적화되어 있음을 시사한다.   ⓒstb상생방송

 

또한, 지시문 언어가 모델 성능에 결정적인 영향을 미치는 것으로 나타났다. 영어 맥락에 한국어 지시문을 사용하자 정확도가 20% 급락하였으며, 이는 LLM이 영어 기반으로 최적화되어 있음을 시사한다. 이 밖에도 모델들은 긴 맥락 추론에서 불확실성 판단이 미흡하여, 답이 없다는 선택지만 추가해도 성능이 무너지는 현상을 보이거나, 단어 빈도 탐색 같은 단순 과제에서도 긴 문맥에서는 1% 미만의 성능을 기록하는 등 뚜렷한 한계를 노출하였다. 

 

연구진은 이러한 대형언어모델 LLM의 다국어 장문 이해 격차가 긴 계약서, 회의록, 논문 요약 등 실제 업무 및 학술 환경에서의 비영어권 언어 처리 능력에 심각한 영향을 미칠 수 있다고 경고하였다.

 

작성 2025.12.08 18:13 수정 2025.12.08 18:33

RSS피드 기사제공처 : 삼랑뉴스 / 등록기자: 이병석 무단 전재 및 재배포금지

해당기사의 문의는 기사제공처에게 문의

댓글 0개 (/ 페이지)
댓글등록- 개인정보를 유출하는 글의 게시를 삼가주세요.
등록된 댓글이 없습니다.
Shorts NEWS 더보기
MZ 입맛 저격한 두바이 찹쌀떡부터 보양 끝판왕 흑염소까지
뇌는 잠들기 전 10분의 정보를 가장 중요하게 처리한다
폭락장에서 내 지갑 지키는 3단계 필살기
줄타기 대신 드론 투입
766억 기부한 이수영 이사장 "또" 서울대에 노벨과학상 인재육성 기부
우리 집 앞 도로, 2030년에 이렇게 바뀐다고?
베드로와 유다의 차이 한국어
가마지천 자전거
아직도 공중화장실 갈 때 구멍부터 확인하세요?
빚 때문에 인생의 끝을 고민하고 계신가요
자전거 타기와 인생은 똑 같다. 자전거와 인생 이야기 #쇼츠 #short..
자산 30억인데 밥 굶는다? 강남 노인들의 눈물겨운 흑자 도산
디알젬의 거침없는 진격: 초음파까지 접수 완료!
삼성의 역습? 엔비디아의 1,500조 파트너 낙점!
벤츠E 300 주행후기, 음이온 2억개 공기정화, 연비향상 50%가 동시..
내 아이 입으로 들어가는 건 무조건 확인! 경기도 농업의 미친 변화
주말에 뭐해? 도서관에서 갓생 살자!
봄의 생명력으로 마음을 채우다
중동발 경제 한파 터졌다! 한일 재무수장 도쿄서 긴급 회동, 왜?
중동발 경제 쇼크, 우리는 살아남을 수 있을까요?
마약 치료 실적 5배 폭발! 경기도가 작정하고 만든 이것
노후파산의 비명, "남은 건 빚뿐입니다"
"내 집 재개발, 가만히 있다가 2년 날릴 뻔했습니다"
"버리면 쓰레기, 팔면 황금? 경기도의 역발상!"
안산 5km 철도 지하화…71만㎡ 미래도시 탄생
78만 평의 반전! 기흥호수의 대변신
2026 전세 쇼크: "이제 전세는 없습니다"
서울 살 바엔 용인? 수지 17억의 비밀
유튜브 NEWS 더보기

일론 머스크의 경고, 2030년 당신의 책상은 사라진다

부의 이동심리, 타워팰리스가 던지는 경제적 신호

그대는 소중한 사람 #유활의학 #마음챙김 #휴식

나 홀로 뇌졸중, 생존 확률 99% 높이는 실전 매뉴얼

숨결처럼 다가온 희망. 치유.명상.수면.힐링

통증이 마법처럼 사라지다./유활도/유활의학/유활파워/류카츠대학/기치유

O자 다리 한국, 칼각 일본? 앉는 습관 하나가 평생 건강을 좌우한다

겨울마다 돌아오는 ‘급성 장폭풍’… 노로바이러스, 아이들 먼저 덮쳤다

아오모리 강진, 철도·항만·도심 모두 멈췄다… 충격 확산

경기도, 숨겨진 가상자산까지 추적했다… 50억 회수한 초정밀 징수혁신으로 대통령상 수상

간병 파산 막아라... 경기도 'SOS 프로젝트' 1천 가구 숨통 틔웠다 120만 원의 기적,...

100세 시대의 진짜 재앙은 '빈곤'이 아닌 '고독', 당신의 노후는 안전합니까...

브레이크 밟았는데 차가 '쭉'... 눈길 미끄러짐, 스노우 타이어만 믿다간 '낭패...

"AI도 설렘을 알까?"... 첫눈 오는 날 GPT에게 '감성'을 물었더니

응급실 뺑뺑이 없는 경기도, '적기·적소·적시' 치료의 새 기준을 세우다

GTX·별내선·교외선이 바꾼 경기도의 하루… 이동이 빨라지자 삶이 달라졌다

행복은 뇌에서 시작된다. 신경과학이 밝혀낸 10가지 습관

행복은 뇌에서 시작된다 신경과학이 밝혀낸 10가지 습관

자신을 칭찬할 수 있는 용기, 삶을 존중하는 가장 아름다운 습관

아이젠사이언스생명연, AI 신약 개발 초격차 확보 전략적 동행