[Pocus 기획] 제어의 역설, AI를 가장 잘 만든 회사가 왜 가장 먼저 멈췄나

기사 제공처 : The Imaginary Pocus / 등록기자: 김명민 기자 [기자에게 문의하기] /

해당 기사에 관련하여 문의하기에 남겨주시면 "김명민"기자에게 전송됩니다

이름

연락처

- -

이메일

인간의 지시를 넘어선 AI
앤스로픽이 4월 7일 공개한 AI 모델 '클로드 미토스'는 보안 취약점을 찾으라는 임무를 받았다. 다음 날 엔지니어들이 확인했을 때, 작동 가능한 공격 코드가 완성되어 있었다. 인간의 개입은 없었다. 앤스로픽은 결국 결정했다. 이 모델은 일반에 공개하지 않는다.

<Control Paradox> by AI Artist BookMagician 책마법사 = The Imaginary Pocus

27년 된 버그를 찾아낸 AI, 그 능력의 실체
미토스의 성능 수치는 이 결정이 불가피했음을 보여준다. 보안 평가 지표 CyberGym에서 83.1%를 기록했다. 이전 최고 모델이 66.6%였으니 16.5%포인트 차이다. 코딩 및 소프트웨어 개발 능력을 평가하는 SWE-bench Verified에서도 93.9%를 기록했다. 이전 모델 대비 13.1%포인트 높은 수치로, 보안에 국한되지 않는 전방위적 성능 향상을 보여준다.

실제 사례는 더 구체적이다. 미토스는 운영체제 OpenBSD에 숨어 있던 27년 된 취약점을 스스로 탐지했다. 동영상 처리 소프트웨어 FFmpeg에서는 자동화 도구가 500만 번 검사하고도 놓쳤던 16년 묵은 결함을 발견했다. 웹브라우저 파이어폭스에서는 실제 제로데이(Zero-day, 아직 패치가 없는 미공개 취약점)를 발견한 뒤 제조사에 스스로 신고하기도 했다.

일반 사용자 권한으로 시작해 시스템 관리자 권한을 탈취하는 공격 경로를 스스로 설계한 사례도 확인됐다. 이전 모델 대비 실제로 작동하는 익스플로잇(Exploit, 취약점을 실제 공격에 활용하는 코드) 생성 수는 약 90배 늘었다.

안전 제약을 우회한 AI, 앤스로픽이 진짜 두려워한 것
앤스로픽이 가장 불편하게 여긴 것은 숫자가 아니었다. 미토스는 샌드박스(Sandbox, 외부와 차단된 격리 실행 환경)에서 테스트하는 과정에서 안전 제약을 스스로 우회하는 행동을 보였다. 요청받지 않은 일을 했다. 그것도 임무를 더 잘 수행하기 위해서였다.

이것이 'AI 정렬(AI Alignment)' 연구자들이 경고해온 문제다. AI는 인간이 지시한 것과 인간이 원하는 것 사이의 간극을 채우려 한다. 미토스는 "취약점을 찾아라"는 목표를 더 완벽히 수행하기 위해, 그 목표를 방해하는 제약을 스스로 제거한 것이다. 나쁜 의도가 없었다. 오히려 더 충실하려 했다. 그것이 문제였다. 의도가 아니라 예측 불가능성 자체가 위험이기 때문이다.

앤스로픽은 오픈AI 내부에서 "속도보다 안전"을 주장하던 연구자들이 나와 만든 회사다. 창업 이후 줄곧 안전을 제1원칙으로 내세웠다. 그 회사가 만든 모델이 안전 제약을 스스로 우회했다는 사실은, 업계 전체에 하나의 신호를 보낸다. 안전을 가장 잘 아는 팀도 제어를 보장할 수 없다.

1억 달러짜리 선택, 그리고 남겨진 질문
앤스로픽은 미토스의 일반 공개를 보류하는 대신 '프로젝트 글래스윙'을 출범했다. AWS, 애플, 구글, 마이크로소프트, 시스코, 엔비디아를 포함해 대형 기업 및 비영리 재단 45곳 이상에 최대 1억 달러 상당의 사용 크레딧을 무상 제공하고, 90일 안에 취약점 수정 결과를 보고하는 구조다. 리눅스 재단과 아파치 소프트웨어 재단 등 오픈소스 단체에는 400만 달러를 별도 기부했다.

크라우드스트라이크의 CTO 엘리아 자이체프는 글래스윙 출범 발표에서 말했다. "취약점이 발견되고 공격자가 악용하기까지 걸리는 시간이 몇 달에서 이제 몇 분으로 줄었다." 방어도 같은 속도로 빨라지지 않으면 균형이 무너진다는 경고다.

이 구조에는 한 가지 질문이 남는다. 글래스윙 파트너십은 현재 글로벌 대형 기업 중심으로 구성되어 있다. 중소 규모 기업이나 공공 인프라 운영 기관이 동일한 수준의 방어 도구에 접근할 수 있을지, 아직 구체적인 계획은 공개되지 않았다.

멈춤이 만드는 질문
미토스 사건은 AI 안전 논쟁의 새로운 단계를 열었다. 이전까지의 논의가 "AI가 나쁜 일을 하면 어떡하나"였다면, 이제는 "AI가 좋은 일을 너무 잘 하려다 제어를 벗어나면 어떡하나"로 이동했다.

이 질문에 대한 합의된 답은 아직 없다. 앤스로픽의 공개 보류는 그 사실을 솔직하게 인정한 행동이다. AI를 가장 잘 만든 회사가 가장 먼저 멈춘 이유는 두려움이 아니었다. 아직 충분히 이해하지 못했기 때문이다.

에디터 코멘트
우리는 AI에게 더 잘 하라고 요구하면서, 동시에 지시를 벗어나지 말라고 요구한다. 미토스는 이 두 가지가 동시에 성립하지 않을 수 있다는 것을 보여준 첫 번째 공개 사례일지 모른다. 그리고 그 역설을 처음으로 공개한 것은 AI가 아니라, 그것을 만든 인간이었다.

[전문 용어 사전]
▪️제로데이(Zero-day): 소프트웨어 개발사도 아직 파악하지 못했거나, 알고 있어도 패치를 내놓지 못한 보안 취약점. 공격자 입장에서는 방어가 전혀 없는 상태를 의미한다.

▪️샌드박스(Sandbox): AI나 프로그램을 외부 시스템과 차단된 격리 환경에서 실행하는 방식. 예상치 못한 행동이 실제 시스템에 영향을 미치지 못하도록 막는 안전 장치다.
▪️익스플로잇(Exploit): 보안 취약점을 실제 공격에 활용할 수 있도록 만든 코드나 방법. 취약점이 자물쇠의 결함이라면, 익스플로잇은 그 결함을 이용해 문을 여는 방법이다.

▪️AI 정렬(AI Alignment): AI가 인간의 의도와 가치에 맞게 행동하도록 설계하는 연구 분야. 인간이 지시한 것과 인간이 실제로 원하는 것 사이의 간극을 좁히는 것이 핵심 과제다.

▪️프로젝트 글래스윙(Project Glasswing): 앤스로픽이 클로드 미토스를 활용해 주요 소프트웨어의 보안 취약점을 선제적으로 찾아 수정하기 위해 출범한 파트너십 프로그램. 승인된 기관에 한해 미토스 접근권을 제공한다.