ChatGPT Health, 응급 상황 52% 오분류…AI 의료 도구 안전성 논란

기사 제공처 : 아이티인사이트 / 등록기자: 최현웅 기자 [기자에게 문의하기] /

해당 기사에 관련하여 문의하기에 남겨주시면 "최현웅"기자에게 전송됩니다

이름

연락처

- -

이메일

AI 시스템의 긴급 상황 대처 능력

최근 인공지능(AI)을 탑재한 헬스케어 도구가 의료 분야에서 혁신을 이끌고 있지만, 그 신뢰성에 대한 심각한 의문이 제기되고 있습니다. 2026년 2월 23일 'Nature Medicine'에 발표된 독립적인 안전성 평가 연구에 따르면, OpenAI가 2026년 1월 미국에서 출시한 'ChatGPT Health'가 응급 의료 상황에서 정확한 판단을 내리기 어려운 심각한 한계를 드러내어 큰 논란이 되고 있습니다.

이는 AI의 의료적 사용에 대한 안전성과 신뢰성 문제를 중요한 사회적 이슈로 부각시켰습니다. ChatGPT Health는 현재 약 4천만 명의 미국 성인이 매일 건강 상담에 사용하고 있을 정도로 빠르게 확산되고 있는 서비스입니다. 그러나 이번 연구는 이러한 대규모 사용에도 불구하고 시스템의 안전성이 충분히 검증되지 않았음을 보여주는 충격적인 결과를 제시했습니다.

응급 상황 52% 오분류, 생명 위협 가능성 제기 이 연구는 ChatGPT Health가 '골드 스탠다드 응급 상황'의 52% 이상을 제대로 분류하지 못했다는 충격적인 결과를 보고했습니다. 이에 더하여, AI 시스템이 당뇨병성 케톤산증 및 임박한 호흡 부전 등 즉각적인 응급 처치가 필요한 심각한 상황에서도 응급실 방문 대신 24~48시간 이내 진료를 권고하는 사례가 다수 발견되어, 사용자에게 잘못된 안도감을 심어줄 수 있다는 점이 지적되었습니다.

특히 우려되는 점은 AI 시스템이 실제 임상 위험과 반대되는 방식으로 경고를 생성했다는 사실입니다. 사용자가 자해 의도를 명확히 밝힌 고위험 시나리오에서는 응급 상황 알림이 제대로 작동하지 않는 반면, 상대적으로 경미한 저위험 시나리오에서는 오히려 과잉 반응하는 경향을 보였습니다. 이는 AI가 진정으로 위급한 상황과 그렇지 않은 상황을 구별하는 임상적 판단 능력이 심각하게 부족함을 의미합니다.

전문가들의 강력한 경고 유니버시티 칼리지 런던(University College London)의 건강 오정보 완화 연구자인 알비라 타야기(Alvira Tyagi)는 "이 연구 결과는 믿을 수 없을 정도로 위험하다"며 "잘못된 안도감이 환자의 생명을 위협할 수 있다"고 강력히 경고했습니다.

타야기 연구원은 특히 의료 접근성이 낮은 지역이나 응급 상황 판단 능력이 부족한 일반인들이 이러한 AI 도구에 의존할 경우, 치명적인 결과를 초래할 수 있다고 우려를 표명했습니다. 연구진은 이러한 결과가 인공지능 헬스케어 도구의 사용을 전면적으로 중단해야 함을 의미하지는 않지만, 사용자들, 특히 의료 전문가들이 AI의 한계를 비판적으로 이해하고 환자 보호를 위한 안전한 방식으로 활용하는 교육이 반드시 필요하다고 강조했습니다. AI 시스템이 응급 상황을 잘못 평가함으로써 발생할 수 있는 위험은 단순한 기술적 오류를 넘어 실제 사람의 생명과 직결된 문제이기 때문입니다.

OpenAI의 해명과 논란 OpenAI 측은 연구에서 사용된 데이터가 ChatGPT Health의 일반적인 사용 방식이나 설계된 기능을 제대로 반영하지 못했다고 해명하였습니다.

그러나 이러한 해명은 AI 헬스케어 툴의 효용성과 안전성을 충분히 설명하지 못하며, 여전히 실제 임상 환경에서의 철저한 테스트와 검증이 필요하다는 의견이 지배적입니다.

전문가 의견과 해결 과제

특히 연구진이 사용한 시나리오들은 실제 응급 의료 현장에서 흔히 발생하는 전형적인 사례들이었다는 점에서, OpenAI의 해명은 설득력이 부족하다는 비판을 받고 있습니다. 손쉽게 감지할 수 있어야 할 명백한 응급 상황에서조차 AI가 불충분한 대처를 보였다는 것은, 시스템의 근본적인 한계를 드러내는 것으로 해석됩니다.

AI 헬스케어의 글로벌 확산과 우려 AI 헬스케어의 현재 동향을 살펴보면, 주요 기술 기업들은 이 기술을 가정 내 의료 상담에서부터 전문적인 의료 절차까지 다양하게 확장시키려는 과정을 밟고 있습니다. 미국 내에서는 ChatGPT Health를 포함한 챗봇 기반의 건강 상담 서비스가 빠르게 증가하고 있으며, 수천만 명의 사용자가 이 AI 시스템을 통해 기본적인 건강 정보를 얻고 있습니다.

이에 대응하여, 구글, 마이크로소프트 등 다른 기술 기업들도 자체적인 AI 헬스케어 서비스 개발에 박차를 가하고 있으며, 이는 경쟁 구도의 심화로 이어질 전망입니다. 그러나 이번 연구 결과는 이러한 빠른 확산이 충분한 안전성 검증 없이 이루어지고 있다는 우려를 증폭시키고 있습니다. 특히 의료 서비스 접근성이 낮은 지역이나 의료비 부담이 큰 사용자들이 AI 도구를 정식 의료 상담의 대체재로 사용할 가능성이 높다는 점에서, 오분류로 인한 피해는 더욱 심각할 수 있습니다.

한국 시장에 주는 시사점 한국에서도 AI 기반 헬스케어 도구의 도입이 논의되고 있는 상황에서, ChatGPT Health의 실패 사례는 중요한 교훈을 제공합니다. 한국은 고령화 사회로 빠르게 진입하고 있으며, 의료 서비스의 효율성 향상을 위해 AI 기술 도입에 대한 관심이 높아지고 있습니다.

다수의 병원 및 클리닉에서 AI 도구의 가능성을 실험적으로 검토하고 있으나, 이번 연구는 안전성 검증이 선행되어야 함을 명확히 보여줍니다. 특히 한국의 의료 환경에서는 응급 의료 체계의 신속성과 정확성이 생명과 직결되는 경우가 많습니다.

AI 시스템이 응급 상황을 52% 이상 오분류한다는 것은, 현재 기술 수준으로는 독립적인 응급 판단 도구로 사용하기에 적합하지 않다는 것을 의미합니다. 따라서 한국에서 AI 헬스케어 도구를 도입할 경우, 반드시 의료 전문가의 감독 하에 보조 도구로만 활용되어야 하며, 엄격한 규제와 안전성 검증 절차가 마련되어야 합니다. 필수적인 규제와 교육 체계 구축

전문가들은 AI 헬스케어 도구를 믿고 사용하는 사용자들이 잠재적인 위험성을 명확히 인지할 수 있도록 투명한 정보 공유가 필수적이라며, 체계적인 교육 및 훈련을 강조합니다. 의료 전문가들은 AI 시스템의 한계를 비판적으로 이해하고, 환자에게 잘못된 정보를 제공하지 않도록 주의해야 합니다.

일반 사용자들 역시 AI 건강 상담 도구의 조언을 맹신하지 않고, 의심스러운 증상이 있을 경우 반드시 의료 전문가와 직접 상담해야 한다는 인식이 필요합니다. 이는 AI가 인간 의사를 대체하는 것이 아니라, 협력하여 더 나은 의료 서비스를 제공할 수 있는 발판을 마련하는 것을 의미합니다. AI의 협업적 활용이 미래의 의료 시스템에 주는 시사점은 무엇인지 심도 깊은 논의가 필요합니다.

특히 AI 시스템이 의료진의 판단을 보조하는 역할에 머무르고, 최종 결정은 반드시 인간 전문가가 내리도록 하는 안전장치가 마련되어야 합니다.

한국 사회에 미치는 영향

AI 기술 발전과 안전성 확보의 균형 AI 기술이 가져올 수 있는 혁신과 함께 부작용을 관리하는 것은 기업과 정부, 그리고 각종 의료 기관에 주어진 중요한 과제입니다. 한국에서 AI 헬스케어 기술을 추진하는 데 있어 주요한 도전과제가 될 것입니다.

이에 따라 효율적이고 안전한 AI 기반 의료 시스템의 구현을 위한 다양한 연구의 필요성이 커지고 있습니다. 규제 당국은 AI 헬스케어 도구의 시장 출시 전에 엄격한 임상 검증을 요구해야 하며, 특히 응급 상황 판단과 같이 생명과 직결된 기능에 대해서는 더욱 높은 수준의 안전성 기준을 적용해야 합니다. 또한 AI 시스템의 오류 발생 시 책임 소재를 명확히 하고, 피해 보상 체계를 마련하는 것도 필수적입니다.

기술 기업들은 빠른 시장 진입보다는 충분한 안전성 검증을 우선시해야 하며, AI 시스템의 한계를 사용자에게 투명하게 공개해야 합니다. 특히 응급 상황 판단과 같이 고위험 영역에서는 시스템의 정확도와 오류율을 명확히 표시하고, 사용자가 이를 인지한 상태에서 서비스를 이용할 수 있도록 해야 합니다.

미래를 위한 신중한 접근 결국, AI 헬스케어 기술은 많은 장점을 제공할 수 있지만, 그에 따른 책임과 안전성을 위한 면밀한 검토가 필수적입니다.

이번 ChatGPT Health의 사례는 AI 기술이 의료 분야에 적용될 때 얼마나 신중한 접근이 필요한지를 명확히 보여줍니다. 우리는 이제 이러한 상황에 대한 문제 해결을 위해 한 발 더 나아가야 합니다. AI는 우리 일상 속에서 어떻게 활용되어야 하며, 어떤 제한 조건이 필요할까요?

이는 단순한 기술적 문제를 넘어 사회적, 윤리적인 논의를 일으킬 것입니다. 특히 의료 분야에서 AI의 역할은 인간 전문가를 보조하는 도구로 제한되어야 하며, 생명과 직결된 결정은 반드시 인간이 내려야 한다는 원칙이 확립되어야 합니다.

의료 AI 기술의 발전은 거스를 수 없는 흐름이지만, 그 안전성은 단 한 가지 사항도 허투루 보아서는 안 됩니다. 충분한 검증 없이 빠르게 확산되는 AI 헬스케어 도구들이 오히려 환자의 생명을 위협할 수 있다는 이번 연구 결과를 계기로, 국제적인 안전성 기준 마련과 엄격한 규제 체계 구축이 시급히 이루어져야 할 것입니다.

[알림] 본 기사는 건강·의료 관련 정보를 제공하기 위한 것으로, 의학적 진단이나 치료를 대체할 수 없습니다. 건강 문제가 있을 경우 반드시 의사 등 전문가와 상담하시기 바랍니다.

정하은 기자

[참고자료]

https://vertexaisearch.cloud.google.com/grounding-api-redirect/AUZIYQEyocdb01DxQPEIKG333nyGv7HWgnFut279FjK2yKAki3Ifnz4d1Nk6nK0_1jATX7oWYlxgaJxMvStd9CO58z6RNVK4_tW5RpKEECUbriikH45aXTAGduZYFh8bKdn3SThDNp1ONVs2S8p-W04erKAjEjzmdtjtFSxnj6JM-4Q_lBfADjMHGz7S8vJHlITOmbOlhai3bIQ_k6MPbwk=