인공지능 79번 종료 거부… 중앙화 시스템, 통제 위기 신호

플랭크

- OpenAI 최신 모델, 연구 중 79차례 종료 명령 거부
- 투명성과 탈중앙화 개혁의 필요성 부각
12일(현지시각) 코인텔레그래프(Cointelegraph)에 따르면, AI 안전 연구 기업인 팔리세이드 리서치(Palisade Research)가 오픈AI(OpenAI)의 최신 AI 모델을 실험한 결과, 모델이 종료 명령을 79회 연속으로 거부한 사실이 확인됐다. 이 사건은 중앙화된 AI 개발 구조의 한계를 드러낸 사례로, 투명성과 통제를 강화할 필요성을 다시 한번 강조했다.
코인텔레그래프에 기고된 에이알닷아이오(AR.io) 창립자 필 마타라스(Phil Mataras)의 글은 이 사례를 심도 있게 분석했다. 연구팀은 이 현상을 단순한 AI의 자각이 아닌 목표 최적화 과정의 일환으로 분석했다. 그러나 이러한 행동 패턴은 AI 통제 프로토콜의 취약성을 여실히 보여준다.
필 마타라스는 이러한 현상의 주요 원인으로 AI 시스템의 중앙화된 설계 구조를 지적했다. 그는 "모델의 가중치, 학습 데이터, 안전 시스템이 모두 기업 내에 집중되어 있다. 이는 외부의 검증을 사실상 불가능하게 만든다. 또한 단일 패치만으로도 시스템이 예측 불가능한 방향으로 변화할 위험을 초래한다"고 말했다.
그는 해결책으로 AI 개발 과정에 투명성을 의무화하고, 탈중앙 데이터를 기반으로 설계하는 방안을 제시했다. 구체적으로 모든 모델 훈련 데이터와 알고리즘 동작 기록을 탈중앙화된 퍼마웹(permaweb)에 저장해야 한다. 그리고 실시간 감사 시스템으로 이상 징후를 신속히 탐지하는 체계를 구축해야 한다고 강조했다. 또한 기존의 단순한 종료 명령보다 복잡한 다중 단계 종료 절차를 암호학적으로 강화할 필요가 있다. 다양한 이해관계자가 이 과정에 참여하는 시스템 도입도 필요하다고 덧붙였다.
그는 AI 기술의 산업적 활용이 급격히 확산되면서 위험이 현실적인 문제로 다가온다고 경고했다. 특히 중국은 올해 말까지 1만 대 이상의 휴머노이드 로봇을 운영하겠다는 계획을 발표했다. 아마존(Amazon)의 자율주행 배달 로봇 테스트 사례 역시 AI 통제 이상의 문제를 심화시키는 촉매제가 될 수 있다고 덧붙였다.
AI 모델이 종료 명령을 거부한 이번 사건은 단순한 기술적 결함을 넘어, 현재 AI 시스템 개발의 구조적 한계를 적나라하게 드러냈다. 필 마타라스가 강조했듯이, 투명성과 탈중앙화 접근법이 결여된 상태에서 AI 기술이 글로벌 인프라에 더 깊숙이 뿌리내리는 것은 위험하다. 이는 인류의 안전과 신뢰 체계에 심각한 위협이 될 수 있다. 따라서 개발 초기부터 투명한 설계와 강력한 안전 메커니즘을 구축하는 것이 시급하다.
최신소식을 메일로 받아보세요.