18 October 2024
요즈음 IT 업계에서 가장 뜨거운 감자는 뭐니뭐니해도 생성형 인공지능입니다. 그 중 가장 잘 알려진 것은 Chat-GPT죠. 그런데 이를 개발한 오픈AI사(社)가 지난해 해킹을 당하고도 이를 외부에 공개하지 않은 것으로 드러났습니다. 오픈AI는 핵심 기술이 유출된 것은 아니라고 해명했으나 최근 중국발 해커들의 AI 기술 탈취 시도가 잇따르고 있어 AI 기업들의 보안 위협 우려가 커지고 있습니다.
오픈AI 내부 메시지 시스템 해킹으로 드러난 문제점
현지시간으로 지난 4일, 뉴욕 타임즈는 지난해 초 오픈AI의 내부 메시지 시스템에 해킹이 발생하여 관련 메시지가 유출된 사실을 보도했습니다. 해당 해커는 오픈AI 직원들이 최신 기술에 대해 토론하는 온라인 포럼에 접속해 세부 정보를 빼낸 것으로 알려졌지만, GPT를 구축하고 훈련하는 시스템에는 접속하지 못한 것으로 전해졌는데요. 오픈AI측은 바로 이런 이유로 CIRCIA(Cyber Incident Reporting for Critical Infrastructure Act of 2022)를 우회했습니다.
"국가 안보를 위협할 사건이 아닌 것으로 파악되었기 때문에" 사고를 감춰도 아무 문제가 없을 것이라고 판단했습니다. 오픈AI 측은 2023년 4월 임원진들 사이에서만 침해 사고가 있었다고 공지, 대외적으로는 기밀을 유지했습니다. 심지어는 미 연방수사국(FBI)과 중앙정보국(CIA)에도 신고하지 않았습니다. 고객이나 협력업체에 대한 정보를 도난 당하지 않았고, 해커가 외국 정부와는 관련 없는 개인이어서 국가 안보에 대한 위협으로 생각하지 않았기 때문이라는 게 오픈AI의 설명이죠.
Chat-GPT 사용자가 입력한 민감정보를 노리는 해커
사건이 발생한 이후 당시 오픈AI의 기술 프로그램 관리자였던 레오폴드 아셴브레너(Leopold Aschenbrenner)는 미래 인공지능 기술로 인해 피해가 발생하는 것을 막아야 한다는 생각에 임원진들에게 제안서를 발송했습니다.
뉴욕타임즈에 의하면 "회사가 중국 정부와 그 외 여러 해외 적대 세력들의 공격에 대비해 충분한 조치를 취하지 않고 있다"는 비판의 내용도 함께 있었다고 합니다. 실제로 오픈AI의 대표 인공지능 프로그램인 Chat-GPT는 사용자의 증가와 함께 학습 데이터 역시 빠르게 성장, 되먹임을 통해 점점 신뢰성을 향상시키고 있습니다.
이러다보니 사용자들은 Chat-GPT를 신뢰하고 점점 더 민감한 데이터나 중요한 데이터를 입력시키게 되는데요. 비단 민감 데이터를 떠나 데이터의 총량 자체도 상당할 것으로 예상됩니다. 문제는 개발사의 태도입니다. 데이터가 어떻게 수집되고, 어떻게 되먹임되며, 어떻게 모델이 데이터를 취급하는지에 대해서는 철저히 블랙박스 속에 숨겨두고 있습니다.
스타트업/최신 기술 전문 온라인 미디어 기업인 테크크런치(TechCrunch)는 "해킹 자체는 큰 문제가 아닌 것으로 보이지만, AI 회사가 해커의 집중적인 표적 중 하나가 됐다는 것을 상기시켜 준다"고 평하기도 했습니다. AI 데이터의 처리와 수집 과정이 불투명한 과정에서 본격적인 공격 목표가 된다는 것은 자칫하면 더 큰 사고로 이어질 수 있는 가능성이 열리게 되는 것입니다.
쌓여만 가는 대규모 민감 데이터, 규제와 관리 방안은?
이런 상황에서 오픈AI측이 단순히 "국가 안보와 직결되는 사항은 아니다"며 "고객 정보를 도난당하지 않았다"는 변명을 통해 은근슬쩍 넘어가는 것 자체는 큰 문제가 될 수 있습니다. 민감 데이터를 확실히 상당량 보유했을 것으로 추정되는데도 그 데이터에 대한 어떠한 컴플라이언스도, 거버넌스도 적용 받지 않고 있는 상황에서 사건을 은폐하기까지 한 것입니다.
뉴욕타임즈는 이 문제를 공박했습니다. 보도에서는 "AI 기술이 고도로 발전하면서 AI 기술 유출은 국가 안보에 위협이 될 수 있으며, 중국 관련 조직들이 해킹에 나설 수 있다"라고 말했죠. 실제로 중국 해커들은 지난해 5~6월 지나 러몬드 상무부 장관, 니콜라스 번스 주중 미국대사 등의 이메일 계정에 침입했고 국무부에서 이메일 약 6만 건을 다운로드 한 바 있습니다.
이어 지난해 7월에는 중국 해커 조직이 마이크로소프트(MS)의 클라우드 보안을 뚫고 미국 정부 기관을 포함한 약 25개 기관의 이메일 계정에 접근한 것이 알려지기도 했을 정도입니다.
거기다 문제는 또 있습니다. 제안서를 발송한 아셴브레너는 올해 초 해고당했다는겁니다. 조직 내부에 심각한 문제가 있다는거죠. 심지어 그의 제안은 완전히 파기당했죠. 오픈AI 측은 그가 보안성 제고를 위해 제안을 보낸 것과 해고는 별개로 다뤄졌다고 주장하며 인터뷰에서 "아셴브레너의 헌신적 태도에는 감사하고 있지만, 그가 오픈AI의 보안 상태에 대해 가지고 있는 견해에 동의하기는 힘들다. 해당 해킹 사건으로 불거진 문제들은 이미 여러 방면의 노력으로 해결한 상황"이라 주장하고 있습니다.
생성형 AI, 기술 발전 속도만큼 빠르게 커지는 보안 위협
하지만 미심쩍습니다. 아셴브레너는 한 팟캐스트에 출연해 오픈AI가 자신을 '정보 유출 혐의'로 해고했다고 했는데요. 여기서도 회사와 아셴브레너 측의 입장은 팽팽하게 갈리고 있는 상황입니다. 거기다 샘 올트만의 해고와 복귀 과정에서 있었던 오픈AI 내부의 내홍을 생각해본다면 이들의 인공지능 - 블랙박스 - 가 내부적으로 어떤 문제를 겪고 있는지 충분히 짐작할 수 있습니다.
당시 직원들의 요구에 의해 복직하긴 했으나, 임원진들이 샘 올트만을 해고했던 이유는 Chat-GPT 개발과 보안/안전 시스템 구축 과정에서 자기가 원하는 대로 개발 방향을 끌고 가기 위해 임원진들에게 정보를 제공하지 않거나, 거짓 정보를 제공, 혹은 한참 늦게야 정보를 제공하는 등 신뢰받을 수 없는 행동을 했기 때문입니다.
실제 보안 전문 외신 시큐리티위크(SecurityWeek)는 오픈AI 내부의 기업 문화에 대해 지적하며 "인공지능이라는 기술 자체를 어떤 식으로 바라봐야 하는가에 대해 의견이 일치되지 않았다"고 지적한 바 있습니다. 샘 올트만이 빨리 상품화를 시도하면서 도외시한 부분이 있었고, 이런 문제가 아셴브레너의 해고 과정에서 일정 부분 드러났다고도 볼 수 있습니다. 생성형 인공지능은 분명 매력적인 기술입니다.
하지만 겉으로 드러나는 이 매력 뒤에는 무엇이 있을지, 그 블랙박스에 대한 감독이 어떻게 될지 누구도 모르는 상태입니다. 대규모 데이터 집적과 민감 데이터의 수집, 그리고 거기에 보안 위협이 겹치면 초대형 시한폭탄으로 변모할 가능성이 있는 셈이죠. 거기다 오픈AI와 같이 시장을 선도하는 기업이 해킹 사고의 심각성을 자의적으로 판단해 1년 이상 당국의 강한 규제를 우회, 은폐 했었다는 사실이 우려 되는 부분입니다.
대규모 데이터 취급에 필수적인 내부, 외부의 안전장치들
생성형 AI가 아니라 지도학습 AI를 사용하는 eDiscovery는 자료의 수집 과정에서 적법하게 설정된 ESI 가이드라인을 준수해야 하고, 학습 과정에서도 상호 검증받은 전문 변호인단이 검토하는 등 어느 정도의 안전성을 보장하게됩니다.
하지만 이런 생성형 AI는 지금까지 각 사기업들이 너무 많은 권한을 가지고 있으며 제대로 관리조차 되지 않는다고 볼 수 있습니다. 인공지능에 갖춰져야 할 안전장치들에 대한 규정이나 표준, 거버넌스 시스템 등이 제대로 확립되지 않아 각 개발사를 믿을 수밖에 없는거죠. 데이터가 안전하다고 하면, 유출 정황이 있다 하더라도 믿을 수밖에 없게 됩니다. 실제로 오픈AI는 국가 안보에 위협이 되는 사건이 아니었다고 주장했고, 구체적인 증거가 없더라도 당국은 믿는 수밖에 없었죠.
실제로 지금까지 이런 빅테크 기업들은 KADOKAWA의 사건에서 드러났던 것처럼 무의미하게 여겨질 정도로 광범위하고 쓸데없는 부분까지의 사용자 정보를 추적, 수집했습니다. MicroSoft나 구글, META(舊 Facebook)는 이런 데이터를 모조리 모아 정제한 후 표적 광고에 사용했고, 실제 이런 수익 모델을 통해 엄청난 수익을 거두기까지 했습니다. 거기다 여론조작 등의 행위를 가했다는 의혹 역시 제기되고 있죠.
점점 더 많은 데이터가 몇몇 플랫폼으로 집중되는 상황 속에서 보다 투명한 데이터 관리와 검증의 절차와 규범이 확립되고 이를 통해 사용자들이 보다 안전한 환경에서 생성형 AI를 사용할 수 있도록 할 수 있도록 조속히 제도와 규정이 확립되어야 할 것입니다.
인텔렉추얼데이터의 eDiscovery 진행 시 표준화된 규정과 절차를 통해 기업의 민감 데이터를 취급하고 있습니다. 데이터 취급 단계에서 철저한 보안은 물론 내부 구성원에 대한 보안 교육과 훈련을 지속적으로 운영하고 외부 침입을 방지하는 시스템을 갖추고 있어 해킹과 정보 유출에 철저히 대비하고 있습니다. 신뢰할 수 있는 eDiscovery 서비스가 필요하다면 지금 바로 인텔렉추얼데이터의 전문가들과 상담 받아 보세요!