(금요아침)ChatGPT는 아는 문제

마이크로소프트가 투자한 OpenAI의 인공지능 챗봇(Chat-bot), ChatGPT에 대한 반응이 뜨겁다. 2022년 12월 공개된 후 2개월 만에 전세계 1억명이 사용했다. 이로 인해 Google의 모회사 ‘알파벳’은 코드레드(code red)를 발령해 비상회의를 소집하며 전임 CEO와 함께 머리를 맞대기까지 했다. 알파벳이 만들 수 없는 것을 마이크로소프트가 투자한 회사에서 내놨기 때문일까? 그렇지는 않을 것으로 생각한다. 그들은 세계에서 가장 많은 데이터를 흡수하는 검색엔진 Google의 주인이며, 수많은 인공지능 논문을 공개해 파란을 일으켰다. 2017년 이세돌 9단과 바둑 대결에서 세계에 충격을 안겨준 알파고(AlphaGO)도 구글의 딥마인드, 즉, 알파벳 것이다. 그리고 ChatGPT의 뿌리, 이후 이야기할 기술 ‘트랜스포머(Transformer)’ 논문도 그들이 발표한 것이다.

2023년 2월 현재, Google은 수 주내로 ChatGPT의 대항마를 내놓을 것으로 보인다. 구글과 마이크로소프트의 혁신적인 인공지능 챗봇 대결에 대해서는, 검색엔진 광고시장에 아쉬울 것 없는 마이크로소프트의 검색 시장 도전장과 검색엔진 조회수를 포기하더라도 화제성, 투자자 및 고객이탈 방지 시기를 놓칠 수 없는 구글의 결정으로 볼 수 있다. 결국 뛰어난 인공지능 챗봇이 검색을 일부 보완하는 역할을 하게 될 것은 자명해 보인다.

그런데 이러한 상황에 문제는 없는 것일까? 환경을 염두에 둔 과학자들이 에너지 생산과 소비 방식에 대하여 경고했던 것처럼, 인공지능 분야에도 역시 경고는 존재한다. ChatGPT 이름에 나타나는 기술명 GPT는 ‘Generative Pre-trained Transformer’의 약자다. 여기서 주목할 점은 말미의 ‘사전 학습된 트랜스포머(Pre-trained Transformer)’다.

트랜스포머를 최대한 단순화해서 표현하자면, 수 많은 문장을 통해 질문의 주요 단어와 의미를 파악하고, 답변에 등장하는 단어의 문장 위치별 확률을 계산한다. 즉, 어떤 특성을 갖는 단어들이 질문의 문장상 어느 위치에 사용되었 때, 답변 문장 내에 다른 단어가 무엇이 쓰이고 어디에 있을지 확률을 계산한다. 그런데 질문이 입력될 때마다 계산해서는 엄청난 시간이 소요된다. 그래서 많은 경우에 대해 이 확률을 계산해 놓는다. 이렇게 질문에 사용된 단어의 특성과 위치 별로 답할 문장의 구성 확률을 기억해두는 것이 트랜스포머의 ‘사전 학습(Pre-trained)’이고, 완성된 것을 ‘대형 언어 모델(Large Language Model)’이라 부른다. 참고로 질문 입력, 답변 출력의 관계에서 입력값에 대해 외국어를 출력하게 학습시키면 번역기가 된다.

그럼 문제는 무엇일까? 첫 번째 환경 문제다, 이러한 학습에는 대규모 데이터 학습이 필요하다. 학습이란, 데이터를 입력받은 컴퓨터가 수학적 계산을 세기도 힘들 정도로 진행하는 것을 의미한다. 이때 단순하게 표현한 ‘컴퓨터’는 그 자체의 숫자부터 전력 사용량과 냉각에 소비되는 에너지까지 환경에 유의미한 영향을 주는 수준이 될 수 있다. <주요 인간 행위의 탄소 발자국 비교(2019, Emma Strubell 등)> 연구에서는 약 2억1300만개의 매개변수를 갖는 트랜스포머가 만들어지기까지 배출되는 이산화탄소가 미국 자동차 5대의 평생 이산화탄소 생산량 284톤과 맞먹는다고 밝혔다. 이 트랜스포머란 한 번 완성되면 끝이 아니며 계속해서 학습을 요하고, 한 번에 완성되는 것도 아니므로 무시할 수 없는 수치이다.

두 번째 문제는 독과점(獨寡占, monopoly & oligopoly) 가능성이다. 앞서 살펴본 대로 학습을 가능케 하려면 그만한 연구 인력과 장비로 인해 높은 비용을 많은 시간과 함께 수차례 지불해야 한다. 뒤집어 말하면, 해당 기술의 결과물은 인류에 큰 영향을 미칠 수 있으면서도, 계속해서 엄청난 자본력을 보유한 기업의 전유물로 남을 가능성이 있다. 또한 특정 인공지능 상품을 사용하지 않는 곳이 도태되고 해당 인공지능 상품을 사용하는 것이 필수적이 되었을 때, 인공지능 기술 공급 시장이 경쟁적이지 않다면 독과점을 우려해야 한다. ‘시장’에서 이것은 당연한 우려다. ChatGPT는 오늘날 유료 서비스를 앞두고 있는데, 시작은 월 20 달러 수준으로 이야기 되었다. 부담없다고 여길 수 있지만, 초기의 저렴한 가격 책정이 미래 독과점의 우려를 덜어주는 경우는 없다.

물론 이러한 문제제기가 인공지능을 연구 및 사용해선 안 된다고 말하기 위한 것은 아니다. 다만, 영화 <터미네이터>의 스카이넷(Skynet)처럼, 인공지능이 무기를 활용하고 인간을 물리적으로 위협하는 순간까지 어떠한 문제도 없는 것은 아니라는 것을 알 필요가 있다. 인류는 에너지 사용과 그에 따른 환경문제에 대한 문제제기를 외면, 그리고 결국 닥쳐온 기후위기를 통해서 ‘문제제기가 있을 때 문제를 완화하려는 노력의 필요성’에 대해서 학습했거나, 학습하고 있다. 그렇다면 이번에는 문제제기가 될 때부터, 피해발생 최소화를 위한 노력을 선제적으로 할 수는 없을까? 이를 위해서 많은 사람들이 이런 문제점을 사전에 공유하고 개선하기 위해 직접 노력하거나, 국가에 문제해결을 요구하는 것이 필요하다.

예를 들어 공개 협업 프로젝트인 빅사이언스(BigScience)는 앞서 언급된 문제점을 해결하기 위해 1000여명의 학술 자원봉사자가 모인 프로젝트다. 이들은 모두가 접근해서 사용할 수 있고 유해하지 않은, ChatGPT 수준의 대형 언어 모델 블룸(Bloom)을 만들어 2022년 7월 공개하기도 했다. 눈에 띄는 문제제기이자 해결 노력으로 볼 수 있다.

혹자는 이렇게 말한다. “인공지능 연구 자체는 환경파괴를 직접적으로 발생시키지는 않지만, 인공지능 기술의 개발, 생산, 사용 등에 걸리는 에너지 소비와 자원 소비, 전기요금 등이 환경적 영향을 미칠 수 있습니다. 또한, 인공지능이 사용되는 산업 분야에서의 과적합, 불필요한 소비, 자원 낭비 등의 문제도 환경을 악화시킬 수 있습니다. 이를 막기 위해서는 인공지능 개발을 지향하는 것에 대한 책임성과 지속 가능한 사용 방안을 고려해야 합니다.”

눈치챘는가? 이 혹자는 바로 ChatGPT다. 스스로의 단점에 대한 문장도 학습해서 알고 답하고 있다. 그렇다면 그 피해를 고스란히 받을 수 있는 우리들도 알고 있어야 하지 않을까?

박성묵 GET-A Inc. 대표 webmaster@electimes.com 기자의 다른기사

상단영역

본문영역

(금요아침)ChatGPT는 아는 문제