로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

AI 아트 인사이트

동영상 생성 AI ‘Sora’가 던진 숙제

김민지 | 391호 (2024년 4월 Issue 2)
Article at a Glance

2024년 2월 오픈AI가 출시한 텍스트 기반 영상 생성 모델(text-to-video model) ‘소라(Sora)’는 챗GPT 출시 당시와 맞먹을 정도로 뜨거운 반응을 일으켰다. 소라는 단순히 고품질 비디오를 생산해주는 제품 정도가 아니라 물리적 세계를 이해하고 현실을 시뮬레이션할 수 있는 AI의 출현을 상징한다. 이는 범용인공지능(AGI)의 실현을 향한 하나의 이정표이자 발판이기도 하다. 이런 AI 기술 퀀텀점프의 초입에서 인간 아티스트의 존재 의의를 증명하려면 인간과 AI의 차이를 계속해서 고민해야 한다. AI는 창작 행위를 단순화하고 ‘창의성의 표준화’를 시도한다는 점에서 인간과 예술을 접근하는 방식이 근본적으로 다르다. 이런 차이에 주목하고 작가 정신의 훼손을 막으려면 작가들 스스로도 주체성을 잃지 않고 각자의 내러티브가 응축된 이야기들을 표현해야 하며 AI의 저작권 세탁 시도에도 경각심을 가지고 행동해야 한다.



“게임이 시작됐다(game on).”

비디오 생성형 인공지능(AI) 분야의 대표 주자인 미국 스타트업 런웨이(Runway)의 CEO 크리스토발 발렌주엘라가 멀티 모달1 AI 모델 ‘소라(Sora)’ 출시 직후 X(옛 트위터)에 남긴 말이다. 2018년 미국 뉴욕대 인터랙티브 텔레커뮤니케이션 프로그램 졸업생들이 공동 창업한 런웨이는 지난해 구글·엔비디아·세일즈포스 등으로부터 1억4100만 달러(약 1883억 원) 규모의 투자를 받고 AI 동영상 서비스를 고도화하는 중이다. 지난 2월 15일(현지 시간) 챗GPT 개발사 오픈AI가 출시한 텍스트 기반 영상 생성 모델(text-to-video model) 소라는 비디오 생성형 AI 경쟁이 본격화된 2024년 단연코 런웨이가 예의주시해야 할 대상이다. 소라라는 이름은 ‘무한한 창의성’을 연상케 하고자 하늘(空)을 뜻하는 일본어에서 따왔다.

소라는 명령어 프롬프트를 입력하면 최대 1920×1080픽셀의 해상도로 1분 정도 길이의 고품질 영상을 뚝딱 만들어 내며 충격과 경탄, 우려와 기대를 동시에 자아냈다. 시장의 반응은 마치 챗GPT가 처음 출시됐을 당시를 연상케 할 정도로 뜨거웠다. 이처럼 AI로 동영상을 생성하려면 많은 데이터를 처리하기 위한 고성능 그래픽처리장치(GPU)와 고대역폭메모리(HBM) 같은 메모리 반도체가 필요하다. 최근 AI 반도체 생산을 위해 7조 달러(약 9300조 원) 규모의 투자 유치에 나선 오픈AI의 행보에 대해서 여러 논란이 잇따르고 있지만 적어도 이 회사가 사람들의 마음을 사로잡는 서비스가 무엇인지는 기민하게 파악하고 있는 듯하다.

20240408_133850


소라, 현실을 시뮬레이션하다

소라는 ‘디퓨전 트랜스포머(Diffusion Transformer)’ 모델이다. 디퓨전 모델은 기계 학습을 통해 이미지에 노이즈를 넣어 이를 제거하는 과정을 수차례 거듭하면서 영상을 변형해 원본 이미지를 만든다. 노이즈 모델링을 통해 고품질 영상을 생성하는 것이다. 또한 트랜스포머는 단어 사이의 맥락을 유추해 전체 문장을 이해하듯 순차적인 데이터 간 관계를 추적해 의미를 학습하는 신경망이다. 트랜스포머를 기반으로 하는 챗GPT가 텍스트 토큰에서 패턴을 찾는 것과 달리 소라는 시간과 공간의 작은 조각들이자 이미지와 비디오의 작은 데이터 단위 모음인 ‘시공간 패치(Spacetime Patch)’를 해석한다. 이러한 소라의 핵심 기술은 구글 딥마인드가 고안해 2021년 논문으로 소개한 ‘비전 트랜스포머(Vision Transformer, ViT)’ 아키텍처를 고도화한 것이다.

오픈AI는 소라의 특장점에 관해 “언어에 대한 깊은 이해를 갖고 있어 프롬프트를 정확하게 해석하고 ‘생생한 감정을 표현하는 매력적인 캐릭터’를 생성할 수 있다”라고 설명했다. 소라에 ‘사이버펑크 환경에서 로봇의 삶에 대한 이야기’라고 입력하면 로봇이 주인공으로 등장하는 SF 영화의 한 장면 같은 영상이 튀어나온다. 또한 ‘다른 스타일의 아름다운 작품들이 가득한 아트 갤러리 투어’라는 지시어를 입력하면 20초 분량의 갤러리 공간 영상이 생성된다. 누구나 자신이 상상하는 콘셉트의 공간을 자유롭게 영상으로 구현할 수 있게 된 것이다. 그뿐만 아니라 소라를 활용하면 유튜브나 틱톡 등의 숏폼 콘텐츠와 영화 티저, 방송, 광고, 디지털 아트 등 다양한 매체에 최적화된 맞춤형 AI 영상도 제작할 수 있다. 실제 오픈AI는 틱톡 공식 계정을 열고 소라로 제작한 숏폼 콘텐츠를 올려 틱톡커들에게 충격을 안기기도 했다.

현재 오픈AI는 시각 예술가, 디자이너, 영화 제작자 등 제한된 창작자에게만 접근을 허용한 상태다. 크리에이티브 전문가에게 가장 도움이 되는 모델로 발전시키려면 당사자들에게 구체적인 피드백을 받아야 하기 때문이다. 실제 소라 출시 이후 주변의 영상 분야 아티스트들의 반응을 보니 장면과 장면 사이의 어색한 조합 등 추가 작업이 필요하다고 평가했다. 아직까지는 AI를 사용했어도 숙련된 미감과 안목을 지닌 전문가들이 디렉터로서 역할을 하며 완성도를 높이는 후반 작업을 해야 한다는 얘기다. 하지만 이런 한계에도 불구하고 광고 및 마케팅 목적의 영상 제작 외주를 담당하는 중소기업이나 스타트업에서는 비용 절감을 위해 생성형 AI를 활용하는 빈도가 늘어날 수 있다. 이미 미드저니 등 이미지 생성형 AI를 회사 업무에 도입하는 기업들이 늘고 있다. 소라의 구독료가 얼마로 책정될지는 모르나 향후 일정 비용을 지불하고 이 서비스를 사용하기 원하는 기업들이 많아질 것은 자명하다.

20240408_140513

물론 상용화에 앞서 오픈AI가 먼저 해결해야 할 과제도 있다. 오픈AI는 소라 생성 영상물에 ‘콘텐츠 출처 및 진위 확인을 위한 연합(Coalition for Content Provenance and Authenticity, C2PA)’이 개발한 개방형 기술 표준의 워터마크를 부착하려 하고 있다. C2PA는 2021년 디지털 가짜 뉴스 퇴치를 목적으로 BBC와 마이크로소프트가 주도해서 설립한 ‘프로젝트 오리진(Project Origin)’과 ‘콘텐츠 진위 이니셔티브(Content Authenticity Initiative, CAI)’가 협력해 설립한 연합으로 디지털 콘텐츠의 출처와 진위 및 생성형 AI 사용 여부를 표시하는 표준을 개발했다. 오픈AI 역시 이 표준을 따른다는 계획이다. 또한 회사는 AI로 만든 영상 및 이미지 합성 조작물인 딥페이크(Deepfake) 악용을 막기 위해 AI 시스템의 결함과 취약점을 찾는 안전성 평가도 실시할 것으로 보인다. 이런 안전 조치가 갖춰진 뒤에야 본격적으로 상용화가 가능해질 전망이다.

소라의 등장은 향후 AI 시장 경쟁 시대에 우리가 목격할 놀라운 기술 진보의 서막에 불과하다. 실제로 소라는 단지 AI로 생생한 고품질 비디오 영상을 효율적으로 생산해주는 제품 차원에 그치지 않는다. 오픈AI는 소라 출시와 관련해 “움직이는 물리적 세계를 이해하고 시뮬레이션하는 법을 학습한 AI를 개발했다”고 발표했다. 그리고 현실 세계를 이해하고 시뮬레이션하는 모델의 기반을 갖추는 것이 중요한 이유로 ‘범용인공지능(AGI, Artificial General Intelligence)’의 실현을 언급했다. 소라가 AGI로 향하는 이정표임을 공언한 셈이다.

최근 실리콘밸리 개발자들과 기업가들이 AI 개발을 지지하는 ‘효과적 가속주의(Effective Accelerationism)’ 진영과 AI가 장차 인류에 파멸을 초래할 것이라는 부정적인 입장을 견지하는 ‘효과적 이타주의(Effective Altruism)’ 진영으로 나뉘고 있는 가운데2 샘 올트먼의 지금까지 행보를 보면 그가 전자에 속한다는 것을 유추할 수 있다. AI 낙관론자는 호황을 뜻하는 ‘붐(boom)’에서 비롯한 ‘부머(boomer, 개발론자)’로, 비관론자는 불행한 결말을 의미하는 ‘둠(doom)’에서 비롯한 ‘두머(doomer, 파멸론자)’로 불리는데 올트먼은 부머에 가깝다. 실제로 그는 공개적으로 AGI의 도래를 추구한다고 밝히기도 했다. 소라의 출시 역시 AGI 실현을 향한 발판이라고 보는 게 타당하다.


20240408_140528


창의성의 표준화라는 역설

AI 낙관론자인 올트먼은 AI 아트와 관련해서도 기술이 예술의 본질을 변화시킬 것이나 인간 예술가들의 역할은 항상 중요하고 AI가 인간과의 연결을 더욱 갈망하게 만들 것이라 내다본다. 그리고 이런 의견을 증명하기 위해 오픈AI는 AI를 도구 삼아 새로운 창의성의 지평을 넓혀줄 실제 아티스트를 찾고 이들과 함께 실험을 이어 가고 있다. 올해 1월 오픈AI는 젊은 예술가들에게 작품 활동을 할 수 있는 공간을 제공하는 ‘아티스트 레지던시(입주 작가)’ 프로그램을 시작했는데 첫 입주 작가로 MIT 미디어랩을 졸업한 미국 샌프란시스코 출신의 예술가 알렉산더 레벤이 선정됐다. 레벤은 3개월간 오픈AI에 머물며 AI 아트 작업을 진행하게 된다. 그는 AI가 새로운 형태의 창의성을 촉진할 것이란 오픈AI의 기대에 부응해 여러 시도를 하고 있으며 최근에는 ‘크로커 아트 뮤지엄(The Crocker Art Museum)’에서 개인전 ‘AI Am I?’를 열어 ‘인간과 기계의 협업(human-machine collaboration)’을 강조했다. 레벤의 전시는 캔버스와 페인트 안료도 지금의 AI와 다를 바 없이 한때는 새로운 기술이었다는 사실을 상기시킨다. 현재까지 대다수의 생성형 AI 아트 전시가 디지털 아트에 국한되는 양상을 보였다면 레벤의 전시는 조각과 설치, 회화 등 인간과 기계의 협업의 결과가 더 다채로운 형태로 나타날 수 있다는 걸 보여줬다.

이렇게 AGI 시대의 도래를 염두에 두고 예술계도 AI가 대체할 수 없는 역량이 무엇인지, 인간과 AI의 차이는 어디에서 비롯되는지 지속적으로 발견해야 한다. 발렌주엘라 CEO는 AI와 예술에 관한 영감 넘치는 글을 자주 남기는데 최근에는 인간과 AI의 가장 중요한 차이는 ‘예술에 대한 접근 방식’에서 나온다고 말한 바 있다.3 그는 AI가 ‘창작 행위를 지나치게 단순화하는 경향(a tendency to oversimplify the creative act)’이 있다고 강조했다. 많은 AI 도구가 예술가보다 공학자를 위해 설계됐으며, 그저 여러 그림을 찍어내 ‘창의성을 표준화하는 시도(Attempting to standardize creativity)’는 창작 행위를 손쉬운 하나의 결론으로 치환한다는 점에서 기존 예술에 대한 접근과 근본적인 차이가 있다는 것이다. 이런 관점에서 볼 때 AI의 예술은 ‘공식에 입각한 예술(formulaic art)’인데 발렌주엘라는 창작이라는 행위는 결코 최적화를 위한 공식 하나로 요약될 수 없다고 말한다.

발렌주엘라는 새로운 기술이 창작 행위를 단순화하지 않고 확장하기 위해서는 네 가지 요소가 필요하다며 그 요소로 경이로움(wonder), 발견(discovery), 통제(control), 피드백(feedback)을 꼽았다. 그리고 AI가 진정 경이로움과 발견을 촉진하는 창조적 도구로 발전하기 위해서는 “연구를 하는 아티스트가 더 필요하다”고 덧붙였다. 이런 시각은 AI를 창조적인 도구로 활용하고자 하는 런웨이라는 기업의 대표로서 어떠한 철학을 갖고 있는지를 보여준다. 어쩌면 이런 철학이 소라의 등장에도 불구하고 이런 기업의 한 끗 차이를 만들어내고 시장의 지속적인 관심을 유도하는 경쟁력으로 작용하게 될지도 모른다.


AI, 인간의 이야기를 표현하는 매개체

이렇게 AI와 인간 예술의 차이를 논하고 AI는 창작의 도구일 뿐이라는 낙관론에도 불구하고 소라는 그 등장만으로 영화, 방송, 모션 그래픽 등 영상 분야 종사자들에게 큰 파장을 일으켰다. 물론 소라가 공개한 영상만으로 비디오 생성형 AI에 대한 과도한 공포를 가지기는 이르며 오픈AI가 투자금을 모으기 위해 고품질 버전을 서둘러 선보인 것이란 견해도 있다. 하지만 기술 발전 속도를 감안하면 이른 시일 안에 애니메이터, 콘셉트 아티스트 등 영상 콘텐츠 분야에서 AI로 인한 일자리 대체 문제가 떠오를 것임은 어렵지 않게 예상할 수 있다. 그렇다면 당사자인 아티스트들의 반응은 어떠할까.

미국과 한국을 기반으로 활동 중인 영상 디자이너이자 3D 아티스트 김그륜 작가는 올해 1월 ‘라스트 오브 어스(The Last of Us)’ 메인타이틀 작업으로 에미상을 수상한 인물이다. 3D 영상 분야 최전선에 있는 아티스트라고 해도 과언이 아니다. AI 기술을 발 빠르게 습득해 인간 예술가가 잘할 수 있는 부분을 찾아온 그는 소라의 등장 직후 자신의 유튜브 채널에서 “소라가 실제 촬영인지 스튜디오 제작용 영상인지 구분도 안 될 정도의 고품질 영상을 만들어내는 괴물”이라고까지 말하며 충격을 표현했다. 영상을 만드는 사람들 간에도 AI를 얼마나 잘 활용하는지에 따른 격차가 생길 것이며 2D 영상 분야는 당장 올해부터, 3D 영상은 약간의 시간을 두고 대체될 가능성이 있다고 내다봤다.

20240408_140539


이런 상황에서 AI 아티스트의 역할을 두고 김 작가는 “이제 창작자가 좋은 아이디어를 낼 수 있는 기획자이자 전체 숲을 바라보는 지휘자가 돼야 한다”고 강조했다. 그리고 “기술의 제약 없이 자유롭게 상상력을 시각화할 수 있는 시대가 다가오고 있다”면서 “이제 진짜 내가 무엇을 만들고 싶은지 원초적인 질문을 하며 자신의 생각을 단단하게 만들고, 더 의미 있는 메시지를 찾아 나가야 한다”고도 설명했다.

AI 아티스트이자 『된다! 미드저니(1분 만에 만드는 생성 AI 이미지)』의 윤석관 작가는 AI에 대체되지 않고 인간 창작자로서의 정체성을 유지하며 살아가고자 KEEPKWAN(킵콴)이라는 이름으로 활동하고 있는 인물이다. SM Culture and Contents 사업전략 담당으로 재직할 당시 중장기 전략 사업 아이템을 발굴하던 중 AI와 만나 크리에이터 활동을 시작하게 된 그는 AI를 두고 “시간을 생성해 주는 도구이자 나의 이야기를 현실로 가져와 주는 협업 파트너”라고 묘사한다. 그에 따르면 “작가는 자신만의 이야기를 표현하는 존재”다. 소라의 출시 이후 윤 작가는 “생성형 AI 기술이 발전을 거듭할수록 작품을 만드는 노력과 이야기의 가치를 잃어버릴 수 있다는 점은 우려스럽다”라고 말했다. 창작물을 만드는 작업이 단순히 프롬프트를 입력해 결과물을 산출하는 과정이 아니라 AI에 나의 이야기를 들려주면서 함께 그것을 현실로 가져오는 방법을 찾아가는 과정이라고 강조한 것이다. 그는 이런 철학을 바탕으로 AI를 엔터테인먼트에서 자신의 이야기를 하는 도구로 활용해 화보, 영화, 뮤직비디오, 애니메이션 등의 콘텐츠를 창작하고 있으며 독특한 이력을 기반으로 디즈니, 라인, 제일기획, 크래프톤 등 국내외 유수 기업들과 생성형 AI 프로젝트 협업을 진행하고 있다.

이처럼 소라가 충분히 놀라운 기술이란 점은 분명하고 영상 생성 역시 지금까지 AI 기술의 진보가 그래온 것처럼 인간 창작자에 더 많은 시간을 생성해 줄 것으로 기대된다. 하지만 결국 예술을 이끌어가는 것은 인간의 주체성이라는 게 작가들의 공통적인 목소리다. ‘인간의 이야기’를 잃어버리지 말아야 하며 사람들 각자의 내러티브가 응축된 이야기들이 생성형 AI를 통해 표현되도록 해야 한다. 이런 작가들의 이야기를 경청하다 보면 AI가 진정한 인간다움과 살아 있는 이야기를 건져 올려 줄 수 있다는 가능성을 엿볼 수 있다.


저작권 세탁에 맞서 ‘작가 정신’을 지키려면

이런 가능성에도 불구하고 AI가 기존 예술가의 일자리를 빼앗고 타인의 작품을 도둑질한 데이터로 창작해 저작권을 침해한다는 거센 비판도 끊이지 않고 있다. 2022년 2월 미드저니가 이미지 생성 AI 훈련에 사용한 작품을 창작한 1만6000여 명의 예술가 목록이 유출되는 사태가 있었다. 데이비드 홀츠 미드저니 CEO가 디스코드 서버와 구글 닥스에 미드저니의 성능을 자랑하기 위해 이 목록을 대외적으로 공표한 것이다. 이를 계기로 저작권 침해 문제가 수면 위로 떠오르면서 2024년에는 미드저니 아티스트 목록에 포함된 데미이언 허스트, 아니시 카푸어 등 현대미술계의 유명한 아티스트들이 미드저니, 스태빌리티AI, 런웨이, 데비안아트 등을 상대로 한 집단 소송에 참여 의사를 밝히고 변호사와 접촉 중인 것이 알려졌다. 거장들까지 나서서 이미지 생성 AI가 저작권 세탁을 위한 도구로 악용되고 있으며 예술가들에게 정당한 비용을 지불하지 않은 채 예술의 혜택을 사람들에게 판매하고 있는 데 문제를 제기하고 있는 것이다.

창작에는 불가피한 고통이 따른다. ‘작가 정신’을 지닌 아티스트들은 정말 한 땀 한 땀 작품을 완성하기 위해 치열한 시간을 보낸다. 창작의 과정에 무수한 고민이 잇따르고 작업이 의도대로 풀리지 않는 슬럼프의 시간을 보내는 등 노고가 클 수밖에 없다. 그런데 프롬프트 몇 개를 입력해 바로 원하는 결과물을 산출하는 것은 이 창작의 과정을 지나치게 단순화하는 것이다. 하지만 창의성은 그렇게 쉽게 표준화될 수 없으며 예술은 본질적으로 숙련의 시간을 통해 미를 구현하는 작업이기 때문에 작가의 응축된 이야기를 빼놓고는 말할 수 없다. 창작자의 동의와 허가 없이 상업용 AI 서비스 출시를 위해 작품을 무단 학습시키는 기업은 더 많은 저작권 침해, 작가 정체성 훼손 등 논란에 휩싸일 것이다. 오픈AI 역시 이번 소라의 데이터 학습 출처에 관련한 블랙박스를 공개하지 않았다. 빅테크가 여전히 어떤 데이터를 생성형 AI 훈련에 사용하고 있는지 공개할 의사가 없음을 보여준다. 소라는 앞으로 마주할 무수한 AI 기술의 퀀텀점프(Quantum Jump, 비약적 성장)의 시작인 동시에 이를 둘러싼 갈등과 전쟁의 서막일지도 모른다.
  • 김민지 | Art&Tech 칼럼니스트

    필자는 서울대에서 미학을 전공하고 KAIST 문술미래전략대학원에서 과학저널리즘 석사 학위를 받았다. 15년간 예술 관련 강의 및 진행 활동을 해왔으며 미래 교육 및 문화예술 콘텐츠 스타트업에서 근무했고, 경제방송에서 ‘김민지의 Art & Tech’ 앵커로 활동한 바 있다. 저서로는 『NFT Art 그 무엇으로도 대체 불가능한 예술(2022, 아트북프레스)』이 있다.
    artandtechminji@gmail.com
    이 필자의 다른 기사 보기
인기기사