Top
검색버튼 메뉴버튼

SR4. 영상 합성 기술 ‘딥페이크(Deepfake)’의 명암

교육-고객 서비스 부문 등 응용 무한대 ‘악마의 기술’ 리스크 차단할 장치 절실

진승혁 | 345호 (2022년 05월 Issue 2)
Article at a Glance

딥러닝 네트워크를 이용해 이미지와 영상을 합성하는 ‘딥페이크’ 혁신 기술에는 명암이 있다. 진짜 인간과 똑같은 가짜 인간, 즉 디지털 휴먼 생성이란 엄청난 산업적 잠재력을 가지고 있음에도 불구하고 어두운 그림자로 인해 ‘악한 기술’로 인식돼 있다. 인간의 얼굴형과 체형, 입 모양, 보디랭귀지 등까지 고스란히 구현한 가상 인간 분야가 더 발전하기 위해서는 그 이면에서 포르노나 가짜 뉴스 등 사이버 범죄를 방지하기 위한 기술 연구가 동반돼야 한다. ‘생성 기술’과 대적할 수 있는 ‘판별 기술’을 고도화해 합성 영상 플랫폼에 포르노가 올라오는 것을 차단하고 딥페이크의 진위를 가릴 수 있어야 한다는 의미다.



“딥페이크 비디오 중 96%가 포르노로 소비되고 그중 얼굴 도용 피해자의 25%가 한국 여자 연예인이다.”1

합성 데이터의 기저에 깔린 기술, 즉 사생활 침해와 민감 정보 폭로에 대한 걱정 없이 진짜 같은 가짜 이미지와 영상을 만들어내는 기술은 새로운 게 아니다. 우리가 익히 아는 ‘딥페이크(deepfake)’를 생성하는 기술과 동일하다. 용도만 다를 뿐 딥러닝 네트워크를 이용해 이미지 및 영상을 합성하거나 변형해 활용한다는 맥락에서는 다 같은 것이다. 그런데 딥페이크는 일반적으로 ‘악한 기술’의 대명사로 알려져 있으며 대부분의 사람이 딥페이크 혹은 얼굴 합성이란 용어만 들어도 포르노나 가짜 뉴스부터 떠올린다. 그동안 이 기술이 여성 아이돌의 얼굴을 포르노에 합성하거나 가짜 뉴스를 통해 여론몰이를 하고 분열과 갈등을 조장할 때 활용돼 왔기 때문에 자연스러운 현상이기도 하다. 애초에 딥페이크란 이름도 2017년 미국의 온라인 커뮤니티 레딧에 할리우드 배우의 얼굴과 포르노를 합성한 편집물을 올린 네티즌의 아이디 ‘딥페익스(Deepfakes)’에서 유래했으니 더 말할 것도 없다. 2019년 기준 전 세계 1만4678건의 딥페이크 영상 중 성인물이 96%에 이른다는 통계도 있다.2

053


하지만 이런 딥페이크란 혁신 기술에는 양면이 있으며 진짜 같은 가짜를 만들어내는 이 합성과 변환 기술에 엄청난 산업적 잠재력과 비즈니스 가치가 숨겨져 있는 것도 사실이다. 인간의 얼굴형과 말하는 입 모양, 미세한 감정과 표정까지 조작하는 일련의 기술이 엔터테인먼트, 교육 등 업계에 일대 변혁을 일으키고 있는 것만 봐도 알 수 있다. 최근 산업계에 불고 있는 ‘가상 인간’ 혹은 ‘디지털 휴먼’ 붐이야말로 이런 트렌드를 단적으로 반영한다.

기술은 천사가 되기도, 악마가 되기도 한다

1945년 8월6일, 히로시마에서 수십만 명이 동시에 죽음을 맞았다. 전 세계 사람들은 이런 대량 살상을 가져온 원자폭탄을 악의 무기라 비난하고 탄식했지만 원자폭탄의 역사를 거슬러 올라가면 기술 자체는 평화를 유지하려는 목적에서 개발됐다. 지금까지도 화약 다이너마이트는 터널, 지하철 건설 등 산업 현장에서 유용한 기술로 활용되고 있다. 그러나 개발 동기의 선악 여부를 차치하더라도 무자비한 결과가 초래됐다는 데는 이견이 없다. 이는 모든 기술에 양면이 있기 때문에 이런 무기가 살상에 쓰이지 않고 선한 목적으로 쓰이도록 핵확산방지조약 등을 체결하듯이 전 세계 국가, 기업이 처음부터 방향을 잘 설정하는 게 중요하다는 것을 보여준다.

그런데 대량 살상 무기의 시대는 끝나지 않았다. 새로운 기술이 계속 나오는 한 기술로 인한 죽음도 끝나지 않기 때문이다. 오히려 죽음의 형태는 더 교묘해질 뿐이다. 딥페이크가 포르노에 악용돼 많은 이를 자살로 내몰고 있는 것도 이런 맥락에서 염려스러운 현상이다. 하지만 그럴수록 기술 발전에 무작정 제동을 걸기보다는 그 기술의 활용을 어느 범위까지 허용하고, 악용 가능성을 어떻게 차단하고, 정확히 어디에서 문제가 발생하는 것인지를 고민해 봐야 한다.

054


딥페이크 기술은 딥러닝을 기반으로 한 컴퓨터 비전(Computer Vision) 기술을 기반으로 한다. 한마디로 컴퓨터를 이용해 사진과 영상을 변형하는 기술이다. QR 코드 인식, 얼굴 인식, 동작 추적 등을 통칭한다고도 볼 수 있다. 이 중에서도 딥페이크는 ‘생성 기술(Generation)’이며 최근 Mnet 같은 케이블 채널에서 옛 혼성 그룹인 거북이의 리더 ‘터틀맨’을 소환해 12년 만에 감동적인 완전체 무대를 만든 것도 이런 생성 모델의 활용 예다. 터틀맨의 이미지를 학습시켜 이 모습을 재현해낸 것이다. 이 밖에도 가상현실 속에서 사별한 소중한 사람과 다시 만나게 하는 방송도 2014년 발표된 GAN(생성적 적대 신경망)이 있어 가능했다. 이 기술은 다량의 데이터에 포함된 공통된 특징을 발견하는 수준에서 한발 더 나아가 이 데이터에서 배운 특징을 그대로 흉내 낸 데이터를 만드는 데 쓰인다. 그리고 이런 ‘생성기’와 만든 영상이 진짜인지, 가짜인지를 판별하는 ‘판별기’가 대립하고 경쟁하면서 점점 더 진짜에 가까운 가짜가 탄생한다.

만약 생성 기술을 무작정 막는다면 이런 무대와 방송 영상이 가져오는 감동과 재미도 연출될 수 없을 것이다. 그럼에도 불구하고 여전한 부정적 인식으로 인해 컴퓨터 비전 생성 기술은 음지에서 더 많이 활용되고 있다. 이 같은 현실을 바꾸기 위해서는 기업들이 적극적으로 악용 사례를 미연에 방지해 리스크 관리를 하고, 긍정적인 기업 이미지를 창출하고, 관련 정책을 만드는 데 앞장서야 한다. 무엇보다 초반에 시장의 성장을 이끄는 스타트업의 의지와 대응이 중요하다. 이에 따라 필자가 이끄는 클레온 역시 딥페이크에 대응하기 위한 ‘딥휴먼’이라는 자체 기술을 내세워 기술로 인한 문제해결에 나서고 있다. 딥러닝 기반 컴퓨터 비전 기술에 대한 긍정적 인식을 자리 잡게 하고, 활용 사례를 제시하고, 악용 사례를 방지하는 기술을 연구하는 것이 목표다.

딥페이크가 악의 기술이 되지 않으려면

앞서 설명한 것처럼 딥페이크를 활용하면 ‘응답하라 1988’의 남주인공 얼굴을 박보검에서 류준열로 바꿔 ‘어남류(어차피 남편은 류준열의 줄임말)’를 실현시킬 수도 있고, 내가 여주인공 덕선이가 돼 쌍문동 친구들과 즐겁게 지내보는 등 마음만 먹으면 얼마든지 신선하고 재미있는 영상들을 만들어 낼 수 있다. 그런데도 이렇게 딥페이크 기술을 긍정적으로 사용하는 사람의 수가 현저히 적은 것은 사이버 범죄와의 깊은 관련성 때문이다. 이 인식을 뿌리 뽑으려면 딥페이크 포르노 등 범죄 사례를 막는 것이 중요하다. 먼저, 합성 영상 제작 툴에 포르노가 올라오는 것부터 막아야 한다. 둘째, 딥페이크로 제작된 가짜 영상인지, 아닌지 진위를 판별해 낼 수 있어야 한다. AI 기술로 만든 가짜를 AI를 이용해 다시금 적발하는 기술 연구가 중요하다는 의미다.

1. 포르노, 올리는 것부터 막자

합성 영상 제작 툴이 포르노 제작에 사용되지 않으려면 유저들이 영상을 올리기 전에 포르노 여부를 판별해 업로드 자체를 막아버려야 한다. 그런데 수많은 유저가 수백만의 영상을 올리는 상황에서 업로드 자체를 막는 것이 과연 가능한가? 이 해답도 딥러닝에 있다. 일단 수만 개, 수십만 개의 포르노를 학습시켜서 포르노 판별 기술력을 기르고, 이 정확도를 높이기 위해 엄청난 양의 포르노 합성 영상을 생성하고 학습하는 과정이 필요하다. 앞서 설명한 ‘생성 기술’과 대적할 수 있는 ‘판별 기술’이 범죄 해결의 열쇠가 될 수 있다는 얘기다. 아직 개별 스타트업의 데이터 수집량은 미미하기 때문에 현재로서는 찾을 수 있는 최고의 외부 시스템을 사용하면서 자체 모델을 최적화하고 있다. 현재 클레온은 포르노 감지를 위해 영상이나 이미지가 가짜인지 혹은 폭력적인지 등을 알려주는 사이트엔진(Sightengine)이란 모델을 사용한다. 사이트엔진은 딥러닝 영상이나 이미지 분석 회사로 포르노뿐만 아니라 누드부터 미니스커트, 나아가 손가락 욕까지 광범위하게 이미지 속 정보를 인식하는 모델을 보유하고 있다. 극초기의 포르노 검출 모델은 살색이 많은 영상만 포르노로 인식해 정확도가 많이 떨어졌지만 최근에는 딥러닝의 발전으로 정석 포르노는 물론 변태적 취향의 포르노, 헨타이 아니메(변태적 애니메이션), 아동 포르노까지 다양하게 합성된 데이터를 학습한 AI 모델들이 무리 없이 검출이 가능하다.

사이트엔진의 모델은 모자이크가 없는 영상에 대해서는 100%의 판별 능력을 보유하고 있다. 다만 이런 모델 역시 아직 기술적 한계는 있다. 모자이크 영상에 대해서는 인식률이 미흡하다는 게 약점이다. 또 이러한 딥러닝 시스템을 피하는 교묘한 포르노를 잡아내기가 어렵다. 딥러닝 감지 시스템은 화면 전체가 모두 포르노인 영상을 기준으로 감지하기 때문에 화면 전체가 아니라 부분에만 문제 되는 영상을 넣어두는 경우에는 적발이 쉽지가 않다. 또한 딥러닝 모델은 주로 영상을 0.1초 단위의 이미지로 쪼개서 영상이 아니라 이미지를 인식한다. 이 때문에 이미지 사이사이에 야한 이미지를 슬쩍 끼워 넣거나 이미지 자체는 괜찮은데 전체 영상의 맥락에서 포르노에 가까운 경우는 잡아내기 힘들다.

2. 다음은, 더 정밀한 탐지 모델 개발

이렇듯 현재까지 외부 프로그램을 사용해 범죄를 예방하고 있지만 데이터를 보충하고 기술을 고도화하면서 자체적으로 더 정밀한 포르노 탐지 모델도 개발할 예정이다. 앞서 언급된 한계를 보완할 수 있는 역량을 갖춘 딥러닝 모델을 개발 중이다. 그리고 이런 모델을 만드는 데도 다양한 합성 영상과 이미지들을 활용하고 있다.

이 모델의 특징은 크게 네 가지다. 첫째, 모자이크 처리된 포르노 영상을 적발할 수 있다. 모자이크란 원본 영상에 인위적으로 어떤 외부 노이즈(잡음)를 추가한 것이다. 이에 따라 모자이크를 감지하는 가장 효과적인 방법은 노이즈 처리가 된 다양한 원본 영상을 가지고 AI를 학습시키는 것이다. 둘째, 이미지 전체에서 어디에 집중할지를 판단할 수 있다. 이미지 전체가 아니라 아주 일부에만 문제 영상이 들어가더라도 판별해낼 수 있으려면 이 경우에도 여러 위치에 부분적으로 포르노가 합성된 다양한 영상을 AI에 훈련시켜야 한다. 셋째, 자체적으로 영상의 시계열성을 파악할 수 있다. 이 모델은 일반적으로 자연어 처리에 쓰이는 ‘맥락 파악의 딥러닝’ 기술을 영상에 적용한 것이다. 전체적인 영상의 맥락을 이해하도록 학습시켜 포르노 탐지 정확도를 높이는 접근이다. 넷째, 장애물에 영향을 덜 받을 수 있다. 딥러닝 이미지 인식 모델에 오류가 발생하는 이유를 살펴보면 대개 사람 얼굴의 일부나 신체의 일부가 안경, 커피 컵 등 사물에 가려진 경우가 많다. 장애물로 인해 인식 정확도가 떨어진 것이다. 이런 오류 역시 AI가 다양한 장애물에 가려진 사람의 이미지를 최대한 많이 생성하고 학습함으로써 예방이 가능하다.

포르노 탐지 모델의 성패는 결국 상상을 초월할 만큼 다양한 연령, 인종, 배경의 포르노를 수집해 라벨링하는 작업을 얼마나 빠르게 할 것인지에 달렸다. 이미지나 영상 합성을 통해 해결을 하든 학습용 데이터의 양과 질을 높이는 것이 가장 중요한 숙제로 남아 있다. 또한 딥러닝 시스템 자체를 무너뜨리려는 공격에 방어할 태세도 갖춰야 한다. 이런 공격을 막기 위한 딥러닝 보안팀을 갖추고 있는 이유다.

‘디지털 휴먼’이 보여주는 딥페이크의 가치

많은 기업이 딥페이크가 가져올 무한한 가능성과 기회에 주목하고 있고 앞으로 AR(증강현실)/VR(가상현실)이나 메타버스와도 결합할 것으로 예상되는 가운데 빠르게 발전하고 있는 분야 중 하나가 바로 ‘디지털 휴먼’이다. 전 세계 디지털 휴먼 시장은 2020년 약 10조 원 규모에서 2030년 527조 원이 넘는 규모로 연평균 약 46.4% 성장할 것으로 점쳐진다. 이런 디지털 휴먼 열풍을 두고 사람이 설 자리를 잃게 되는 것은 아닌지, 다른 부작용은 없을지 염려하는 이들도 있다. 하지만 기술은 언제나 사람을 위하는 방향으로 발전할 수 있으며 그 이점을 어떻게 극대화할 것인지에도 충분한 관심을 기울여야 한다.

057


1. 엔터테인먼트 및 방송 분야

특히 엔터테인먼트 업계에서는 진짜와 분간이 힘든 가짜 영상을 영화, 드라마 등에 접목해 제작비를 절감하고 언어와 인종의 장벽을 허물려는 노력을 이어가고 있다. 국내에서 가장 유명한 디지털 휴먼은 신한라이프 광고 모델로 활약하면서 유명해진 서울 출생 22살 ‘로지’인데 지난해 로지가 협찬과 광고로 벌어들인 수익만 15억 원이 넘는다고 한다.3 디지털 휴먼에 대해 열광하는 것은 비단 한국만이 아니다. 팔로워 300만 명에 연 수입 130억 원을 기록한 미국의 릴 미켈라, 일본 이케아 팝스토어에 등장했던 분홍 머리의 이마(Imma)는 전 세계적으로 얼마나 많은 디지털 휴먼이 인기를 얻고 있는지를 보여준다.

아직 일부 방송사를 중심으로 시범 운영한 정도지만 보도 부문에서도 디지털 휴먼이 큰 변화를 가져올 수 있다. 지금은 위급한 재난 상황이나 새벽 방송을 위해 현장에 기자들이 파견돼 밤낮없이 노력하고 있지만 디지털 휴먼이 상용화되면 이런 긴급 속보에 즉시 투입돼 최소한의 인력으로도 보도를 할 수 있게 되기 때문이다. 텍스트 음성 변환(TTS, Text-to-speech) 기술을 활용해 기사 내용을 텍스트로 입력해주기만 하면 디지털 휴먼의 즉시 보도가 가능하다. 게다가 얼굴과 목소리, 성별 등을 마음대로 변형할 수 있으니 방송사나 브랜드마다 대표 인물을 자유롭게 만들어낼 수 있는 것도 강점이다.

058


2. 교육 분야

또한 교육 업계에서도 이런 디지털 휴먼 활용 가치가 크다. 사실 필자가 운영하고 있는 클레온이 누구나 자신만의 디지털 휴먼을 제작할 수 있는 플랫폼을 구축하게 된 배경, 즉 창업 아이디어도 여기서 나왔다. 2018년도에 수험생 신분으로 인터넷 강의를 들으면서 졸다가 “아, 이 강사님이 수지였으면 이 강의에 500%는 더 집중할 수 있지 않을까?”라고 생각한 게 기술 개발의 단초를 제공했다. 당시에는 흔치 않던 ‘얼굴 합성 및 변환’이라는 기술을 시작으로 다양한 AI 딥러닝 기술을 개발하자 국내 유수의 대기업이 관심을 보였고 공동 프로젝트를 제안했다. 이렇게 얼굴 합성에 대한 기업들의 실질적인 니즈를 확인한 것이 단순 기술 공급을 넘어 디지털 휴먼 제작 플랫폼 구축으로 사업을 확장하는 계기가 됐다.

이처럼 온라인 강의를 하는 강사가 연예인과 똑같이 생기게 합성할 수도, 개인의 취향에 맞는 생김새를 가지도록 변형할 수도 있다는 것은 화상 강의가 보편화된 시대에 학습 몰입도를 높이고 생동감을 불어넣는 효과적인 수단이 될 수 있다. 디지털 휴먼 강사는 다른 디지털 기술과의 결합도 쉽다. 예를 들어, AI 학습 코칭 서비스와 결합할 경우 개인에게 맞는 학습법을 추천하는 맞춤형 튜터를 생성할 수도 있다. 개인별 진도 편차에 상관없이 똑같은 내용을 가르치고 일방적으로 전달만 하는 온라인 강의가 크게 진화할 수 있으며, 강사 입장에서도 자신과 똑같이 생긴 디지털 휴먼을 미리 만들어 둠으로써 추가 촬영 없이 강의 영상을 제작할 수 있다. 즉, 강사가 촬영과 녹음, 편집 등 자원이 많이 드는 과정을 생략하고 강의 콘텐츠 준비에만 집중할 수 있게 될 것이다.

3. 고객 서비스(CS) 분야

요즘은 패스트푸드 가게에 가면 특정 시간대에는 키오스크로만 주문을 받기도 한다. 그런데 새로운 기기나 문화에 익숙하지 않은 어르신들은 처음 보는 키오스크에 당황하거나 주문을 못한 채 가게를 빠져나오는 경우도 있다. 이런 불친절한 사용자 경험(UX)/사용자 인터페이스(UI) 대신 챗봇 기능을 탑재한 디지털 휴먼이 응대한다면 이런 불편을 줄일 수 있다. 비대면 키오스크의 장점은 살리면서 고객 입장에선 실제 사람과 대화하듯이 쉽게 주문할 수 있게 될 것이다.

실제 사람 사이의 대화에 있어 말만큼 중요한 것이 보디랭귀지다. 상대방의 말을 잘 듣고 있다는 의미의 끄덕임, 소리가 잘 들리지 않을 때 고개를 약간 앞으로 숙여 귀 기울이는 제스처 등은 보다 정확한 커뮤니케이션을 가능케 한다. 이렇게 상황에 맞는 입 모양과 보디랭귀지까지 구현할 수 있는 디지털 휴먼을 개발 중이며 가상 인간이 곳곳에 도입되면 실제 사람과 대화하는 듯한 느낌을 줄 것이다.

딥페이크의 그림자에 가려진 새로운 기회

서두에 언급했듯이 AI의 폭발적인 발전을 가져올 혁신으로 꼽히는 AI용 합성 데이터 생성도 딥페이크 기술을 기반으로 한다. 국내에서도 이 분야 특허 출원이 가파르게 늘고 있으며 이런 데이터의 활용 범위는 더욱 확대될 전망이다. 실제 데이터만 가지고는 진전이 더디게 이뤄졌던 영상 합성에서도 새로운 돌파구들이 마련될 것으로 보인다.

이처럼 딥페이크 기술은 새로운 기회의 장을 열어줄 수 있다. 인간은 교육, 엔터테인먼트를 비롯한 수많은 분야에서 현실과 구분이 힘들 정도로 정교한 가상 세계를 경험하게 될 것이고 이 세계에서 훈련받은 AI는 점점 진화할 것이다. 다만 클레온은 이 고난도 이미지 생성 기술에 접근함에 있어 전략적으로 ‘고도화’보다는 ‘경량화’의 방향을 택하고 있다. 진짜 같은 가짜, 정말 인간과 100% 똑같은 디지털 휴먼을 만드는 것도 중요하지만 더 많은 디지털 휴먼을 더 쉽고, 빠르게 생산할 수 있는 범용 기술을 구축한 뒤 고도화하는 게 더 중요하다고 판단했기 때문이다. 이에 현재 얼굴 사진 1장, 30초의 음성 데이터만으로 영상 속 가상 인물의 얼굴과 목소리를 실시간에 가깝게 합성할 수 있는 ‘가벼운 플랫폼’을 구축한 상태다. 다대다(多대多) 얼굴 변환 기술 수준에 있어 인간과의 유사성은 1.66으로 마이크로소프트(2.36)보다는 낮지만 바일란대(1.13), 텐센트(1.29), 삼성(0.72), 엔비디아(0.70)보다 높으며 처리 시간은 123FPS(Frames Per Second, 초당 프레임 수)로 모든 글로벌 경쟁사보다 압도적 우위에 있다.

당연히 이런 범용화에 수반되는 어두운 그림자, 즉 범죄를 예방해야 한다는 책임감도 통감하고 있다. 시장의 초기 진입자로서 불법 영상의 업로드를 막고 진위를 판별하는 탐지 기술 고도화에 힘쓰고 있는 이유다. 그러나 이미 딥페이크 기술이 우리 곁에 깊숙이 들어와 있는 만큼 이 기술의 그림자를 걱정하며 범용 AI 개발을 망설일 시간에 긍정적인 활용 사례를 조명하고 악용 사례에 대한 제재를 강화하는 것이 더 중요하다고 믿는다.


진승혁 클레온 대표 seunghyuk.jin@klleon.io 정리=김윤진 기자 truth311@donga.com
진승혁 대표는 한양대 융합전자공학부를 졸업하고 2015년, 24세에 인테리어 맞춤 자동화 플랫폼 ‘그리다집’을 창업했다. 2018년 딥러닝 영상 생성 솔루션 기업 ‘클레온’을 창업해 디지털 휴먼 제작 플랫폼을 구축했다.
관련기사