로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

인공지능의 창의력

문제를 알고 답 찾는 것은 시시해? 딥러닝, 예술-창작 분야로도 성큼성큼

이재환 | 228호 (2017년 7월 Issue 1)
Article at a Glance

잘 알려져 있다시피 인공지능은 퀴즈 풀이, 바둑, 얼굴 인식처럼 ‘문제를 알고 답을 찾는’ 지도학습 분야에서 인간을 초월하고 있다. 반면 정답이 없고 창의성을 발휘해야 하는 비지도 학습 분야는 상대적으로 뒤처져 있었다. 그러나 최근 LSTM, GAN등 새로운 알고리즘들이 발전하면서 창작활동이 가능한 인공지능의 시대가 열리고 있다. 현실에 존재하지 않는 가상의 인물을 ‘상상해서’ 초상화를 그리고, 가방 디자인에서 모티프를 따 자동으로 구두 디자인을 하는 일들이 가능해지고 있다.


20230621_132326


인공지능의 한계는 어디까지일까? 인공지능은 인간의 감성이나 창의성을 모방, 혹은 능가할 수 있을까? 연구자뿐 아니라 일반인들도 이런 질문을 던져본 적이 있을 것이다. 이 질문에 답을 하기에 앞서 먼저 인공지능 작가 벤저민(Benjamin) 사례를 살펴보자.

2016년 6월, 뉴욕주립대 소속의 영화감독 오스카 샤프(Oscar sharp)와 인공지능 연구자 로스 굿윈(Ross Goodwin)은 LSTM(long short term memory) 네트워크를 이용해 영화 시나리오 엔진 ‘벤저민’을 만들었다. 굿윈에 따르면 벤저민은 수십 편의 공상과학 영화와 TV 프로그램의 시나리오를 학습했다. 이 학습 자료들은 주로 1980년대와 1990년대에 쓰인 것들이다. 그다음 무작위의 입력을 준 후 벤저민이 연속적으로 써나간 시나리오 중 하나를 선정해서 촬영을 진행했다. 시나리오 속 대사뿐만 아니라 무대 지시 등도 벤저민이 직접 작성했다. 영화 속 OST 역시 딥러닝을 통해 작곡됐다. 이렇게 탄생한 영화가 ‘선스프링(Sunspring)’이다. 7분 정도 길이의 단편 영화로 유명 배우들이 출연했다. 이 영화는 유튜브에서 볼 수 있다. (그림 1)

20230621_132334


영화는 우주 정거장으로 추정되는 공간에서 벌어지는 일을 다뤘다. 두 남자와 한 여자가 대화를 주고받는다. 대화의 주제는 굉장히 유추하기 힘들다. 그다음 실험실로 장소가 바뀌고, 남자 한 명은 쓰러져 있다. 그리고 여자가 울며 독백을 하면서 영화가 끝난다.

이처럼 ‘선스프링’은 실험적인 결과물이다. 어려운 예술영화처럼 느껴지기도 한다. 샤프 감독은 “벤저민이 쓴 대본은 이해하기 힘든 문장이 많았다”며 “나는 이것을 어두운 미래 세계에서 일어난 살인과 로맨스로 이해했다”고 말했다.1 영화 속 대사 중 일부를 보자.



H: “네가 무슨 말 하는지 모르겠어.”

C: “맞아.”

H: “그럼, 너 뭐 하는 거야.”

H2: “너한테 솔직하긴 싫어.”

(그는 잠시 그를 바라본다. 그리고 그를 보고 웃는다.)

H: “넌 의사가 될 필요가 없어.”

H2: “잘 모르겠는데. 네가 무슨 말 하는지 모르겠어.”

H: “나도 네가 보고 싶어.”

H2: “무슨 뜻이야?”

H: “미안하지만,

네가 날 건드리지도 못할 것이라고 확신해.”

H2: “네가 무슨 말 하는지 모르겠어.”2



이 영화에 대해 프랑스의 <르몽드>지는 “보통 이상으로 뛰어나지만 시나리오에서 유기적 연결성이 뚜렷이 부족하다”고 평가했다.3 필자의 의견으로도 벤저민이 일반적인 의미에서의 ‘작품’을 만들어냈다고 평가하기에는 아직 부족하다. 다만 IT 매체 Cnet은 “아름다운, 기괴한 공상과학의 새로운 시도”라 평했다.

벤저민은 공상과학 영화를 잔뜩 학습해서 머릿속이 공상과학 영화의 대사로 꽉 차 있는 머신러닝 시스템이다. 이 시스템에 어떤 입력을 주고, 그 입력에 가장 어울리는 다음 출력을 만들고, 이 출력을 다시 입력으로 사용해서 가장 어울리는 다음 출력을 만드는 과정을 계속 반복한 것이다. 영화적 완성도를 떠나 보는 사람이 영화라고 느낄 수도 있는 무언가를 머신러닝(machine learning) 기법을 통해 만든 최초의 시도다.



인지 vs. 생성

이처럼 많은 사람들이 최근 머신러닝의 가능성에 주목하고 있다. 얼마 전까지만 해도 기계가 사람을 따라잡지 못할 것이라고 생각되던 분야에서 인간과 대등하거나 혹은 나은 성능을 보여주기 시작했기 때문이다. 바둑이 대표적이다. 머지않은 미래에 인간이 할 수 있는 거의 모든 부분이 기계로 대체될 것이라는 예측 때문에 거부감을 보이는 사람이 있을 정도다. 전기자동차 업체 테슬라의 CEO인 일론 머스크는 “인공지능 연구는 우리가 악마를 소환하는 것이나 마찬가지”라는 파격적인 발언4 을 하기도 했다.

이런 머신러닝 성능 향상의 돌파구는 단연 딥러닝(deep learning) 기술이다. 인공지능의 한계를 논하기 전에 먼저 머신러닝과 인공지능의 차이에 대해 간단히 알아보자. 머신러닝은 ‘기계를 가르치는 기술’로 정리할 수 있다. 지금까지 수집한 데이터를 입력해 놓은 상태에서 뭔가 새로운 입력에 대해서도 정확한 답을 찾는 모델을 만드는 분야다. 반면 인공지능은 좀 더 광범위한 주제다. 사람의 지능은 단순 문제해결 능력 외에도 욕구, 관념, 도덕, 창의와 같은 다양한 요소가 섞여 있다. 어떻게 이 ‘지능’이라는 것을 기계에 주입할 수 있는지를 연구하는 것이 인공지능 분야다.

<그림 2>에서 보듯이 머신러닝 기술의 대부분은 ‘인공지능(AI)’이라고 부르기 어려운 수준이었다. 그런데 딥러닝 기술이 등장하면서 머신러닝의 성능이 극적으로 올라가기 시작했다. 딥러닝 기술에서는 우선 어떤 문제를 풀기 위한 인공신경망을 구성한다. 그리고 그 신경망들에 수많은 입력 영상들과 출력 데이터들을 통과시킨다. 그러면 그 인공 신경망은 수많은 가르침 속에서 나름대로 입력을 분석하는 방법을 익히게 되고, 결국 새로운 입력이 들어와도 답을 낼 수 있는 능력을 가지게 된다.

20230621_132343

영상처리 분야가 대표적인 예다. 영상 처리 분야에서 ILSVRC5 라는 대회가 있다. 1000가지가 넘는 종류의 물체들 중에서 영상 속에 어떤 물체가 있는지 맞히는 대회다. 2015년 마이크로소프트 연구소 팀에서 발표한 ResNet 구조는 이 대회에서 96.43%의 정확도를 기록하면서 인간의 평균 정확도로 알려진 95%를 뛰어넘어버렸다. 원래 이 대회는 딥러닝 기술 발전의 신호탄이었는데 이제는 기계에게는 너무 쉬운 문제를 푸는 대회가 돼버려 2017년을 끝으로 막을 내리기로 했다. 한편 구글에서 발표한 얼굴 인식 딥러닝 구조 FaceNet은 99.63%의 정확도를 기록하며 인간의 얼굴 인식 정확도 평균인 97.53%를 뛰어넘었다. 말 그대로 ‘인공지능’의 수준까지 올라간 것이다.

그렇다고 해서 기계가 인간의 지능을 완전히 대체할 수 있다고 보는 것은 무리다. 앤드루 응(Andrew Ng)은 스탠퍼드대 교수를 지내고 현재는 바이두의 부사장으로 재직하고 있는 머신러닝의 대가다. 응은 <하버드비즈니스리뷰> 기고에서 머신러닝 방법의 한계 때문에 기계가 사람보다 잘할 수 있는 분야는 현재까지는 제한적이라고 언급했다.6 흔히들 주입식 교육으로 문제를 푸는 방법만을 반복적으로 지도하면 학생들이 시험 문제는 잘 풀지만 창의력은 길러지지 못한다고 알려져 있다. 이는 머신러닝에도 그대로 적용된다. ILSVRC 대회에서 다루는 물체 및 얼굴인식 기술의 성과는 주입식 교육을 통해 기계가 인간을 넘어선 대표적 사례로 해석할 수 있다.



인공지능과 예술

그렇다면 인간 지능의 주요 요소인 창의성, 즉 새로운 것을 만들어내는 능력은 어떨까? 딥러닝을 예술 분야에 적용하려는 시도도 계속되고 있다. 그러나 사물 인식에 비해 예술은 훨씬 어려운 문제라 실험적 단계를 벗어나지는 못하고 있다. ‘기계가 만든 콘텐츠 속에 인간에게 필적하는 통찰력이 담겨 있는가’라는 철학적인 문제를 논할 것도 없이 현재로서는 당장 보기에도 어색한 결과를 내는 정도라서 ‘인공지능 예술가’가 탄생했다고 말하기에는 부족하다.

그런데 최근 여러 연구팀에서 선구자적인 작품들을 내놓기 시작했다. 가장 먼저 도전한 분야는 시와 영화 등의 작문 분야다. 여기서 사용되는 핵심 기술은 순환 신경망(recurrent neural network, 이하 RNN)이다. RNN에서 주목하는 인간의 능력은 ‘기억력’이다. 사람은 글을 읽을 때 단어마다 독립적으로 생각하지 않는다. 이전 단어가 어떻게 주어졌는지에 따라 현재 나올 수 있는 단어가 어느 정도 한정돼 있다. 예를 들어서 ‘on’이라는 전치사 단어가 나오면 그다음 단어는 높은 확률로 명사 또는 관사(the, an 등)일 것이라 자동적으로 예측한다. RNN는 이런 원리로 작동한다. 예를 들어 ‘the clouds are in the 28016.png’라는 문장에서 28018.png 안에 들어갈 말을 유추하기 위해서는 세 단어 앞의 ‘clouds’만 기억할 수 있어도 충분하다. 답은 물론 ‘sky’일 가능성이 높다.7

그런데 기존의 RNN은 가까운 과거의 결과만을 판단에 반영하기 때문에 문장이 길어질수록, 또 문장과 문장의 간격이 멀어질수록 기억력이 희미해져 이전의 문맥이 반영되지 못하는 현상이 있다. 이를 장기 의존성(long-term dependencies)이라고 한다. 예를 들어 ‘I grew up in France… I speak fluent 28020.png’라는 문장이 있다면 인간은 28022.png 안에 들어갈 말이 ‘French’일 것이라고 예측할 수 있지만 RNN으로는 예측이 어렵다. ‘France’라는 사전 정보가 너무 멀리 떨어져 있기 때문이다. 단지 ‘speak fluent’라는 최근 정보에 따라 어떤 언어의 이름일 것이라고만 추측할 것이다.

1997년 발표된 장단기 기억 구조(Long-short term memory, 이하 LSTM)8 는 RNN의 한계를 해결할 수 있다. <그림 3>은 RNN과 LSTM의 차이를 간단한 그림으로 표시한 것이다. RNN의 경우는 이전 단계에서의 정보가 바로 다음 단계로 넘어갈 때 하나의 플로(검정색 화살표)로 전달되지만 LSTM의 경우는 윗줄과 아랫줄의 두 가닥으로 전달되고 있음을 볼 수 있다. 또 단계마다 네 개의 신경망 네트워크(작은 노란색 박스)가 자리 잡고 있음을 볼 수 있다. 이렇게 다소 복잡한 구조를 통해 비교적 멀리 떨어져 있는 과거의 정보도 현재의 아웃풋 산출에 고려할 수 있게 했다. 바로 이런 LSTM 로직을 통해 만들어진 것이 서두에 소개했던 인공지능 시나리오 영화 ‘선스프링’이다. 딥러닝에 LSTM 구조를 적용하기 시작하면서 사람이 봤을 때 좀 더 자연스러운 결과를 출력할 수 있게 된 것이다.

20230621_132408

이렇게 예술작품 창작에 LSTM과 같은 인공지능 기술을 접목하려는 시도는 음악 분야도 예외가 아니다. 구글의 머신러닝 및 인공지능연구소 구글브레인(Google Brain)에서 진행하고 있는 프로젝트인 마젠타(Magenta)는 LSTM 머신러닝을 통해 만든 인공지능 ‘작곡가’다. 머신러닝 부문 최고 학회 중 하나인 NIPS에서 2016년에 ‘최고시연상’을 받았다. 마젠타는 사람이 오르간 한 소절을 연주하면 다음 소절에서 가장 어울리는 오르간과 드럼 연주를 자동으로 맞받아쳐서 연주해내는 ‘잼(Jam) 세션’을 선보인다. 이 데모는 2017년 2월에 A. I. DUET이라는 이름으로 홈페이지에 공개됐고 현재 누구든 온라인으로 이용해 볼 수 있다.9 (그림 4) 어쩌면 여기서 선보인, ‘인간과 기계의 듀엣’은 백지에서부터의 창조가 아니라 인간의 입력에 맞춰 가장 어울리는 비트를 생성해내는 것이다. 구글브레인 팀은 창조의 영역에 정면으로 도전하기보다는 조금 더 쉬운 문제에 집중함으로써 더 완성도 있는 결과를 내놓을 수 있었다.

20230621_132415


그런데 여기서 그치지 않았다. 1년이 지난 2017년 5월 마젠타 팀은 ‘알파고’로 유명한 딥마인드 사와의 공동 작업을 통해 딥러닝 신서사이저 ‘Neural Synth(이하 NSynth)’를 공개했다. 신서사이저는 여러 주파수나 파형의 소리를 합성해 새로운 소리를 만들거나 저장된 음색에 전자적인 변조를 가해 새로운 소리를 만들 수 있는 기계를 말한다. 현대 음악에서 신시사이저가 차지하는 비중은 엄청나다. 신시사이저를 얼마나 잘 다뤄 참신한 사운드를 만들어내느냐는 작곡가의 중요한 역량이다. 어떤 멜로디가 있을 때 거기에 어울릴 것 같은 악기 샘플을 섞어 음색을 만드는 것이다. 그런데 NSynth는 딥러닝을 이용해 독자적으로 사운드를 만든다. 어떤 멜로디가 입력으로 주어지면 바이올린이나 피아노 같은 클래식 악기들부터 일렉트로니카 음악에 쓰이는 현대적인 악기까지 다양한 악기 중에 샘플을 찾고 조합해서 완성된 음악을 만들어준다. 구글은 앞으로 이 기술이 더 발전하면 인간은 아이디어만 내고 인공지능이 가장 적합한 사운드 샘플을 찾아줄 것으로 기대하고 있다.10 구글 브레인 팀은 NSynth의 소스 코드와 함께 1000개가 넘는 악기를 사용한 30만 개에 이르는 악보 데이터베이스를 공개함으로써 후속 연구를 유도하고 있다.



‘지도 학습’을 뛰어넘는

인공지능 창작의 가능성 - GAN

지금까지 소개한 벤저민, A.I. DUET, NSynth 등의 인공지능 작가나 인공지능 작곡가들은 주어진 문제와 답을 반복해 풀면서 학습한 경우다. 인공지능 작가 벤저민의 경우 ‘문제’는 학습에 사용했던 시나리오들의 각 구절들이다. ‘정답’은 그 문장들의 다음 구절이다. 마젠타 팀에서 공개한 A.I. DUET이나 NSynth 역시 정답이 정해져 있는 문제를 방대한 데이터 기반으로 열심히 학습을 한 결과물들이다. “어떤 음계가 입력으로 주어졌을 때, 통계적으로 어떤 다음 음계가 가장 많이 사용되는가” “어떤 음계가 입력으로 주어졌을 때, 어떤 사운드 샘플이 가장 많이 사용되는가”에 대한 학습을 하는 것이다. 이렇게 정답을 주면서 학습을 시키는 머신러닝 방식을 지도 학습(supervised learning)이라고 부른다. 반대로 정답을 주지 않은 채 문제들만 가지고 학습을 시키는 방식을 비지도 학습(unsupervised learning)이라고 한다.

지도 학습 인공지능의 경우 특정 분야에서 이미 사람의 수준을 뛰어넘고 있다. 비지도 학습의 성능은 현재까지 그다지 만족스럽지 못한 편이다. 그래서 대부분의 실용적인 머신러닝 알고리즘은 지도 학습 문제를 다루고 있다. 하지만 창의적인 문제, 즉 답이 없는 문제를 풀 때, 무언가 새로운 결과를 만들기 위한 교육에서는 비지도 학습이 필요하다. 지도학습 머신러닝에 “너의 현재 느낌대로 그림 한 장만 그려줘” 같은 문제를 줄 수는 없다. 정답이 있어야만 훈련을 시킬 수 있는데 이런 문제는 애초에 정답이라는 것이 존재하지 않기 때문이다. 결국 사람을 교육하는 것과 마찬가지다. 기계에 창의성을 부여하기 위해서는 주입식으로 가르치는 학습 방식에서 벗어나 답을 가르쳐주지 않더라도 스스로 답을 찾는 학습을 하도록 해야 한다.

이에 대한 해결책으로 주목받고 있는 것이 대립적 생성 네트워크(generative adversarial network, 이하 GAN)다. 전 뉴욕주립대(NYU) 교수로 현재는 페이스북의 인공지능연구소(FAIR)를 이끌고 있는 얀 레쿤(Yann LeCun)이란 사람이 있다. 앤드루 응 교수와 함께 머신러닝계의 또 다른 대가이다. 레쿤은 한 인터뷰에서 GAN이 지난 10년간 머신러닝 분야에서 연구된 이슈들 가운데 가장 흥미로웠던 아이디어였으며 앞으로 머신러닝 분야에서 가장 큰 화두가 될 것이라고 예측했다.11 GAN이 비지도 학습을 멋진 방법으로 수행해서 영상 처리 부분에서 기계가 창의적 결과물을 출력할 수 있는 가능성을 보여줬기 때문이다.

서론에서 언급한 바와 같이 기존 머신러닝 모델들은 문제의 정답을 맞추는 데는 강력한 성능을 보여주지만 바로 지금까지 없던 것을 창조해내는 능력은 부족하다는 평가를 받았다. 이는 영상 처리 분야에서 더욱 두드러진다. 인간은 시각적 정보로부터 많은 정보를 수집한다. 시각은 인간에게 가장 민감한 감각이다. GAN은 이러한 “인간만이 할 수 있다고” 믿었던 분야에 대해서 도전한다. GAN의 창시자인 이안 굿펠로(Ian Goodfellow)는 GAN의 동작 방식을 다음과 같이 설명한다.

“GAN 알고리즘은 제조자(generator)와 감별자(discriminator)로 나눠진다. 이 두 개의 네트워크는 서로를 최대한 잘 속일 수 있도록 학습된다. 이 과정은 경찰과 화폐위조범의 관계로 설명할 수 있다. 화폐위조범(제조자)은 경찰을 감쪽같이 속이는 위조화폐를 만들기 위해 노력한다. 반면에 경찰(감별자)은 위조화폐와 진짜 화폐를 감별하려고 노력한다. 이런 경쟁 속에서 양쪽 모두 서로를 더 잘 속이고, 속임수를 잘 구별하게 되고, 결과적으로는 진짜 지폐와 위조지폐를 구별할 수 없게 된다.”

먼저 제조자는 어떤 입력에 대해 어떤 모조품을 만드는 문제를 배운다. 여기서의 입력은 우리 입장에서는 중요하지 않으며 보통 무작위의 난수로 설정한다. 감별자는 제조자가 만들어낸 모조품과 가지고 있는 진짜 데이터를 가려내는 문제를 배운다. 초반에는 제조자가 모조품을 만들어내는 기술과 감별자가 모조품을 판별하는 기술 모두의 성능이 매우 낮다. 그러나 학습이 계속될수록 서로가 서로의 성능을 올려주면서 제조자에게는 수준 높은 모조품을 만드는 기술이 생긴다. 결국 제조자와 감별자는 서로 주어진 문제만 풀었을 뿐이지만 각 입력에 대해 어떻게 모조품을 만드는지 가르쳐준 적이 없어도 진품의 샘플들만 있다면 이것을 감쪽같이 모방하는 기술을 배울 수 있다. 학습에 ‘경쟁’의 개념을 도입한 것이다.

<그림 5>는 케빈 프란츠(Kevin Frans)라는 고등학생이 실험한 내용으로 GAN이 할 수 있는 일을 잘 보여준다. 왼쪽의 이미지들은 당구공, 손목시계, 여성, 컴퓨터 등 생활에서 볼 수 있는 사물 혹은 사람을 찍은 사진이다. 이 사진들을 놓고 GAN에게 ‘제조자 vs. 구별자’의 대결 과정을 반복시켜 학습시키면 GAN은 무엇이 됐든 실물처럼 보이는 사진들을 만들어낼 수 있게 된다. 오른쪽 이미지들은 그런 학습과정을 거친 GAN이 만들어낸 이미지다. 얼핏 보면 왼쪽 이미지들과 마찬가지로 어떤 물건이나 동물들을 찍어놓은 것 같지만 자세히 들여다보면 이것들은 현실에 존재하지 않는 가상의 이미지들이다. 즉 현실처럼 보이지만 현실엔 없는 새로운 물체들의 이미지를 GAN이 창조해낸 것이다. 이런 능력을 갖추게 하기까지는 무려 18만2000번의 학습을 거쳐야 했지만 사실 현대 컴퓨터의 연산능력으로는 그리 오래 걸리지 않는다. 하단의 이미지는 각각 300회, 900회, 5700회 학습시킨 상황에서 GAN이 만든 이미지들이다. 경쟁학습이 반복될수록 ‘진짜처럼 보이는 가상의 이미지’를 만드는 능력이 개선됨을 볼 수 있다.

20230621_132423



GAN의 아이디어는 여기서 더 나아간다. 제조자에게 어떤 입력을 주느냐에 따라서 제조자가 만드는 모조품을 우리가 컨트롤할 수도 있고, 감별자가 모조품을 판별하는 방법을 다르게 만드는 등의 테크닉을 통해 기존에 없던 데이터를 모방하는 것까지 가능하다. 이러한 굿펠로의 아이디어는 발표되자마자 전 세계 머신러닝 관련자들에게 폭발적인 관심을 불러일으켰다. GAN 기술이 발표된 지 이제 3년밖에 되지 않았지만 많은 연구팀들에서 GAN을 사용해 실용적인 영상들을 생성할 수 있는 방법들을 발표했다.

구글은 올해 GAN을 통해 그린 초상화들을 공개했다. GAN에게 사람들이 그린 초상화들을 입력으로 주고, 이것을 모사하라고 시켜서 나온 결과들이다. <그림 7>의 초상화는 가상의 인물들이다. 처음부터 GAN이 가상의 인물을 상상해서 그린 그림이다. 그림 곳곳에 잔상이 보이지만 전체적으로 사람이 그린 초상화와 유사하다. 이 결과에서 더욱 놀라운 점은 이 초상화의 해상도가 4K에 달한다는 것이다. 이 초상화들 자체는 상업적으로 쓰기 힘들겠지만 이것은 GAN이 만들어내는 결과가 실험실을 벗어나 실제 사람들이 소비하는 콘텐츠와 비슷한 품질을 가질 수 있다는 가능성을 보여준 것이다.

20230621_132430


포토샵과 플래시 등으로 우리에게 친숙한, 영상 처리 분야의 강자 어도비의 연구팀들 역시 GAN에 주목하고 있다. UC버클리대와 어도비 연구팀에서는 GVM(Generative Visual Manipulation)이라는 재미있는 기술을 발표했다. 이 기술에서는 (아주 간단한) 유저 입력만 주어지면 인공지능이 그림으로 바꿔준다. 물론 이것을 가능하게 하는 핵심 기술은 GAN이다. 이 기술들이 발전하면 포토샵이나 일러스트레이터와 같은 영상 편집 프로그램에서 간단한 인풋만으로 마음속에 구상하는 영상들을 쉽게 만들어낼 수 있을 것으로 기대된다. <그림 8>에서는 사용자가 봉긋한 직선과 하늘색, 초록색을 지정해준 것만으로도 GVM에서 다양한 이미지가 생성됐다.


국내 조직들 역시 GAN의 연구에 박차를 가하고 있다. SK텔레콤의 AI 연구팀인 T-brain에서는 2017년 3월 DiscoGAN이라는 기술을 발표했다. 이 기술에서는 기존 GAN을 양방향으로 수행한다. T-Brain팀은 이 기술의 응용 사례로 영상 속 인물의 성별을 바꾸거나, 생김새를 수정하거나, 한 제품의 디자인을 이용해 다른 제품의 프로토타입을 만드는 등의 작업을 제시했다. (그림 9)

20230621_132441





마치며

굿펠로는 GAN 알고리즘을 통해 “머신러닝을 통해서는 답을 아는 문제밖에 풀 수 없다”라는 편견을 반박했다. 아직 실험실을 벗어나지 못했지만 대학과 기업들이 동시다발적으로 내놓고 있는 결과들을 볼 때 앞으로 인공지능은 단순히 ‘인지’하는 능력만을 벗어나 여러 분야들에서 다양한 방식으로 사용될 것으로 보인다.

아직 인공지능이 인간의 창조성을 따라잡을 것이라고 단정 짓기는 무리다. 현재의 머신러닝 알고리즘들에는 큰 단점이 존재한다. 입력받은 데이터를 모방해 새로운 데이터를 만들어내는 수준에서 그치고 있다. 창의적으로 “가르친 것을 뛰어넘는 결과”를 만들어내길 기대하기는 아직 어렵다. 그러나 앞으로 머신러닝 기술이 창의력을 향상시킬 수 있는 가능성은 무궁무진할 것이다. 아리스토텔레스가 말했듯 모방은 창조의 어머니다.



이재환 루닛 연구원 jhlee@lunit.io

필자는 포항공대 컴퓨터공학과에서 학사 및 석사 학위를 받았다. 현재는 루닛에서 딥러닝 연구원으로 재직 중이다. 루닛은 인공지능을 이용한 의료영상 분석기술을 개발하고 있으며 2017년 1월 시장조사기관 CB Insights에 의해 글로벌 ‘100대 AI기업’에 선정됐다.
인기기사