SR4. AI 기술 발전의 역사와 활용 사례

딥러닝 도입 후 ‘기술 빙하기 우려’ 씻어
이젠 전문 지식보다 빅데이터가 시장 좌우

285호 (2019년 11월 Issue 2)

Article at a Glance
머신러닝 솔루션 개발 과정에서의 주요 병목 지점
: 수치화·객관화할 수 있는 데이터의 특징에 대해 전문가가 정의하는 ‘특징엔지니어링(feature engineering)’ 작업

딥러닝 솔루션 개발 과정에서의 주요 병목 지점
: 데이터 수집·가공 및 레이블링(labeling) 작업

딥러닝 기술의 현주소
: 음성·안면인식 기술, 신약 개발, 진단용 이미지 판별 등 기존 딥러닝 적용 분야에서의 고도화는 물론 농업, 건축설계 등 새로운 분야에서의 활용 사례 역시 늘어나는 추세




딥러닝이라는 단어가 대중들에게 회자되기 시작한 것은 불과 3년 전부터다. 지난 2016년 3월 인공지능(AI)과 인간의 대결로 세간의 이목이 집중됐던 이세돌과 알파고 간 바둑 대국이 계기가 됐다. AI가 보드게임 중 가장 어려운 게임인 바둑으로 세계 챔피언을 꺾자 세상은 떠들썩해졌다. AI와 관련된 각종 정부 과제와 지원 사업이 우후죽순 생겨났고 딥러닝, 빅데이터, 한국형 알파고 등의 키워드가 연일 언급됐다. 구글트렌드에 따르면 4차 산업혁명이라는 키워드는 2016년부터 굉장히 활발하게 사용됐는데 여기에 딥러닝의 상징처럼 회자됐던 알파고의 역할이 컸다는 것은 부인하지 못할 사실일 것이다.

세기의 바둑 대결이 열린 지 3년이 흐른 지금, 딥러닝 기술은 얼마나 발전했을까? 딥러닝의 새로운 도약을 앞둔 이때 AI 기술 발전의 역사를 돌아보고자 한다. 먼저, 이를 위해서는 AI와 딥러닝 이전의 머신러닝, 딥러닝의 관계에 대한 이해가 필요하다. 우선 AI는 기계로 표현되는 개체가 스스로 판단을 내릴 수 있는 지능으로, 그 수준의 높낮이에 상관없이 스스로 판단을 내릴 수 있다면 AI1 다. 이 개념은 머신러닝과 딥러닝을 포함하며 딥러닝은 머신러닝의 부분집합이다. (그림 1)



AI의 태동과 1차 빙하기

그렇다면 AI는 언제부터 시작됐을까. 그 역사는 1950년으로 거슬러 올라간다. 영국의 천재 수학자인 앨런 튜링은 ‘계산 기계와 지성(Computing machinery and intelligence)’이라는 논문에서 과연 기계가 독자적으로 생각을 할 수 있는가에 대한 질문을 던지며 기계의 사고 능력을 판별하는 ‘튜링 테스트(Turing test)’를 제안했고, 기계를 지능적이라고 간주할 수 있는 조건에 대해 언급했다. 이후 AI를 활용해 체커 게임, 문장 해독 등 여러 문제를 해결하는 시도가 이어지며 초기 AI에 대한 세간의 관심이 커져갔다.

하지만 초기 AI는 사람이 프로그래밍한 지시(instruction)를 수행하는 개체에 불과했다. 많은 지시를 내려야 하는 업무는 그만큼 개발이 어렵고 적용 범위가 좁았다. 이러한 특성 때문에 AI를 활용한 사업화의 한계가 극명했다. 당시 기술 수준으로는 AI가 실제 해결할 수 있는 문제가 너무 적었고, 그나마 성과를 보였던 일부 분야(예: AI 기반의 문장 번역 시스템)에서조차 그 수준이 너무 낮아 혹평이 쏟아졌다. 1970년대에 AI의 1차 빙하기가 찾아오게 된 이유다.



당시 미국 방위고등연구계획국(DARPA)에서는 수백만 달러의 예산을 AI 프로젝트에 투자할 계획을 갖고 있었다. 하지만 현업에서는 사용되기 힘든 ‘토이 프로젝트(toy project)’ 수준의 일들만 진행되고 있다는 비판 여론에 떠밀려 결국 대부분의 투자 의사결정을 중단했다. 기업, 연구소 등 민간 부문에서도 연구 지원금이 메말라갔고 수많은 프로젝트가 좌초됐다. 하지만 다행스럽게도 AI를 향한 연구자들의 기술 연구는 완전히 끝나지 않았고, 결국 1980년대로 접어들며 머신러닝에 대한 연구를 중심으로 해빙기를 맞이하게 된다.


초기 AI에서 진일보한 머신러닝

기계 학습이라고도 불리는 머신러닝은 인공지능의 혁신이었다. 말 그대로 머신러닝은 사람이 직접 규칙을 가르치지 않아도 기계가 데이터를 통해 ‘학습’할 수 있다는 점에서 1950년대 태동한 초기 AI와 차이가 있다. 하드 코딩(hard coding, 변수의 값을 고정해 프로그램 코딩)된 지능의 한계를 벗어나 여러 데이터로부터 학습하고 이를 추론하는 게 머신러닝의 핵심이기 때문이다.



머신러닝은 크게 세 가지로 분류된다.(표 1) 먼저, 기계가 데이터 레이블링(labeling)을 통해 데이터 학습에 필요한 정보를 얻는 지도 학습(supervised learning)이 있다. 가령, 환자의 X선(X-ray) 사진이 있을 때 양성, 음성 여부나 환부의 위치에 대한 표기를 데이터 레이블이라고 한다. 일반적으로 언급되는 대부분의 머신러닝이 지도 학습인데, 레이블된 데이터의 생성 비용이 커서 개발 비용이 많이 들긴 하지만 그만큼 결과가 확실하며 상용화하기 좋다. 두 번째 머신러닝 유형인 비지도 학습(unsupervised learning)은 레이블된 데이터를 구하기 힘든 경우에 주로 활용된다. 가령, 대량의 스팸메일을 분류하고 싶지만 레이블하기 힘든 경우, 비지도 학습을 통해 유사한 메일들을 군집화할 수 있다. 마지막 유형은 강화 학습(reinforcement learning)이다. 사람이 농구를 배운다고 생각해보자. 보통의 경우, 사람은 슈팅을 하고 그 결과를 보면서 공을 더 세게 던져야 하는지, 아니면 좀 더 가운데로 보내도록 노력해야 하는지 스스로 피드백을 얻어가며 학습해 나간다. 이렇게 사람의 학습 과정과 유사하게 기계가 스스로 학습하는 게 강화 학습의 개념이다. 강화 학습이 제대로 이뤄지려면 강화 학습 개체가 피드백을 받을 수 있는 환경을 적합하게 구성하는 게 중요하다. 레이블된 데이터세트가 필요하지 않다는 게 장점이지만 적용할 수 있는 분야가 상대적으로 적고 학습하는 게 어렵다는 게 단점이다. 2

머신러닝은 기존에 사람의 지시에 따라서만 행동했던 초기 AI와 달리 데이터에 기반한 의사결정을 한다는 게 핵심이다. 따라서 딥러닝이 등장하기 전 머신러닝 개발 프로세스에서 가장 중요하고 어려운 작업은 특정 분야의 전문가(domain expert)가 수치화, 객관화할 수 있는 데이터의 특징에 대해 정의하는 일이다. (그림 2) 기계는 데이터를 이해할 수 없기 때문에 특정 영역에 대한 전문 지식(domain knowledge)을 갖춘 전문가가 나서 특징을 추출(특징 엔지니어링, feature engineering)해 줘야 한다. 상당한 시간이 소요되기 때문에 개발 과정에서 주요 병목이 되긴 하지만 이 작업이 제대로 이뤄져야만 기계가 특징 집합을 활용해 데이터들을 학습할 수 있기 때문이다.


2차 AI 빙하기

1980년대 머신러닝에 대한 연구가 활발히 이뤄지면서 기업들 역시 특정 분야 전문가의 숙련된 기술을 지식화 또는 데이터화해 기계가 수행하도록 하는 ‘전문가 시스템(expert system)’이라는 방식으로 머신러닝을 상업화하려는 노력을 기울였다. 의료진단 시스템과 화학 분석 등 전문적인 일의 일부를 대체하기 위해 머신러닝을 활용하는 사례들이 대표적 예다. 이처럼 머신러닝은 단순한 이미지 구분, 스팸메일 분류 등 비교적 쉬운 문제들을 사람이 만든 규칙 없이 데이터 기반으로 해결하는 데 어느 정도 성과를 보였다.

하지만 기대했던 것보다 자동화되지 못한 알고리즘은 지속적으로 큰 비용을 초래했다. 모델을 개발했던 환경보다 더욱 다양하고 예측하기 힘든 실제 환경은 전문가 시스템을 비롯한 다양한 AI 관련 시도에서 크고 작은 문제를 일으켰다. 더욱이 당시는 데이터를 충분히 확보하거나 이것을 충분히 활용할 수 있는 기법이 나오기 전이어서 대부분 규칙 기반의 알고리즘을 적용할 수밖에 없는 상황이었다. 이는 필연적으로 좁은 분야의 특수한 일에 대해서만 머신러닝을 적용할 수 있다는 것을 뜻하기 때문에 마치 기계가 인간처럼 생각하고 행동해 주길 바랐던 사람들의 기대에 미치지 못할 수밖에 없었다. 두 번째 AI 빙하기가 도래하게 된 배경이다.

많은 연구자가 AI 분야를 떠나갔고 기업들도 하나둘씩 관심을 잃어갔다. 1997년에 IBM의 컴퓨터 딥블루(Deep blue)가 세계 체스 챔피언 가리 카스파로프를 이겨 주목을 받긴 했지만 AI 빙하기를 완벽하게 녹일 만한 혁신은 일어나지 않았다. 결국 사람들이 꿈꿔왔던 AI는 근시일 내에 도달하기 어려운 꿈으로 남게 됐고, 그저 SF영화의 소재거리로 근근이 명맥을 이어갔다. 그리고 이 두 번째 빙하기는 딥러닝의 창시자로 꼽히는 제프리 힌튼 캐나다 토론토대 교수에 의해 다시금 해빙기를 맞이하게 된다.


DBR mini box : 인공신경망 알고리즘이란?

인공신경망(artificial neural network) 알고리즘은 인간의 신경망을 모방하려는 머신러닝 기법 중 하나로 시작됐다. 초기 인공신경망 모델은 1957년 코넬항공연구소의 과학자인 프랭크 로젠블랜트가 제안한 단층신경망(SLP, single-layer perceptron)으로 알려져 있다. 마치 신경세포(neuron)가 수상돌기(dendrite)를 통해 신호를 받아 축삭돌기(axon)를 통해 다른 신경세포에 정보를 전달하듯 SLP 내부 구조도 유사하게 설계됐다.

인공신경망 모델은 등장과 함께 크게 각광받았지만 불과 10여 년 만에 처참한 결과를 맞이하게 된다. SLP로는 ‘배타적 논리합 문제(XOR gate, 두 개의 입력값 중 하나만 ‘참’일 경우를 판단하는 논리 연산. 즉 입력 신호가 모두 1이거나 모두 0이면 0을 출력하고 입력값이 서로 다르면 1을 출력)’를 풀 수 없다는 사실이 밝혀진 것이다. 구체적으로 AI 분야의 선구자로 불리는 마빈 민스키와 시모어 페퍼트가 1969년 『퍼셉트론(Perceptrons)』이라는 책을 통해 SLP는 입력 벡터(input vecor)를 2차원 평면상에서 직선을 그어 두 부류로 구분하는 선형 분류 알고리즘이기 때문에 XOR 문제처럼 하나의 직선을 그어서는 분류할 수 없는 비선형 분리 문제는 해결할 수 없다는 사실을 수학적으로 증명했다. 물론 민스키는 당시 SLP가 아닌 다층신경망(MLP, multi-layer perceptron)을 구축한다면 XOR 문제를 해결할 수 있다고 밝히긴 했지만 당시엔 아무도 그런 신경망을 훈련할 방법을 알지 못했다. 따라서 비선형적인 문제가 대부분인 현실에서는 한계가 많은 해결책이었다. 결국 이를 계기로 인공신경망과 관련된 거의 모든 연구 지원금이 중단되는 사태가 벌어졌고, 인공신경망 연구는 오랜 기간 침체기를 겪게 된다.

깊은 수렁에 빠져 있던 신경망 연구를 구해낸 것은 ‘딥러닝의 아버지’라 불리는 제프리 힌튼 캐나다 토론토대 교수다. 힌튼은 1986년 오류 역전파(error back-propagation, 인공신경망 출력층의 오류를 계산해 오류를 가장 많이 줄일 수 있는 방향으로 가중치를 재조정, 신경망을 따라 거꾸로 전파함으로써 훈련 예제에 대해 정확한 결과가 나오도록 하는 방법) 기술이 MLP를 훈련할 수 있다는 혁신적인 연구를 발표했다. 이는 다가올 딥러닝 출현의 토대가 됐다.


딥러닝의 도래

1986년 힌튼 교수는 딥러닝 출현의 토대가 되는 핵심 연구(오류 역전파 기술)를 발표했다. (DBR Mini Box ‘인공신경망’ 참고.) 하지만 그의 연구가 현실에서 증명되기 위해서는 그 이후로도 상당한 시간이 흘러야만 했다. 캐나다 고등연구소(CIFAR)의 지원을 받아 연구하던 힌튼은 2006년 다층신경망(MLP)의 내부 계산값인 그래디언트(gradient, 오차의 미분값)가 사라지는 ‘그래디언트 소실(vanishing gradient)’ 문제를 해결할 방법들을 고안하게 됐고, 결국 딥러닝의 구조를 고도화하는 데 성공했다. 이후 그는 2012년 캐나다 토론토에서 열린 이미지 인식 경진대회3 에서 딥러닝 기반 알고리즘인 알렉스넷(AlexNet)을 공개해 1위를 차지한다. 무려 15만 장의 사진을 1000개의 카테고리로 얼마나 정확하게 분류하는지 경쟁하는 대회였는데, 당시 AlexNet의 이미지 인식률 정확도는 84.7%로 2위와 10%p 이상 차이를 내며 압도적인 성능을 증명해 냈다. 다른 팀들은 대부분 서포트벡터머신(SVM, Support Vector Machine, 주어진 데이터 집합을 바탕으로 새로운 데이터가 어느 카테고리에 속할지 판단하는 비확률적 이진 선형 분류 모델 알고리즘) 같은 전통적 머신러닝 기법을 사용한 반면, 힌튼은 신경망 방식의 딥러닝 모델에 기반해 월등한 성과를 거둔 사실이 알려지면서 이후 딥러닝은 전 세계적 화두로 떠오르게 됐다.(그림 3)



물론 딥러닝의 등장이 이와 같은 알고리즘 해결만으로 이뤄진 것은 아니다. 특히 컴퓨팅 하드웨어의 발전이 딥러닝 기술 실현에 큰 기여를 했다. 대표적으로 엔비디아(NVIDIA)는 그래픽처리장치(GPU)에서 수행하는 병렬처리 방식을 C프로그래밍 언어를 비롯한 산업 표준 언어를 사용해 작성할 수 있도록 하는 범용GPU(GPGPU) 기술인 쿠다(CUDA) 플랫폼을 2006년 개발했는데, 이는 기존 CPU 대비 엄청나게 빠른 속도로 분산 처리가 가능해 딥러닝의 복잡한 행렬 연산에 소요되는 시간을 크게 단축하는 효과를 가져왔다. 인터넷의 보급으로 사용자 데이터, 기업들의 업무 데이터 등 많은 데이터가 다년간 축적돼 옴에 따라 AI가 학습할 수 있는 기본 자료들이 풍부해졌다는 점도 딥러닝이 기존 머신러닝 대비 강점을 발휘할 수 있는 토양으로 작용했다. 기존 머신러닝은 데이터 수가 늘어남에 따라 성능이 증가했지만 특정 데이터양 이상으로 증가할 때 더 이상 성능이 늘어나지 않고 포화 상태가 되는 반면 딥러닝은 더 많은 수의 데이터를 학습할수록 더 높은 성능을 낼 수 있는 구조로 디자인돼 있기 때문이다.

이처럼 딥러닝은 훨씬 복잡하고 고도화된 모델을 통해 방대한 데이터를 활용, ‘자동화된 방식’으로 학습하고 추론할 수 있다는 점에서 이전의 머신러닝과 구분된다. 구체적으로 특징 엔지니어링을 자동화했다는 점에서 큰 차이가 있다. 이는 월등한 계산력과 풍부한 경험을 통해 인간 전문가에 의존하는 한계를 뛰어넘을 수 있게 됨으로써 기존 머신러닝 개발 프로세스의 병목을 마법처럼 해결할 수 있다는 걸 의미한다. 대신 딥러닝 개발 프로세스에선 기존보다 더 많은 수의 데이터를 구축해야 하는 부분이 병목으로 작용한다. 딥러닝의 성능도 데이터의 양과 질에 크게 좌우된다. 이에 따라 수많은 기업과 연구기관들은 딥러닝의 성능을 높이기 위한 데이터 확보 및 가공에 심혈을 기울이고 있다. (그림 4)



딥러닝 기술의 현주소

딥러닝에도 한계는 있다. 단적으로, 양질의 데이터 확보가 어려운 문제에 대해서는 기존 머신러닝보다 딥러닝의 결과가 더 안 좋을 수도 있다. 기본적으로 딥러닝 자체가 머신러닝보다 더 많은 양의 데이터를 필요로 하기 때문이다. 하지만 현재 딥러닝이 언어처리, 이미지처리, 음성인식 등 다양한 분야에서 기존 기술과 확연한 성능 차이를 보이며 최첨단 기술로 자리매김하고 있는 것은 분명한 사실이다.

딥러닝이 탄생하기 전 음성인식 기술은 실망스러웠다. 대부분 60∼70% 정확성에서 큰 진전이 없었던 은닉형 마르코프 모델(HMM)을 기반으로 하다 보니 몇 번이고 음성명령을 내려도 제대로 인식되지 않아 결국은 버튼을 직접 클릭해본 경험이 아마 누구에게나 한 번쯤은 있을 것이다. 하지만 현재 딥러닝이 적용된 음성인식 기술은 90%를 넘는 인식률을 보이고 있어 시장에서 요구하는 수준을 넘게 됐다. 이는 음성인식 관련 판매실적을 통해서도 확인해볼 수 있다. 최근 정부에서 수행한 조사에 따르면 이동통신 3사와 네이버, 카카오에서 판매한 AI 스피커 수는 전년 대비 약 2배가 늘었다.

영상 인식 기술에서의 발전도 단연 돋보인다. 기존에는 보행자 인식 문제에 있어 사람을 인식하기 위해 픽셀값 변화의 크기와 방향에 대한 특징4 들을 사람이 추출해 학습했었지만 정확성에 한계가 있었다. 하지만 특징 추출로부터 자유로운 딥러닝 기술은 이 분야에서도 혁신을 일으켰다. 안면 인식 기술에서도 일대 진전이 일어났다. 과거엔 눈, 코, 입 등 얼굴 구성 요소 간 거리 등을 특징값으로 고려했지만 딥러닝은 더욱 불규칙한 특징들을 자동으로 파악해 판별할 수 있게 한다. 가령, 페이스북은 사진을 업로드할 때 자동으로 지인을 태그하도록 추천해줘 사용자 간 상호작용을 촉진하고 있다. 이처럼 딥러닝 기술은 영상 인식의 판도를 바꿔 놓았고 영상 생성 및 동영상 분야로까지 그 영향력을 넓혀가고 있다.



기존 사업 영역 고도화 사례

기존 산업 영역에서 많은 연산과 비용을 필요로 했던 분야에서도 혁신이 일어나고 있다. 딥러닝의 특징이 특정 영역에 대한 전문 지식(인간 전문가)에 의존하기보다 방대한 데이터를 수집, 가공하는 빅데이터 방식을 활용하는 것인 만큼 연산의 속도와 정확성이 이전보다 획기적으로 향상됐기 때문이다.

다음 두 가지 예시를 들고 싶다. 신약 개발 분야는 개발에 필요한 시간도 굉장히 길고 투입해야 하는 비용도 상당히 큰 분야다. 최소 조 단위 비용이 투입되며 10년 이상은 지나야 가시적인 성과를 도출할 수 있다고 알려져 있다. 미국의 바이오 벤처기업 아톰와이즈(Atomwise)는 컨볼루션신경망(CNN, Convolutional Neural Network) 기반의 신약 후보 물질 스크리닝 시스템 아톰넷(AtomNet)을 개발했다. 아톰와이즈는 이 시스템으로 소분자 결합 예측을 함으로써 화합물 스크리닝의 속도를 최대 1만 배까지 끌어 올려 신약 개발 비용과 시간을 크게 절감했다.

X선 컴퓨터 단층촬영(CT)은 물리, 응용수학, 전산학이 어우러져 복잡하고 긴 계산을 수행해야 하는 기술 분야다. 산업용 CT의 경우 현장에서는 수초∼1분 이내의 택타임(takt time, 요구되는 생산 목표를 달성하기 위해 제품 하나당 소요되는 생산 시간)이 요구되지만 현실에선 아무리 성능이 좋은 기계라도 연산을 끝마치는 데 짧아야 10분, 길면 시간 단위가 소요됐다. 하지만 2016년부터 도입되기 시작한 딥러닝 재구성(DLR, Deep Learning Reconstruction) 기술로 인해 종전보다 더 높은 품질의 이미지를 더 적은 데이터로부터 획득할 수 있게 됐다. GE를 필두로 이제는 어지간한 글로벌 기업이나 연구소 가운데에는 딥러닝 기반의 CT를 사용하거나 시도하지 않는 곳이 없을 정도로 진단용 이미지 판별 시장에서 AI 활용은 매우 보편화돼 있는 상태다.



새로운 기술사업 분야를 만들어낸 사례

많은 연구기관과 기업들이 안면 인식과 진단용 이미지 판별에 도전할 때 새로운 영역에 도전해 성과를 올리고 있는 업체들도 속속 생겨나고 있다. 바로 양식업에 AI를 접목한 스타트업 아쿠아바이트(Aquabyte)다. 창업자는 미국인이지만 양식업 규모가 큰 시장을 찾아 노르웨이에서 창업했다. 이 회사는 1000테라바이트가 넘는 250만 마리의 생선 이미지를 학습해 0.8% 오차 범위 내에서 물고기의 무게를 예측한다. 이렇게 딥러닝을 기반으로 한 데이터 분석을 통해 물고기의 건강, 크기 및 최적 사료량을 결정함으로써 양식장 운영 비용과 폐사율 및 주변 생태계에 끼치는 영향을 모두 최소화하는 데 성공했다. 향후 아쿠아바이트는 어류의 품질을 예측하고 양식 자동화로까지 사업 영역을 확대해 나갈 계획이다.

이탈리아의 마이크로텍(Microtec)은 X선 CT 기술을 목재 촬영에 도입함으로써 목재 수확 프로세스에 혁신을 일으키고 있는 회사다. 구체적으로 나선형 CT 기술로 목재를 촬영해 목재의 내부 구조를 분석하고 딥러닝을 적용해 목재의 결함을 검출하고 가공 프로세스를 자동화했다. 그 결과 목재 생산량을 높인 것은 물론 목재가 최대한 높은 품질로 가공될 수 있도록 최적화하는 데 성공했다.

필자가 몸담고 있는 스페이스워크의 경우 건축설계 분야에 AI를 접목한 서비스를 구현하고 있다. 강화학습 기반의 건축설계 엔진으로 부동산 가치평가 서비스를 제공한다. 통상적으로 건축설계를 하려면 가장 먼저 토지 거래와 부동산 개발을 위해 규모에 대한 검토를 해야 한다. 법적 제한하에 지어질 수 있는 예상 건축 설계안을 만들기 위한 필수 작업이다. 그런데 이 일은 아무리 빨리해도 건축가가 최소 하루 이틀은 매달려야 한다. 이는 시간이나 비용 측면에서 부담해야 하는 비용이 만만치 않다는 뜻이다.

이에 스페이스워크는 딥러닝을 활용한 심층강화학습(deep reinforcement learning)을 통해 부동산 규모 검토 프로세스를 효율화하는 서비스를 개발했다. 전국의 수많은 토지에 해당하는 다양한 건축설계안에 대한 데이터세트를 구축하는 것은 현실적이지 않다. 더욱이 매년 수차례씩 변경되는 건축설계 법규와 주변 거래 데이터 등을 고려할 때 레이블된 데이터세트를 구축하는 것은 매우 비현실적인 만큼 심층강화학습을 통해 문제를 해결하는 방법을 택한 것이다.



현재 스페이스워크는 ‘랜드북’5 이라는 서비스형 소프트웨어(SaaS, Software as a Service)를 운영하고 있다. 외부 전문 연구기관으로부터 성능 테스트를 의뢰한 결과 인간 전문가 대비 평균 6만 배 빠른 속도로 규모 검토를 수행하는 것으로 확인됐다. 건축 법규로 인한 제한과 빅데이터 기반으로 산출된 정보, 그리고 건축 분야의 전문 지식을 갖춘 전문가들의 노하우를 반영해 마르코프 결정 과정(MDP, Markov Decision Process, 현재 상태와 행동을 보고 다음 상태와 보상을 정하는 의사결정 과정을 모델링하는 수학적 틀)을 설계함으로써 학습 시 데이터 효율을 높이는 솔루션을 제시하는 데 성공한 결과다. 현재 랜드북에서는 매달 약 30만 개 이상의 토지가 이러한 딥러닝 기반의 기술을 통해 검토되고 있다.

이 밖에 중국 IT 기업인 텐센트는 세계적인 농업 대학으로 유명한 네덜란드 와게닝겐대와 손잡고 농작물 재배에 심층강화학습을 적용, 확산시켜 나가기 위한 국제 대회를 주관하고 있다. 작년부터 매년 ‘자율온실국제대회(Autonomous Greenhouses International Challenge)’를 열고, 네덜란드 와게닝겐대 유리 온실에서 인공지능 센서들을 이용해 6개월간 농작물을 재배해 인간 농부들과 실력을 겨루는 대회를 운영하고 있다. 지난해 1회 대회의 경우 마이크로소프트 AI 전문가들이 주축이 된 팀이 대회에 참여, 사람 전문가들보다 17% 많은 수확량(오이)을 거뒀다. 알파고가 이세돌 구단을 이겼듯 AI가 인간 농부를 이긴 셈이다. 2회 대회인 이번 대회에서 재배해야 하는 농작물은 토마토다. 전 세계에서 다국적 기업과 AI, 농업 인재들로 구성된 21개 팀이 지난 9월 해커톤(hackathon) 방식으로 치러진 예선(원예 환경 시뮬레이터 프로그램으로 가상 공간에서 방울토마토 재배)에 참여해 5개 팀이 본선에 진출했다. 한국에서도 에이넷(A.net), 이지팜, 아이오크롭스(ioCrops), 서울대, 한경대 등 농업 관련 회사와 대학 소속 연구진 및 AI 기술기업인 스페이스워크 소속 엔지니어들이 ‘디지로그(Digilog)’6 팀을 결성해 도전했고, 당당히 2위로 결선에 진출하게 됐다. 앞으로 디지로그팀은 올 연말부터 6개월간 원격으로 네덜란드 와게닝겐대 유리 온실에서 실제 토마토를 재배하는 본선을 치르게 된다. 디지로그팀은 방울토마토 생장 단계를 고려한 강화학습을 통해 전문가의 행동을 모방하고 발전시키는 전략을 적용해 결선에 임할 계획이다.


마무리하며

미국의 유명한 액셀러레이터 와이컴비네이터(Y Combinator)는 시장에 집중하고 작은 프로젝트를 먼저 성공시키라고 기술회사들에 조언한다. 심도 있는 기술을 개발하더라도 반복적으로 제품 시장 적합성을 맞춰가라는 것이다. 이는 최근에 주목받는 AI 기술회사들이 취하고 있는 전략이기도 하다.

지금까지 크게 두 차례의 AI 빙하기가 있었을 정도로 인류는 그간 AI에 대해 큰 기대와 실망을 반복해왔다. 언제나 문제는 AI 상용화의 한계였다. 혹자들은 얼마지 않아 세 번째 AI 빙하기가 닥칠 것이라는 부정적 견해를 내놓기도 한다. 하지만 이번엔 양상이 좀 다른 것 같다. 딥러닝 도입 이후 과거에 성공하지 못한 기술들이 실제로 사용할 만한 기술이 돼 돌아오면서 적어도 필자가 보기엔 다시금 빙하기가 올 가능성은 낮아 보인다. 지금까지 AI의 역사를 돌이켜보면 많은 부침과 우여곡절이 있었지만 기술의 장점과 가능성, 한계를 보다 명확히 파악해 활용도를 높여 나간다면 버블 붕괴 없이 계속된 발전을 기대할 수 있을 것이다.


필자소개 이경엽 스페이스워크 최고기술책임자(CTO) lee@spacewalk.tech
필자는 KAIST에서 전기전자공학(주전공)과 경영과학(부전공)을 공부했고 동 대학에서 전산학 석사 학위를 받았다. 첨단 정밀기기 및 3차원 측정장비 개발업체 덕인의 알고리즘 팀장으로 재직했다.



동아비즈니스리뷰 286호 Leadership for the New Era 2019년 12월 Issue 1 목차보기