NUI

느낌대로, 직관대로… 첨단기술, 자연스러움을 낳다

106호 (2012년 6월 Issue 1)




마우스나 키보드 없이 컴퓨터에 손쉽게 명령을 내릴 수는 없을까? 이런 문제의식에서 탄생한 게 바로 NUI(Natural User Interface). NUI는 기존 CLI(Command Line Interface), GUI(Graphics User Interface)와는 달리 명령어와 사용법을 배우지 않더라도 사용자가 가진 경험을 기반으로 키보드나 마우스 없이 신체부위를 이용해 기계를 이용할 수 있게 도와주는 사용자 인터페이스다. ‘Natural’이라는 단어를 사용한 것은 기존 사용자 인터페이스와는 달리 사용법을 배우기 위해 특별히 외우거나 학습할 필요 없이 일상생활의 행동에서 사용하는 동작들을 기반으로 손가락이나 제스처, 음성 등을 통해 기기를 제어할 수 있기 때문이다. , 직관적인 사용이 가능한 사용자 인터페이스인 것이다.

 

NUI라는 명칭은 1970년에 MIT Media Lab에서 연구됐던 착용형 컴퓨터(Wearable Computer) 연구에 참여했던 Steve Mann Metaphor-free Computing 연구를 Natural(Direct) Interface로 언급하면서 처음 시작됐다고 알려져 있다. 그러나 실제 널리 사용된 것은 2008년 마이크로소프트의 Surface Computing의 연구 책임자인 de los Reyes가 차세대 UI 기술이 진보하는 방향을 언급하면서부터라고 볼 수 있다.

 

NUI의 의미

NUI의 가장 큰 의미는 기존의 CLI GUI 환경에서는 전문가나 특별히 학습한 사람들만이 IT 기기를 사용할 수 있었던 반면 NUI는 특별한 학습과정 없이 손짓, 몸짓, 말소리만으로도 IT 기기를 사용할 수 있어 사용자층을 확산하고 경제적으로 새로운 시장을 창출했다는 점이다. 초기 스마트폰이 특정 마니아층만 사용할 것이라는 예측을 무너뜨리고 현재는 사용자 2000만 시대에 돌입한 것이 실례다. NUI는 사람과 컴퓨터 사이의 사용자 인터페이스 측면에서 보면 컴퓨터 측면보다는 사람의 대화 방식에 가까운 기술이라 할 수 있다. , 컴퓨터와의 대화를 위한 사용자 인터페이스가 사람의 생활 방식을 닮아가는 쪽으로 변화하고 있다는 것을 의미한다. 이러한 변화는 소비자와 IT 기기 간의 간격을 줄여줌으로써 기존 IT의 소비자층을 확산시키고 있다. <그림1>을 보면 CLI GUI에서 NUI로의 기술 변화에 따라 사용 편리도가 증가하고 사용집단의 규모와 성격이 확대되고 있음을 알 수 있다. NUI 기술의 발전을디지털 신분 장벽을 허무는 21세기의 훈민정음이라고 표현하는 연구소의 보고내용도 있다. (출처: 제일기획 커뮤니케이션연구소)

 

NUI 종류

NUI 기술은 신체가 직접 기기에 접촉하는 접촉식 방식과 신체에 직접 접촉하지 않는 비접촉식 방식으로 나눌 수 있다. 각 방식에서 새로운 기술들이 지속적으로 개발되고 있으며 각각의 기술 또한 더욱 발전하고 있다. 접촉식 방식에는 멀티터치, 센서인식, 뇌파인식, 실감형 기술 등이 있으며 비접촉식 방식에는 음성인식, 영상인식(제스처인식, 얼굴인식, 시선인식) 기술 등이 있다.

 

접촉식 NUI

접촉식 방식의 대표격인 멀티터치 기술은 1960년대 후반 IBM에서 터치스크린 연구를 처음 시작한 이래 수많은 기기의 인터페이스로 시험되다가 최근 iPhone의 성공을 통해 스마트폰, 태블릿 PC와 같은 모바일 개인 디지털 기기의 기본 사용자 인터페이스로 일반화됐다.

 

센서 기술은 멀티터치 기술과 함께 모바일 기기를 보다 스마트하게 만들어주는 기술로 가속도, 조도, 중력, 지자기, 자이로스코프와 같은 것이 있다. 이러한 센서들은 스마트폰 사용 때 사용자 눈의 피로감을 덜어주고 스크린의 방향을 자동 조절해주며 스마트폰 위치에 대한 오차를 줄여준다. 최근 센서 기술은 더욱 발달돼 종류도 다양해지고 있으며 더 정확해지고 더 작아지고 있다. 이에 따라 다양한 스마트기기로 응용 분야를 넓히고 있다.

 

뇌파인식 기술은 사람의 뇌가 생각이나 활동할 때 발생하는 뇌파를 이용해 IT 기기를 제어하는 사용자 인터페이스 기술이다. 1970년대부터 연구가 시작됐지만 인간의 뇌가 워낙 복잡하고 뇌파측정을 위해 머리에 측정기가 접촉돼 있어야 하는 불편함으로 아직까지는 일반화되지 못하고 연구 수준에 머물고 있다. 하지만 사람의 신체 감각이 모두 뇌로 모이고 조정되기 때문에 측정기 착용에 불편함만 제거한다면 이 분야 기술이 궁극적인 사용자 인터페이스가 될 것이라고 연구자들은 예측하고 있다.

 

마지막으로 실감형 사용자 인터페이스(TUI· Tangible User Interface)는 실제로 물건을 만지고, 느끼고, 잡고, 옮기는 등의 행위를 통해 디지털 정보를 조작하는 사용자 인터페이스 기술로 MIT Media Lab Tangible Media Group에서 제안했다. 인간이 실생활에서 오랜 시간 발전시켜 온 감각과 운동을 사용자 인터페이스에 적용시킨 기술로 교육 분야에서 활용도가 높다. 특히 실제적인 훈련이 위험하거나 많은 비용이 소요되는 시뮬레이션 분야(선박, 항공기, 크레인 등)에서 전문인력을 양성하는 데 주로 사용된다.

 

비접촉식 NUI

비접촉식 NUI의 대표격인 음성인식 기술은 사람의 음성을 인식하는 사용자 인터페이스다. 기존에는 단순한 명령어 위주의 음성을 인식해 콜센터, 내비게이션 등의 사용자 인터페이스로 이용됐으나 2011년 말 애플의 iPhone 4S에서 음성인식기반의 지능형 가상 비서 서비스인 Siri가 선보이면서 재조명받고 있다.

 

영상인식 기반의 NUI는 카메라로 사용자의 얼굴이나 제스처를 인식해 사용자 인터페이스로 사용하는 기술이다. 사용자가 눈으로 타인의 외형과 상황, 동작을 인식해 판단하는 것과 비슷하다. 기술의 특성상 사람의 눈과 동일한 역할을 하는 것이라 광범위한 응용 분야를 가지고 있지만 카메라로 입력되는 정보들의 정확도가 떨어지고 입력받는 환경에 따라 잡음(조명, 흔들림, 포즈, 등의 변화)이 많이 발생하는 문제가 있다. 다른 기술에 비해 기술적 난도가 높다. 하지만 2009년 마이크로소프트의 Project Natal의 결과물인 Kinect가 제스처 인식 기술로 새로운 게임 사용자 인터페이스로의 성공적인 론칭을 하면서 새로운 전기를 맞고 있다.

 

영상인식 기반 NUI는 사람의 손, , , 몸통 등의 몸짓을 인식하는 제스처 인식 기술과 사람의 얼굴을 찾아 그 사람에 대한 식별, 속성(성별, 나이), 감정들을 판단하는 얼굴인식 기술로 구분할 수 있다. 더 세부적으로는 얼굴 부분 중에서도 시선이 어디를 쳐다보는지를 인식하는 시선인식 기술 등이 있다.

 


NUI 역사 및 최근 기술 동향

NUI 중 경제적인 측면에서 시장이 형성됐고 향후 성장 가능성이 높은 3가지 주요 기술인 멀티터치, 음성인식, 영상인식 기술 분야에 대해 역사 및 최근 기술 동향을 살펴보기로 한다.

 

멀티터치 기술

멀티터치 기술은 1960년대부터 연구가 시작됐으며 전시 및 다중 사용자를 위한 40인치 이상 대화면 멀티터치 기술과 개인용 모바일 기기를 위한 20인치 이하 소화면 멀티터치 기술이 나름대로 각자의 영역에서 발전해왔다. 2000년 이후 주목받은 멀티터치 관련 기술에 대해서 소개한다.

 

SmartSkin: 사용자 손을 전기가 흐르고 있는 곳으로 가져갔을 때 생기는 전자기적 변화를 감지해 멀티터치를 인식해 내는 기술로 2001년 소니 연구소의 Jun Rekimoto가 개발했다. <그림2>와 같이 전선을 격자로 배치해 둔 뒤 그 전선에 전기적 파동을 주기적으로 보내고 수신부에서는 그 전기적 파동의 미세한 변화를 잡아내고 그 변화가 가장 큰 곳을 계산해 손의 위치를 추정한다. 이 기술은 iPhone에서 사용하고 있는 정전식 방식의 아이디어의 모태가 됐다.

 


 

FTIR: 뉴욕대 교수로 있던 재미교포 Jeff Han이 만든 기술로 쉽고 저렴하게 구현할 수 있다는 장점이 있으며 TED에 소개돼 더욱 유명해 졌다. FTIR(Frustrated Total Internal Reflection)이라는 물리적 현상을 이용했다. 플라스틱 판 안에 들어간 빛은 계속해서 전반사를 일으키게 돼 바깥으로 빠져 나오지 못한다. 하지만 <그림3>과 같이 사람 손이 플라스틱 표면에 닿게 되면 빛이 산란돼 바깥으로 빠져 나오는 빛이 생기는데 이것을 카메라로 찍어보면 사람 손이 닿은 부분에서만 동그란 점이 맺히게 된다. Jeff Han은 이 기술을 기반으로 Perceptive Pixel이라는 대화면 멀티터치 전문기업을 설립, 운영하고 있다.

 


 

ThinSight : 마이크로소프트 Cambridge Lab Bill Buxton 2007년에 위 두 기술의 정확도 문제와 카메라 화각 공간 문제를 해결하기 위해 개발한 기술이다. <그림4>에서 보는 것과 같이 LCD 뒷면에 아래와 같은 광학적인 센서들을 배치해 손가락을 감지해 낸다. 눈에는 보이지 않는 적외선 발광소자와 그 적외선을 감지해 낼 수 있는 센서를 조합해 LCD 뒷면에 수십 개의 센서를 부착한다. 작은 카메라가 수십 개 달려 있는 형태로 생각할 수 있는데 사용자의 손이 가까이 오게 되면 적외선이 반사되는 양이 많아지게 되고 센서는 그것을 감지하게 된다. 그렇게 해서 얻은 센서들의 정보를 모아서 손가락 위치를 추정해 낸다.

 


 

Surface Computing: 마이크로소프트사에 2007년에 선보인 Surface Computing은 다중 사용자를 위한 대화형 테이블 형태로 멀티터치 기술을 상용화한 사례다. 테이블의 밑에 적외선 스펙트럼을 발사해 되돌아오는 영상을 인식해 멀티터치와 테이블 위에 놓여지는 물체를 인지하는 기술이다. (그림5) 기존의 멀티터치가 사람의 손동작 위주였다면 기기 간의 연동까지 고려됐다는 점에서 차별화했다. 삼성전자가 두께가 개선된 Surface 2 버전을 개발, 공개했다.

 


 

Capacitive Touch: iPhone 이전에 터치기술은 감압식(Resistive) 터치 패널을 사용해 사용자들이 물리적으로 화면을 눌러야만 위치가 인식됐다. 하지만 2007년 애플은 경쟁 기술인 투과형 정전식 터치스크린 기술을 채택했고 이 기술은 가벼운 터치에도 반응하고 터치 화면에 전자파가 입력됨으로써 손가락을 감지(근접 센싱 기술)할 수도 있다. 정전식 터치 기술은 사람의 손가락이 터치스크린을 누르게 되면 유리에 흐르던 전자가 신체로 이동하게 되고 센서는 전자적 변화가 있는 위치를 감지하는 기술이다. 그래서 사람의 신체부위나 특수하게 만든 스타일러스 펜 외에는 무생물체에는 반응을 하지 않도록 돼 있다. 투과형 정전식 스크린은 색감이 더 밝고 유리 터치 표면 또한 내구성이 더 좋고 표면 스크래치에 좀 더 강하다는 장점을 가지고 있다. 1세대 iPhone에서 애플이 이룬 혁신은 하드웨어적인 부분보다는 동시에 이뤄지는 터치 동작을 인식할 수 있다는 소프트웨어적인 부분이었다. 즉 멀티터치가 가능해져 지금 널리 사용되고 있는 화면 쓸어 넘기기, 회전, 그리고 핀치/확장 기능이 개발될 수 있었다. 이러한 멀티터치 기술이야말로 iPhone의 진정한 성과로 인정되고 있다. 최근 애플은 계속 소프트웨어를 발전시켜 새로운 스타일의 쓸어 넘기기 기능을 추가하고 최대 5개의 손가락을 지원하는 등의 터치 인식 동작을 확대하고 있다. 국내에서는 삼성이 갤럭시S에 능동 유기발광 다이오드(AMOLED) 스크린에 멀티터치 기술을 통합하는 데 성공했으며 슈퍼아몰레드(Super AMOLED)라는 브랜드로 선보이고 있다. 이 기술은 별도의 레이어가 아닌 스크린 자체에 직접 터치 센서가 위치해 디스플레이가 얇아지는 장점이 있다. 애플에서도 인셀터치(in cell touch) 기술이 iPhone5부터 적용될 것이라는 소문이 돌고 있으며 이 기술은 박형필름트랜지스터(TFT)LCD 제조공정에 멀티터치기술을 포함해 더 많은 유리와 센서를 사용할 필요가 없으며 더 얇고 더 밝은 스크린을 얻을 수 있는 것으로 알려지고 있다.

 

N-trig: iPhone과 갤럭시S와 같은 정전식 멀티터치 기술은 사용자에게 새로운 경험을 선사한 반면에 일반적인 노트에 필기를 하는 것과 같은 세세한 필기 기능을 구현하는 데에는 한계를 가지고 있다. 이러한 문제점을 해결하기 위해 손가락과 스타일러스 펜을 모두 지원하는 하이브리드식 멀티터치 센서 기술도 발전하고 있다. 이스라엘의 N-trig라는 업체는 정전식과 스타일러스 센서를 통합한 멀티터치 센서를 개발해 태블릿 PC에 공급하고 있으며 삼성에서는 와콤에서 개발한 방식의 하이브리드 멀티터치 기술을 사용하고 있다.

 

 

음성인식 기술

음성인식은 사람이 일생생활 속에서 마우스나 키보드 등을 사용하지 않고 목소리를 통해 원하는 기기 및 정보 서비스의 이용을 제어할 수 있는 기술로 1950년대에 등장해 지속적인 연구가 진행돼 왔지만 2000년대 중반까지 낮은 음성 인식률로 대중화되지 못했다.

 

음성인식은 컴퓨터가 음향학적 신호를 단어나 단어의 집합 또는 문장으로 변환하는 과정을 거친다. 마이크를 통해 입력받은 음성을 컴퓨터가 분석하고 특징을 추출한 다음 미리 입력된 음성모델 데이터베이스와 비교해 문자 혹은 명령어로 변환하는 기술이다. 인식된 결과는 명령이나 제어, 자료 입력, 문서 준비 등의 응용 분야에서 최종 결과로 사용될 수 있으며 음성 이해와 같은 분야에서는 언어 처리과정의 입력 방식으로도 사용이 가능하다. 음성이해란 단지 단어 한마디 한마디를 정확히 인식하는 것뿐만 아니라 발음되는 문장 전체의 의미를 이해하려는 시도로서 애플 iPhone에 적용된 Siri가 여기에 속한다고 볼 수 있다. 음성인식 기술은 모든 사용자를 대상으로 보다 많은 어휘, 자연스러운 대화체를 인식해 인식률을 높이는 방향으로 발전하고 있다.

 

음성인식 기술은 1952년 미국 AT&T Bell Lab의 단일 음성으로 말하는 숫자 인식 시스템 ‘Audrey’ 개발로 시작됐다. 1980년대 초 음성인식 기술이 인식할 수 있는 단어가 1000단어에서 1만 단어까지 늘어나면서 군사용, 로봇, 건강 분야 등에 널리 활용되기 시작했다. IBM은 통계적 기법을 이용한 대규모 음성인식 시스템 ‘Hidden Markov Model(HMM)’을 개발했는데 이 방식을 통해 단순하게 소리의 패턴을 찾기보다는 음성을 모델링하고 알려지지 않은 소리도 단어가 될 수 있는 가능성을 고려하기 시작한다.

 

음성인식 기술은 2000년대 초 휴대전화와 홈 오토메이션 등에 적용됐으나 낮은 인식률 때문에 대중적으로 확산되지 못했다. AT&T 1990년대 전화번호 안내 서비스에 음성인식 기술을 적용한 것이 최초의 상용화 사례로 꼽힌다. 대표적인 음성인식 기술 적용 사례는말로 거는 전화였으나 트렌드모니터의 2010년 조사에 따르면 이 기능에 대한 고객 만족도는 29.5%에 불과하고 무엇보다 음성인식률이 낮은 것이 가장 큰 문제였다. 휴대전화에 대고 큰소리로 여러 번 같은 단어를 말해야 하는 점이 사용자에게 거부감을 줬다.

 

클라우드 컴퓨팅의 활성화와 모바일 기기의 확산은 인식률 향상과 수요 증가를 견인하면서 주춤했던 음성인식 시장에 새로운 활력으로 작용했다. 특히 클라우드 컴퓨팅은 음성인식률 향상에 필요한 대용량 음성 데이터 저장과 실시간 처리 기술의 획기적 발전을 가능케 했다. 음성인식률 95%를 표방하고 있는 구글은 클라우드 서버에 2010년 기준으로 성별, 연령별, 사투리로 구분한 총 2300억 개의 영어 단어를 음성 데이터로 저장하고 있으며 이를 활용해 음성인식을 실시간으로 처리하고 있다. 이러한 방식의 기술은 스마트폰에 입력된 음성 데이터를 클라우드 서버로 전송하고 서버에서 음성인식을 수행한 후 그 결과를 스마트폰으로 재전송하는 방식을 사용하는 것으로 이용자의 사용량이 늘어날수록 음성 데이터가 더욱 축적돼 인식 결과의 정확도가 지속적으로 높아지게 된다. 모바일과 클라우드 시대의 도래와 더불어 음성인식 기술의 차별적 강점이 새롭게 주목받으면서 IT 대형 벤더를 중심으로 음성인식 기술 경쟁이 본격화되고 있으며 다른 산업으로도 확대 적용되고 있는 추세다. 구글, 애플, 마이크로소프트 등 주요 IT 업체들은 자사의 핵심 제품과 서비스에 음성인식 기술을 적용 중이며 핵심 기술보유 업체와의 제휴 혹은 적극적 인수를 통해 관련 기술을 확보하고 있다. <1>은 구글, 애플, 마이크로소프트의 음성인식 기술확보현황이다. <그림6>은 음성인식의 발전 방향을 보여준다.





 

국내에서는 ETRI를 중심으로 음성인식 기술이 개발돼 다음, 파인디지털 등 국내 기업 위주로 전파돼 활용되고 있다. 해외 업체 기술의 활용은 한국어의 특성상 아직 미미한 수준이다. 반면, 다양한 언어에 대한 세계 최고의 음성인식 기술을 보유한 Nuance사에 국내 제조사들이 지급하는 로열티 비용은 연간 1000억 원 수준에 육박하고 있다. 구글 한국어 음성검색 서비스는 영어, 중국어, 일본어, 프랑스어 등에 이어 8번째로 출시되는 등 다국적기업 서비스 적용 시 우선순위가 높지 않은 편이며 외산 솔루션들은 아직 국내 시장을 장악하지 못하고 있다.

 

음성인식 기술은 현재 애플의 Siri가 가장 많은 관심을 받고 있으며 음성인식 기술 세계 1위 기업인 Nuance IBM과 협력해 헬스케어 등의 영역으로 사업화를 다각화하고 있는 상황이다. Nuance Dragon Go라는 안드로이드용 앱을 선보였으나 Siri와는 달리 웹 서비스에 대해서만 음성으로 질문하면 이에 맞는 콘텐츠를 보여주는 기능을 제공하고 있다. 구글은 현재 모바일폰에서 음성검색 등의 서비스를 성공적으로 서비스하고 있으며 Siri에 대응하기 위해 Majel이라는 코드명으로 개인 비서용 기술을 개발하고 있다. 마이크로소프트는 윈도폰 7을 기반으로 Ziggy를 개발하고 있으나 서비스 영역이 제한돼 있다. 국내에서는 삼성이 Nuance에 인수된 Vlingo의 음성인식 기술을 채택한 Voice Talk을 개발해 스마트폰에 탑재하고 있다. Voice Talk Siri와는 달리 인공지능 기술이 탑재돼 있지 않다.

 

영상인식 기술

영상인식기반 NUI 기술은 크게 제스처인식, 얼굴인식, 시선인식 등 3가지로 구분할 수 있다. 제스처인식기반 NUI 기술은 손, , 다리 등의 신체 부위를 활용해 기존의 마우스나 조이스틱이 하던 역할 등을 대신하는 보편적인 UI를 제공해준다. 얼굴인식 기반 NUI 기술은 사람의 식별 및 속성, 감정 등을 인식해 그 사람에게 맞는 UI를 구성해줌으로써 차별화되고 개인화된 UX를 경험할 수 있게 해준다. 시선인식기반 NUI 기술은 기존에는 거동이 불편한 사람들의 마우스와 같은 역할로 이용됐으나 최근에는 마케팅 측면에서 사람들의 시선이 머무는 위치를 측정하거나 3차원 입체디스플레이 및 홀로그램 등의 기술을 구현하기 위한 UI 기술로 이용되고 있다. 여기서는 제스처인식과 얼굴인식 기술 중심으로 설명하기로 한다.

 

제스처인식 기술: NUI 기술 중 가장 늦은 1990년대부터 개발이 시작됐다. 최근 Kinect의 성공으로 비접촉식 기술로 인식되고 있지만 기존의 센서나 장치를 사용자의 신체 일부분에 부착해 부착된 센서나 장치로부터 획득된 사용자의 움직임 정보를 이용해 상호작용을 하는 접촉식 제스처인식 기술이 1990년대부터 개발돼 사용되고 있다. 비접촉식 제스처인식 기술은 주로 카메라를 이용해 사용자의 움직임 정보를 얻고 이를 통해서 상호작용하는 기술로 사용자의 몸에 특정 마커를 부착해 움직임을 비교적 쉽게 추적할 수 있는 마커(Marker) 기반 기술과 순수 시각 기술만을 이용하는 마커리스(Markerless) 기반 기술로 구분된다.

 

마커리스기반 제스처인식 방법은 마커를 이용하는 불편함을 해소하기 위해서 카메라만을 사용해 사용자의 움직임을 추적하는 방법이다. 이 기술은 마커기반 제스처인식 기술에 비해 사용이 편하고 상대적으로 싸다. 하지만 보편화된 NUI 기기로서 마커리스 제스처인식 기술을 개발하기 위해서는 저렴한 카메라 장비를 이용해 사용자의 3차원 공간에서의 움직임을 추적하는 기술이 필요하다. 이러한 요구에 의해 개발된 것이 바로 마이크로소프트의 Kinect.

 

Kinect 2009 E3 Show에서 차세대 홈 엔터테인먼트 탄생이라는 의미의 ‘Project Natal’이라는 코드명으로 Xbox 360의 게임인터페이스로 발표됐으며 2010 11월에 Kinect(Kinectic Connect의 합성어)라는 입력장치로 정식 출시돼 짧은 기간 가장 많이 팔린 디바이스로 기네스북에 올랐다. 이후 NUI 분야의 새로운 지평을 열었다는 호평과 함께 Kinect 센서를 다양한 분야에 적용하려는 시도로 마이크로소프트는 2012 2, 게임 용도가 아닌 임베디드 기기에서 사용될 수 있는 상업용 버전인 ‘Kinect for Windows’를 출시했고 동시에 Windows 기반 임베디드 기기에 Kinect 센서 디바이스를 쉽게 사용할 수 있도록 ‘Kinect for Windows SDK’도 출시했다. 이로써 Kinect for Windows는 디지털 사이니지, 키오스크, 스마트TV, 의료기기 등 최신 IT 기기의 NUI로 주목받고 있다.

 

얼굴인식 기술: NUI 기술에서 사람의 상황을 판단하기 위해 이용되는 얼굴인식 기술이 연구되기 시작한 지는 20여 년이 넘었지만 주로 사람을 식별을 하기 위한 출입통제 및 보안 분야에서 연구돼 오다 최근 스마트폰과 스마트TV 등에 얼굴인식 기술이 적용되면서 사용자 맞춤 정보를 제공하기 위한 개인화 기술로 새로운 관심을 받고 있다.

 

얼굴인식 기술에는 전통적으로 영상 내의 사람이 누구인지를 인지해내는 식별기술과 얼굴의 성별과 연령대를 인지해내는 속성인지 기술, 그리고 얼굴의 감정상태를 파악하는 감정인지 기술 등이 주로 연구되고 있다. 개인화 측면에서 얼굴인식 기술의 중요성이 부각되면서 구글, 애플, 페이스북, 인텔 등이 얼굴인식 업체들을 인수해 자체 서비스를 스마트화하는 연구개발이 진행 중이다. 구글은 2011년에 미국 CMU(카네기멜론대)에서 스핀오프한 세계 최고의 얼굴인식 업체인 PittPatt을 인수했으며 애플은 2010 PolarRose를 인수해 얼굴인식 기술을 이용한 UX 기술을 개발 중이다. 특히, PittPatt의 얼굴인식 기술은 구글의 고글스(goggles) 서비스와 금년 말 출시를 앞두고 있는 증강인류(augmented humanity, 에릭 슈밋이 구글 모바일 혁명 언급)를 위한 스마트기기인 ‘Project Glasses’의 결과물인 구글 안경의 NUI 기술로 활용될 것으로 알려져 있다.

 

국내 기업 중에서는 올라웍스, 휴드 등에서 얼굴식별, 속성인지 및 감정인지 기술들이 개발돼 NUI 측면에서 시범 적용되고 있다. <그림 7>은 얼굴인식 기술을 이용해 시청자가 TV를 보고 있는지, 다른 곳을 보고 있는지, 자는지를 판단해 안내문이나 절전을 수행하는 화면(휴드)이다.

 


 

NUI 기술활용 사례

TV 사용자 인터페이스: ES8000 (삼성) - 삼성전자가 CES 2012에서 선보인 스마트TV의 음성인식과 제스처인식 기술들은 2010년 마이크로소프트사가 인수한 Canesta사가 먼저 개발했으나 삼성전자가 ES8000이라는 제품을 먼저 출시함으로써 시장의 많은 관심을 받고 있다. ES8000에서는 음성인식 기술을 이용해 기본적인 TV의 기능을 제어할 수 있으며 손바닥 인식 기술을 이용해 마우스의 역할을 수행할 수 있다. 기타, 얼굴인식 기술을 사용해 사용자의 개인선호도를 저장해 제공하는 기능도 있다. ES8000은 미래형 TV 사용자 인터페이스의 사례를 제시하고 있다.

 

미래형 가구: Surface 2 (삼성, 마이크로소프트) - Surface 2 LCD 대화면 위에 사람의 손뿐만이 아니라 RFID, 핸드폰, 주사위와 같이 사전에 등록된 물체들을 인식해 해당하는 물체에 적합한 정보를 알려주는 미래형 테이블의 사례를 보여주고 있으며 미래형 가구의 가능성을 보여주고 있다. (그림8)

 

 

자동차용 개인비서: Sync (포드, 마이크로소프트) - 포드(Ford) 자동차는 마이크로소프트와 협력해 음성으로 휴대전화와 엔터테인먼트 시스템을 조작할 수 있는 음성인식 시스템 ‘Sync’를 주요 차량에 적용했다. 국내에서는 내비게이션 업체인 파인디지털이 150만 단어 수준의 어휘 인식이 가능한 음성인식엔진 FineSRTM 7.0을 탑재한 내비게이션을 출시한 사례가 있으며 목적지 검색뿐만 아니라 DMB 채널 전환과 화면 밝기 및 음량 등을 음성으로 조작할 수 있다. 이 분야는 Siri의 성공으로 더욱 더 발전할 것으로 예측된다.

 

언어발음교정교사: 음성인식 기술이 가장 먼저 적용된 응용 분야이기도 한 외국어 학습 분야는 음성인식 기술이 억양 및 발음 교정을 위해 활용되고 있으며 최근 의사소통 중심의 실용 영어가 중요시되면서 교육 분야에서의 적용이 더욱 확대되고 있다. 특히 음성인식을 활용한 발음교정 프로그램이 잇따라 출시되고 있는데 원어민의 발음을 듣고 이용자가 주어진 단어 혹은 문장을 발화하면 프로그램이 직접 음절 단위로 발음, 억양, 강세, 속도 등을 분석해 잘못된 부분을 교정해 주는 형태로 활용되고 있다.

 

유통플랫폼: 리테일 익스피리언스 플랫폼(마이크로소프트) - 2012 NRF 콘퍼런스에서는 Kinect를 활용해 쇼윈도를 지나가는 고객을 인식해 실시간으로 고객에게 맞춤 상품을 제안하는 광고를 보여주는 방식을 시연했다. 지나가는 사람을 스캔한 후 성별, , 몸무게, 인종, 나이 등을 추측해 Windows Embedded POSReady 7에서 고객성향에 맞는 제품을 추천해 주는 방식이다. CES 2012에서는 매장 내부에서 가상 탈의실을 이용해 번거롭게 직접 다른 옷으로 갈아 입는 수고를 하지 않고서도 선택한 의류가 자신 본인의 몸에 어울리는지 알아볼 수 있는 새로운 경험을 선보임으로써 미래의 오프라인 매장의 사례를 보여주고 있다.

 

의료분야: 미국 미네소타대의 의학연구진은 Kinect를 의학연구용 기계에 응용해 강박장애나 주의력 결핍장애와 같은 일련의 정신장애 증상을 보이는 아동들을 진단하기 위한 의료기기를 개발했다. Kinect가 여러 대 설치된 작은 방에서 아이들이 자유롭게 장난감을 갖고 놀도록 하고 이런 아이들의 행동을 모니터링 시스템을 전달해 증상을 진단하는 방법을 개발한 것이다. 아이들의 몸에 센서를 부착해 진단하는 형태의 의료기기를 사용하던 때보다 10만 달러 이상의 의료기기 비용을 절감하는 부수적인 효과를 달성했다.

 

NUI 향후 발전방향

NUI 기술 발달은 IT 소외계층을 줄이고 IT를 대중화하는 데 중요한 역할을 하고 있다. 그만큼 직관적인 사용을 가능하게 해주는 NUI 기술이 중요해진 것이다. 현재의 NUI 기술은 보다 직관적인 사용형태를 가지기 위해서 사람의 일상 행동과 사람과 사람 사이의 의사전달 형태를 닮아가고 있으며 향후 이러한 기능을 넘어서 사람이 행동을 하기 전에 미리 알아서 처리해주고 실제로 존재하지 않는 것을 마치 실제로 존재하는 것과 같은 느낌을 가질 수 있는 형태로 발전할 것이다.

 

특히 멀티터치 기술은 2차원적인 멀티터치에서 향후 대중화될 3차원 디스플레이를 위한 3차원적인 멀티터치로 발전할 것으로 예상된다. 손가락이나 특정 펜에 의존하는 입력방식과 같이 느낌을 흉내 내는 정도가 아니라 실제 펜과 붓을 그대로 사용하도록 해줌으로써 도화지나 노트 등에 필기하는 느낌을 그대로 살릴 수 있는 기술로 발전할 것이다. 정전식 터치 기술의 근접 센서 기능은 터치 스크린을 3차원화할 수 있으며 손가락의 인접도뿐만 아니라 손가락을 사용한 동작까지 해석할 수 있다는 잠재성이 있다. 예를 들어 사용자가 손가락을 뻗으면 터치 스크린은 그것을 화면상에 있는 이미지를 줌-인하라는 명령으로 해석할 수 있다. 또 마이크로소프트의 Surface에서 보여줬듯이 사람의 신체적인 터치만이 아닌 다른 스마트기기들의 터치도 인지해 스마트기기들이 서로 겹쳐 있을 때 서로를 인지하는 기술들로 발전할 것이다.

 

 

 

음성인식과 영상인식 기술은 별도의 명령방식이나 규칙을 배울 필요 없이 친한 사람과 대화하고 일상의 행동을 하는 것을 인지하는 방향으로 발전할 것이다. 음성인식기술의 Siri가 대화식 인터페이스의 성공가능성을 열어줬듯이 음성인식 기술도 대화방식으로 발전할 것이며 더 나아가 친한 친구 사이에 서로의 경험을 공유해 서로의 상황을 알고 하는 대화까지 이해하는 단계로 발전할 것이다. 또한, 음성에 실린 감정까지 파악해 같은 단어라 하더라도 서로 다른 의미를 가지는 것을 판단하는 기술까지 개발될 것이다. 이에 더해 일상사에서 보면 상대방의 무의식적 행동이나 얼굴에 나타나는 표정으로 상대방이 어떠한 감정이나 의사를 가지고 있다고 판단하는 경우들이 많은데 NUI 기술도 이런 것을 이해할 수 있는 수준으로 발전할 것이다.

 

현재 실세계에 존재하는 것을 가상세계에 옮겨서 실제와 가깝게 구현해내는 것이 활성화돼 있다. 그리고 이렇게 구현된 가상세계를 오감을 이용해 실세계처럼 체험할 수 있는 실감형 장비를 개발하는 연구들이 꾸준히 이뤄지고 있다. 또 다른 한편으로는 오감을 체험할 수 있는 실감형 장비를 개발하는 방식이 아닌 영화 매트릭스에서 나오는 것같이 뇌에 직접적으로 정보를 가해 현실처럼 느끼게 해주는 BCI(Brain Computing Interface) 기술에 많은 연구비를 투자하고 있다. 소니에서는 뇌의 특정 위치를 초음파로 자극해서 사람이 맛이나 냄새 혹은 그 느낌까지 느낄 수 있는 기술에 대한 특허를 출원한 바 있다.

 

NUI 기술끼리의 융합도 일어날 것으로 전망된다. NUI 기술은 하나의 기술이 더욱 깊이 있고 세밀하게 발전해 나가겠지만 다른 NUI 기술들과 접목하면서 새로운 NUI 기술로 재탄생할 것으로 예측된다. 최근 마이크로소프트에서는 Kinect의 기술과 시선인식기술, 증강현실 기술들을 접목한 새로운 형태의 3차원 NUI 기술인 ‘HoloDesk’의 연구결과물을 곧 제품으로 선보인다고 발표했다. 이 제품은 가상세계의 3차원 정보와 실세계의 사람 손이 실세계에서 가상의 물체를 만지는 것과 같은 인터페이스 형태를 제시하고 있다.<그림 9>는 사람 손 위에 투명한 시스루(see-through) 디스플레이 장치가 있어 그 장치를 통해서 사람 손위에 가상의 물체를 제어하는 것을 보여준다.

 

 

NUI 기술의 발전은 새로운 스마트기기를 만들어 낼 것이며 NUI 기술은 새로운 스마트기기에 최적화돼 더욱 발전해 갈 것이다. 구글이 올해 말 출시한다는 Project Glasses의 안경식 스마트기기<그림 11>와 미국 MIT의 미디어 랩에서 2009 2월 발표한 Sixth Sense<그림10>는 대표적인 착용형 스마트기기다. 향후 이처럼 스마트기기를 착용한 사용자의 입장에서 음성과 제스처를 인식하는 새로운 NUI 기술이 나타날 것으로 예측된다.

 



 

사람은 본질적으로 하드웨어를 몸에 지니는 것을 불편해 한다. 이러한 착용형 스마트기기가 가진 불편함을 해소하기 위해 특정 장소에서 영화에서나 볼 수 있는 마법과 같이 사용자를 인식해 사용자의 행동에 따라 스마트기기의 기능을 실세계로 소환해서 사용할 수 있도록 해주는 소환컴퓨팅(Invoked Computing) 기술이 현실화될 것이다. 이 기술은 도쿄대 연구그룹이 최근 발표한 연구결과로 정해진 공간 안에서 사람의 행동을 추적 인식해 사용자에게 제스처와 음성명령에 따라 TV, 전화기, 게임 등을 실세계에 구현해주는 클라우드와 증강현실 등의 기술이 결합해 만들어 낸 최첨단 NUI 기술로 홈네트워크 기술의 미래를 보여주고 있다. (그림12)

 


 

시사점

스마트기기를 생산하는 전문 업체뿐만 아니라 타 산업 분야에서도 소비자들과의 거리를 줄이기 위해 NUI 기술은 더욱 중요해졌다. 정보가 폭증하는 시대에 정보를 소비자에게 어떻게 효과적으로 전달할 것인가 하는 것은 결국의 매출의 증가로 이어지며 이를 해결하기 위한 기술로 NUI가 더욱 중요해지고 있다. 의류, 교육, 의료 분야와 같은 타 산업 분야에서도 생산성을 높이고 소비자들과의 간격을 줄이기 위해서는 상용화돼 있는 NUI 기술들의 채택, 각 분야에 특화된 기술로의 변환이 필요한 시점이다.

 

앞으로는 NUI 경쟁력이 곧 제품의 경쟁력을 결정해주는 중요한 잣대로 작용해 새로운 NUI 기술 경쟁이 가열되고 수요도 증가할 것이다. iPhone, Wii, Kinect 모두 NUI의 차별화를 통해 성공한 제품들로 스마트폰과 게임기에서 새로운 트렌드를 만들어 냈다. 기술이 복잡해 질수록 제품과 소비자 사이의 간격은 넓어지게 되는데 이러한 간극을 줄일 수 있는 것은 결국 인터페이스 기술로 해결될 수 있다. 향후 출시되는 신제품이 시장에서 성공하기 위해서는 차별화된 NUI 기술이 필수적인 요소이므로 NUI 기술 개발에 보다 많은 관심과 투자가 필요하다.

 

또한 차세대 NUI 기술은 한 가지 종류가 아닌 다양한 NUI 기술이 접목돼 새롭고 혁신적이며 사람의 행동패턴에 친화적인 NUI 기술로 진화할 것으로 보인다. 사용자의 신체적, 인지적, 감성적 특성을 이해해 사람을 이해할 수 있고 사람에 친화적인 UX를 높여줄 수 있는 기술로 개발돼야 한다. 이러한 NUI를 개발하기 위해서는 사람을 이해할 수 있어야 하기 때문에 기술적인 측면과 함께 심리학, 인문학과 같은 타 분야의 학문들과의 하이브리드한 연구가 필요하다.

 

이에 따라 기업들은 NUI 기술의 최근 동향을 지속적으로 모니터링하고 전문업체와의 전략적 제휴를 통해 핵심기술을 확보하는 것이 중요하다. NUI 기술은 어떠한 기술보다 관련 분야에 미치는 시장의 파급력이 막강하다. 그러므로 NUI의 핵심기술을 확보하기 위한 노력과 투자가 필요하다. 현재 NUI의 핵심기술들은 선진업체들이 주도하고 있으므로 선진업체들의 개발동향을 주시하고 이들 업체와의 전략적 제휴를 통해 요소기술을 확보하는 전략이 필요한 시점이다.

 

이정헌 경희대 컴퓨터공학과 겸임 교수 opendori@gmail.com

필자는 경희대 전자계산공학과를 졸업하고 같은 학교에서 영상처리 분야 공학박사 학위를 받았다. MG Systems/Mediachorus에서 영상인식기술의 연구책임자로 있었으며 2009년부터 4년 연속 영상 분야 연구자로 세계인명사전에 등재됐다. KIAT, KEIT, NIPA, NIA 등에서 실감 미디어(immersive media) 관련 기획/평가위원, PS/PM 등을 지내고 있으며 현재 경희대 컴퓨터공학과 교수(겸임)로 있다.

동아비즈니스리뷰 348호 The New Chapter, Web 3.0 2022년 07월 Issue 1 목차보기