로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

Medical Imaging AI

꽉 막힌 의료 데이터 ‘숨통’을 틔워라

이주헌 | 373호 (2023년 07월 Issue 2)
Article at a Glance

왜 의료 AI 분야에서는 챗GPT처럼 사회에 반향을 일으키는 혁신 성과가 먼저 나오지 못하는 걸까? 그 이유는 실생활 데이터와 의료 데이터의 차이에서 찾을 수 있다. 소셜미디어 데이터, 소비자 데이터, 금융 데이터 등의 실생활 데이터는 광범위하게 공개돼 있을 뿐만 아니라 라벨링을 거쳐 그라운드 트루스가 확립돼 있는 경우가 많다. 데이터 식별과 분류에 전문적인 지식이 필요하지 않기 때문에 일반인을 활용해 비용을 절감할 수 있기 때문이다. 이에 반해 의료 데이터는 공개가 제한될 뿐만 아니라 데이터 정제와 후처리에 시간과 비용이 많이 들어 그라운드 트루스 데이터를 얻기 어렵다. 이런 개방성과 사용 가능성의 제한은 의료 AI 알고리즘 개발 및 상용화의 걸림돌로 작용하고 있다.



인공지능(AI)이 배우고 분석할 수 있는 데이터의 수는 하루가 다르게 기하급수적으로 늘어나고 있다. 이제는 AI 와 결합되지 않은 전자제품, 휴대폰 앱을 찾기 어려울 정도다. 이렇듯 AI가 실생활에서 뗄 수 없는 관계가 돼 가는데 왜 의료 분야는 AI 의 발전상을 따라가기에 급급하고 시장을 선도하는 혁신을 내놓지 못하는 것일까? 챗 GPT와 같이 사회에 반향을 일으키는 괄목할 만한 성과가 의료 분야에서 먼저 나오지 못하는 이유는 무엇일까? 필자는 그 차이가 데이터 자체의 수와 접근성에 있다고 본다. 이 글을 통해 AI 개발에 요구되는 실생활 데이터와 의료 데이터의 특징과 차이점을 짚어보려 한다.

GettyImages-1327568873


AI 알고리즘 개발을 위한 실생활 데이터

실생활 데이터에는 소셜미디어 데이터, 소비자 데이터, 금융 데이터 등이 포함돼 있다. 그리고 AI 알고리즘 개발을 위해 점점 더 많은 실생활 데이터가 활용되는 추세다. 이미 구글, 아마존, 메타 등의 기업들은 방대한 실생활 데이터를 바탕으로 혁신을 주도하고 있으며 실생활 데이터를 활용해 자연어처리, 컴퓨터 비전, 음성 인식 등 광범위한 애플리케이션을 위한 AI 알고리즘을 만든다.

예를 들어, 페이스북과 인스타그램 같은 소셜미디어 플랫폼은 사용자의 행동, 선호도, 관심사에 대한 대규모 데이터를 생성하며, 이 데이터를 콘텐츠 개인화, 제품 추천, 사기 탐지 등의 AI 알고리즘 개발에 이용한다. 아마존과 같은 전자상거래 플랫폼도 사용자 구매, 검색 정보, 브라우징 기록 데이터 등을 수집해 제품 추천을 개선하고 원가 전략을 최적화하며 시장 동향을 파악한다.

그중에서도 특히 이미지 분석을 위해 공개적으로 접근 가능한 데이터는 AI 알고리즘 개발에 크게 기여할 수 있다. 오늘날 AI 연구의 전성기를 가져온 인공 신경망 모델인 알렉스넷(AlexNet)도 이미지넷(ImageNet)같이 공개된 이미지 데이터를 이용한 챌린지를 통해 개발됐다. 이미지넷에는 수백만 개의 이미지와 수천 개의 범주에 대한 인간 주석 레이블 및 경계 상자(Bounding box)1 가 포함돼 있는데 이것이 머신러닝에 기여하면서 넓게는 AI, 좁게는 딥러닝의 출현에 중대한 공로를 세웠다. 공개적으로 접근 가능한 다른 실생활 이미지 데이터세트와 플랫폼도 크게 늘었다. 이런 데이터들에는 이미지넷보다 높은 해상도를 가지거나 사람이 단 주석이 더해진 것들도 있다. 특히 LAION이라는 비영리 조직은 LAION-5B와 같은 대규모 텍스트-이미지 페어(text-image pair) 데이터세트를 공개했는데 이 데이터세트에는 수십억 개의 클립 필터된 이미지-텍스트 페어가 포함됐다.

이처럼 실생활 데이터에 대한 AI 분야의 성공이 가능했던 것은 AI 알고리즘 개발에 필요한 고품질의 데이터가 뒷받침됐기 때문이다. 특히 AI 모델을 학습시키기에는 정확한 데이터이자 정답 값을 뜻하는 그라운드 트루스(Ground truth)의 존재 유무가 중요하다. 그라운드 트루스란 머신러닝 및 컴퓨터 비전 분야에서 말하는 정확한 결과 혹은 목표 값이다. 이는 알고리즘 혹은 모델에 이 데이터가 정확히 어떤 것인지를 알려주는 역할을 한다. AI 모델은 주어진 목표에 대한 예측을 하고 그 예측 값과 그라운드 트루스를 비교하는데 만약 그 둘에 차이가 발생한다면 그 차이를 줄이기 위해 모델을 업데이트하고 발전시키는 과정을 거친다. 이 과정을 모델 ‘학습(training)’이라고 한다.

생활 데이터에서 고품질의 그라운드 트루스를 확립하는 것은 그리 어렵지 않다. 사진에 강아지가 있는지, 아니면 고양이가 있는지 결정하는 것은 일반적인 사람들에게 전혀 어려운 일이 아니기 때문이다. 이에 그라운드 트루스 결정에 일반인들을 활용하면 비용상 효율적일 수 있다.

아마존 메카니컬 터크와 같은 크라우드 소싱 플랫폼이 만들어진 것도 실생활 데이터들을 위한 그라운드 트루스 확립을 위해서다. 이런 플랫폼은 사용자가 이미지 라벨링이나 오디오 전사와 같은 인간 지능을 필요로 하는 업무를 게시할 수 있게 해주고, 근로자들은 이런 업무를 완료하는 대가로 대금을 받는다. 이렇게 다양한 경로로 기업들은 AI 알고리즘을 학습하는 데 필요한 라벨링된 데이터를 효율적으로 수집할 수 있다. 아마존 메카니컬 터크 외에도 클릭워커(Clickworker), 크라우드플라워(CrowdFlower) 및 플로리픽 아카데믹(Prolific Academic) 등 대체 플랫폼들이 새롭고 더 다양한 배경의 일반인들의 답변을 취득하는 것을 도와준다.

이렇게 라벨링된 데이터 중에는 명백한 오류가 존재하지 않는 데이터도 있지만 약하게 라벨이 지정된 데이터(weakly labeled data)도 있다. 이런 데이터들은 그라운드 트루스에 부분적으로만 근접하거나 불완전한 라벨 또는 더 넓은 범주를 허용한다. 데이터의 수가 늘어남에 따라 요즘 많은 AI 알고리즘은 이렇게 소프트 라벨링된 데이터를 통해서도 학습을 한다. 한 예로, 매일 수백만 명의 사용자가 인스타그램 같은 소셜미디어에서 해시태그(#) 형태의 라벨을 단 다양한 사진을 게시하는데 이렇게 해시태그가 달린 사진들이 바로 약한 레이블 데이터다. 해시태그가 해당 사진 분석을 위한 AI 알고리즘 학습에 그라운드 트루스로서 활용된다는 뜻이다. 이렇듯 실생활 데이터와 라벨 페어(Data – Label pair)가 기하급수적으로 증가함에 따라 수많은 AI 실생활 데이터 기반 알고리즘이 급속도로 발전하게 됐다.

네이버, 다음 등 포털은 뉴스, 블로그 글, 생활 정보를 정리해 노출함으로써 일반인의 정보 검색 시간을 줄여준다. 이런 포털처럼 최근에는 AI 학습에 필요한 데이터와 알고리즘을 정리해 놓은 플랫폼들이 굉장히 많아졌다. 메타AI와 같은 영리회사2 뿐만 아니라 AI 연구자 포털(AI Researchers Portal)3 같은 정부 포털에서도 공개 데이터세트, 현재 가장 발전된 AI 알고리즘들을 검색할 수 있다.

이렇듯 실생활 데이터는 소셜미디어 유저, 넷플릭스 시청자, 아마존 소비자 등 수많은 데이터 제공자와 메카니컬 터크 등 수많은 라벨링 서비스 플랫폼 등의 참여자 덕분에 빠른 속도로 라벨링되고 있다. 더욱이 많은 부분이 공개가 돼 있기에 연구자들이 AI 알고리즘 개발과 적용에 활용하는 데 어려움이 없다. 하지만 의료 데이터 현황은 이런 실생활 데이터 현황과는 사뭇 다르다. AI 개발을 위한 전자 건강 기록, 의료 이미지, 유전체 데이터 등 의료 데이터를 모으고 알고리즘 개발에 맞게 준비하는 것, 그리고 데이터를 공개하는 것이 훨씬 어렵기 때문이다. 그 이유는 뭘까.

GettyImages-1427529335_(1)_[변환됨]


의료 데이터의 현황 및 AI 알고리즘 개발

의료 데이터는 종종 환자의 의료 기록을 보호하기 위해 엄격한 개인정보 보호 규정을 받는다. 미국에서는 건강 보험 이동성 및 책임법(Health Insurance Portability and Accountability Act, HIPAA)이 보건 기관(의료 제공자)으로 하여금 보호된 건강 정보(Protected Health Information, PHI)의 사용을 제한한다. 마찬가지로, 유럽에는 EU 및 영국 시민의 개인 식별 정보를 다루는 일반 데이터 보호 규정(General Data Protection Regulation, GDPR)이 있다. 이러한 규정들은 비상업적 목적의 의료 데이터 수집과 공유에 어려움을 가져온다.

또 다른 의료 데이터의 도전 과제는 사건 빈도의 불균형이다. 실생활 데이터와 달리 의료 데이터는 카테고리별로 균형 잡힌 사례를 모으기가 어렵다. 그로 인해 카테고리별 데이터 수가 편향되기 쉽다. 더 쉽게 말하면 정상, 비병변 사례보다 병변 사례가 훨씬 적다. 예를 들어, 미국에서 매년 약 3700만 건의 유방 검진 엑스레이 촬영이 실시되지만 1000건의 엑스레이 촬영 중 암이 발견되는 건수는 약 4건에 불과하다. 따라서 의료 데이터는 실생활 데이터에 비해 다양한 카테고리별 사례의 축적이 어렵다.

또한 의료 데이터는 오류, 불일치 및 결측치가 있는 경우가 많아 자료의 정리 및 정제가 어렵다. 특히 이런 요인들은 의료 AI 알고리즘의 정확성 및 신뢰성에 영향을 줄 수 있다. 실생활 데이터에 대한 설명에서도 언급했듯 AI 개발을 위해선 그라운드 트루스 데이터를 확립하는 것이 중요한데 이런 데이터에 오류나 편향이 일어난다면 환자 건강 및 복지에 중대한 영향을 미칠 수 있다. 영상 방사선 이미지나 병변 이미지에 대한 분석에 방사선 및 병리학 전문의의 전문 지식이 필요하듯 의료 라벨링에는 신중한 접근이 필요하며 해당 전문가의 참여가 필수적이다. 하지만 막상 전문가들은 주로 의료 직무로 언제나 바쁘기에 이들을 이용한 그라운드 트루스 확립에 시간과 비용이 많이 들 수밖에 없다.

하지만 환자가 병원을 찾아 만들어지는 자료에는 전문의의 진단이 반드시 따라온다. 그러므로 의료 데이터도 실생활 데이터와 비교해 그 수가 상대적으로 적을 뿐 전 세계 병원에서 시간이 흐를수록 계속 누적되고 있다. 예를 들어 피츠버그 의료센터 대학의 마기 여성 병원(Magee-Womens Hospital)에는 매일 전문의의 진료와 함께 300건 이상의 유방암 선별 유방촬영술이 이뤄진다. 또한 각 진료와 관련된 전자건강기록(Electronic Health Record, EHR)이 매번 기록되고 업데이트된다. 이를 다른 병으로 확대하면 대형 병원에서 매일 쌓여가는 데이터양이 상당하다는 것쯤은 쉽게 예측할 수 있다. 이렇게 쌓이는 데이터를 이용하면 의료 AI 알고리즘을 개발하는 데 아무런 문제가 없을 것이라고 생각할지도 모른다. 하지만 실상은 그렇게 녹록지 않다.

적절한 큐레이션이 없다면 의료 데이터는 단순히 병원 시스템 내의 0과 1의 숫자일 뿐이다. 앞서 언급했듯이 데이터를 정제하기 위해서는 전문가의 노력이 필요한데 이런 노력을 거쳐 데이터의 저장 위치를 찾아내고 필요한 부분을 추출하고 후처리해야 AI 알고리즘에 사용할 수 있는 데이터가 만들어질 수 있다. 이 과정에서 추가적인 어려움에 직면한다: 의료 과정은 암 진단, 병변 확인, 제거 수술, 추적 검사 등 수많은 연쇄 작용으로 이뤄지기 때문에 과정마다 적용되는 시스템이 각각 다르고 저장 형식도 다양하다.

2023년만 놓고 봤을 때 전자건강기록(EHR) 및 전자의료기록(EMR) 시스템을 구축하는 다양한 회사가 있다.4 이와 비슷하게 MRI 또는 CT와 같은 방사선 이미지만 해도 방사선 정보 시스템(RIS)을 위한 여러 회사가 있다.5 비슷한 일을 하는 시스템 간에는 소통과 상호 호환이 가능하지만 EHR과 RIS는 서로 시스템 제공 회사가 다르고, 프로토콜도 다르며, 데이터 저장 위치도 다르다. 이런 장애물로 인해 의료 데이터 처리에는 비용과 시간이 많이 소요된다.

하지만 의료 데이터의 공개와 사용 가능성을 높인다면 최첨단 의료 알고리즘에 대한 개발 가능성을 높일 수 있음은 자명하다. 이는 연구자들도 전부 공감하고 있는 부분이다. 이를 위해 비록 느리지만 공개적으로 사용 가능한 데이터를 더 많이 제공하려는 노력이 점진적으로 이뤄지고 있다. TCIA(The Cancer Imaging Archive, 암 영상 아카이브)와 캐글(Kaggle)이 그 예다. TCIA는 암의 의료 영상을 대규모로 보관하고 익명화된 영상을 호스팅해 공개적으로 다운로드할 수 있도록 한 플랫폼이며, 캐글은 데이터 과학 및 기계학습 목적으로 의료 영상 데이터세트를 포함한 다양한 데이터세트를 호스팅하는 또 다른 플랫폼이다.

유방암 영상 분야를 좀 더 살펴보면 대규모로 사용할 수 있는 최신 데이터세트가 몇 개 있긴 하다. 일례로, 디지털 유방 촬영술 데이터세트인 VinDr-Mammo에는 유방 치밀도의 평가와 광범위한 병변 수준 주석이 포함돼 있으며, EMBED(EMory BrEast Imaging Dataset)는 흑인과 백인 여성의 균등한 대표성을 갖는 인종적으로 다양한 유방암 데이터세트로 11만 명의 환자로부터 얻은 340만 장의 선별 및 진단 영상으로 구성돼 있다. 이러한 데이터세트는 AWS 클라우드, 캐글, TCIA와 같은 플랫폼을 통해 일부 개방된다. 하지만 데이터세트 전체가 공개되지는 않고 접근이 제한된다는 한계가 있다. 주최 측은 종종 데이터의 상당 부분을 향후 배타적 사용을 위해 비공개로 유지하며 AI 알고리즘의 독립적 검증 등의 목적으로 사용한다.

요약해보면 의료 데이터와 실생활 데이터는 생성, 큐레이션, 저장 및 AI 알고리즘 개발을 위한 처리 방식에 있어 큰 차이가 있다. 데이터 접근성이 좋은 실생활 분야에서는 알고리즘 아이디어의 지속적인 발전이 이뤄지고 있지만 숱한 장애물로 인해 의료 분야의 데이터는 AI 알고리즘 개발을 선도하기엔 역부족이었던 게 사실이다. 그로 인해 의료 AI 연구자들은 실생활 분야에서의 새로운 기술을 빠르게 도입하는 패스트 팔로워 전략을 이용하고 있다. 의료 데이터의 익명을 유지하되 이를 더 많이 공개해야 더 나은 알고리즘이 출현할 수 있다는 점에서 기업, 학계, 정부의 지속적인 협력과 해결 방안의 모색이 필요하다.



편집자주

AI 혁신과 의료 이미지를 연구하는 이주헌 교수가 의료 AI 분야의 가능성과 과제, 발전상을 조명합니다. 국내외에서 기업, 학계, 정부가 어떤 활동을 하고 있는지 현주소를 점검하고 의료 AI에 대한 이해도를 높여 인간의 건강과 직결되는 의료 비즈니스의 새로운 수요를 엿보는 계기가 되길 바랍니다.
  • 이주헌 | 피츠버그대 방사선학과 교수

    필자는 연세대 전기전자공학부를 졸업하고 미국 텍사스 오스턴대 전기컴퓨터공학과에서 석박사 학위를 받았다. 현재 미국 펜실베이니아주 피츠버그대 방사선학과 교수로 미국에서 손꼽히는 대형 병원인 피츠버그대 의료센터(University of Pittsburgh Medical Center)에서 유방암 영상 데이터를 이용한 유방암 인공지능 연구를 이끌고 있다.
    leej15@upmc.edu
    이 필자의 다른 기사 보기
인기기사