로그인|회원가입|고객센터
Top
검색버튼 메뉴버튼

SR5. MIT Sloan Management Review

완벽한 데이터는 없다
정보 유출, 편향 등 부작용도 주의해야

페르난도 루치니(Fernado Lucini) | 345호 (2022년 05월 Issue 2)
편집자주

이 글은 MIT 슬론 매니지먼트 리뷰(SMR) 2022년 겨울 호에 실린 ‘The Real Deal About Synthetic Data’를 번역한 것입니다.

Article at a Glance

합성 데이터의 뚜렷한 이점에도 불구하고 실제 이용하는 건 까다롭다. 합성 데이터 생성 프로세스가 극도로 어렵고 AI 분야의 최신 지식으로 무장한 전문가들을 필요로 하기 때문이다. 또한 합성 데이터를 평가하는 일도 매우 복잡하고, 데이터에 어떤 변수가 포함돼 있는지에 따라 평가 기준이 모두 달라져야 한다. 합성 데이터의 정확성을 평가하는 데 도구, 체계, 기준이 필요한 이유다. 부정확한 합성 데이터를 사용할 경우 심각한 부작용이 생길 수 있다. 규제당국이 문제 삼을 여지도 있고, 악의적 주체가 취약점을 파고들어 원데이터에 담긴 특정 인물 정보를 식별할 수 있으며, 데이터의 편향이 오히려 강화될 수도 있다.


인공지능 모델을 훈련하거나 인사이트를 얻기 위해 데이터가 필요할 때 현실의 데이터에 접근하는 게 늘 쉽지만은 않다. 하지만 원데이터를 꼭 빼닮은 데이터세트를 생성하는 신기술을 이용하면 이런 어려움을 해소할 수 있다.

데이터는 고급 애널리틱스와 머신러닝 이니셔티브의 발전을 이끄는 핵심 연료다. 하지만 개인정보 보호와 프로세스 문제를 둘 다 고려해야 하기 때문에 필요한 데이터를 손에 넣는 게 결코 쉬운 일은 아니다. 그런데 여기 합성 데이터라는 새로운 돌파구가 열렸다. 합성 데이터는 실제 세계에서 얻은 데이터와는 다른 방식으로 공유되고 활용된다. 물론 합성 데이터 이용에는 여러 위험이 따르고, 단점도 없지 않다. 또한 회사의 자원을 어디에, 어떻게 투자할지도 심사숙고해야 한다.

합성 데이터란 무엇인가?

합성 데이터는 현실의 데이터로 학습하던 AI 알고리즘을 활용해 인위적으로 생성한 데이터를 가리킨다. 이는 원데이터와 동일한 예측력을 자랑하지만 원데이터를 단순히 흉내 내고 변형하는 것을 넘어 완전히 대체해버린다. 합성 데이터는 확률 분포를 모델링하고 샘플링해서 기존 데이터의 통계적 특성과 패턴을 그대로 재현하기 위해 등장했다. 이 알고리즘을 이용하면 기본적으로 원데이터의 모든 특징을 간직하고 있는 새로운 데이터를 생성할 수 있기 때문에 원데이터를 사용했을 때와 똑같은 답을 도출해낼 수 있다. 하지만 알고리즘을 이용하든, 알고리즘이 만든 합성 데이터를 이용하든 이를 통해 개인 식별 정보 등 원데이터를 재구성하는 것은 불가능하다.

061


합성 데이터는 전문가들에게 축복이나 다름없다. 한 예로, 미 국립보건원(NIH)이 IT 서비스 스타트업인 ‘신테그라(Syntegra)’와 어떤 공동 프로젝트를 진행하고 있는지 살펴보자. 신테그라는 자체 합성 데이터 생성 엔진을 활용해 270만 명이 넘는 코로나19 검사자, 41만3000명이 넘는 코로나19 확진자에 관한 환자 기록 데이터베이스로부터 비식별화된 복제본을 생성하고 검증했다. 합성 데이터세트는 원데이터세트의 통계적 특성을 정확하게 복제하지만 원래의 정보와 관련해 식별 가능한 흔적은 남기지 않는다. 이런 특성 덕분에 합성 데이터는 전 세계 전문가 사이에서 널리 공유되고 활용될 수 있으며, 이는 질병에 대해 더 많은 정보를 알게 해줄 뿐만 아니라 치료나 백신 개발에도 큰 진전을 가져올 수 있다.

합성 데이터 기술은 다양한 산업에서 응용될 수 있다. 데이터 사용과 고객 정보 보호 규제가 특히 엄격한 금융 서비스업의 경우 많은 금융기관이 개인정보 보호 규제를 위반하지 않고서도 고객 서비스에서 편향을 찾아 제거하는 데 합성 데이터를 활용하고 있다. 또한 리테일 업계는 합성 데이터 판매가 새로운 수익 창출원이 될 잠재력이 있다고 보고 있다. 고객의 개인정보를 유출하지 않으면서도 고객의 구매 행태에 관한 유용한 정보를 제공한다면 시장 가치가 있을 수 있기 때문이다.

비즈니스적 가치 3가지: 보안•속도•스케일

합성 데이터의 가장 명백한 이점은 핵심 정보를 유출할 위험이나 기업 및 소비자의 사생활 및 보안을 침해할 위험을 차단할 수 있다는 것이다. 암호화(encryption), 익명화(anonymization), 동형 암호(homomorphic encryption)나 안전한 다자 간 연산(secure multiparty computation) 등의 개인정보 보호 기법은 원데이터와 데이터에 담긴 정보를 보호하고, 이를 이용해 특정 개인을 찾아내지 못하도록 한다. 하지만 원데이터가 존재하는 이상 어떤 기법을 쓰든 간에 데이터가 훼손되거나 유출될 위험이 상시적으로 도사리고 있다.

그런데 합성 데이터는 이렇게 시간을 잡아먹는 골칫덩이인 개인정보 보호와 보안 프로토콜들의 제약을 받지 않는다. 이 때문에 합성 데이터를 쓸 경우 기업은 더 빠르게 데이터에 접근할 수 있게 된다. 어떤 금융기관이 엄청난 양의 데이터를 보유하고 있고, 이 데이터가 경영진이 다양한 회사의 문제를 해결하는 데 큰 보탬이 된다고 하자. 하지만 이 데이터는 보안 수위가 굉장히 높아서 순전히 사내용임에도 불구하고 데이터에 접근하기까지 지난한 과정을 거쳐야 한다. 어떤 때는 아주 적은 양의 데이터를 손에 넣기까지 6개월이 걸리기도 하고, 업데이트에만 추가로 6개월을 더 기다려야 하기도 한다. 이제 이 회사는 원데이터를 바탕으로 합성 데이터를 만든다. 담당 부서에서 합성 데이터를 이용해 꾸준한 업데이트와 모델링을 진행하고 있고 자사 실적 향상에 필요한 인사이트도 지속해서 만들고 있다.

여기서 끝이 아니다. 합성 데이터가 있으면 회사는 대량의 데이터세트를 이용해 머신러닝 모델의 학습 시간을 단축할 수 있어 AI 솔루션의 학습, 테스트, 배포 프로세스도 덩달아 빨라진다. 이렇게 되면 현재 많은 기업이 직면한 문제, 즉 AI 모델 학습에 필요한 데이터 부족이라는 문제가 해결된다. 대량의 데이터세트에 접근할 수 있게 되면 머신러닝 엔지니어와 데이터 사이언티스트 입장에서는 모델 개발의 여러 단계에서 나오는 결과물을 더 신뢰할 수 있게 된다. 신제품과 신규 서비스를 시장에 보다 빨리 선보일 수 있다는 뜻이다.

보안과 속도가 보장되면 스케일도 확보된다. 분석에 쓸 수 있는 데이터의 양이 많아진다. 지금은 제3자에게서 데이터를 사들일 수는 있지만 대개 지나칠 정도로 비싸다. 그런데 합성 데이터를 제3자로부터 구매할 경우 회사의 문제를 해결하면서 더 정확한 답을 얻을 수 있는 많은 데이터를 쉽고 저렴하게 확보할 수 있다. 이를테면 모든 은행은 금융 부정행위를 파악해 제거할 의무를 지닌다. 이는 각 은행이 단독으로 수행해야 하는 자원 집약적인 과제다. 왜냐하면 규제당국이 의심스러운 활동을 감지하더라도 해당 은행의 자체 데이터만 검토할 수 있도록 은행 간 칸막이를 치고 있기 때문이다. 그런데 은행이 합성 데이터세트의 풀을 확보하면 해당 은행 안에서만 일어나는 일이 아니라 그 국가의 모든 은행에서 일어나는 사회 활동을 전체적으로 조망할 수 있게 된다. 그 결과 금융 사기 탐지 프로세스를 신속화 및 간소화할 수 있고, 무엇보다 적은 자원으로 더 많은 부정행위를 무력화할 수 있다.

그렇다면 왜 모든 회사가 쓰지 않을까?

합성 데이터의 뚜렷한 이점에도 불구하고 실제 이용하기는 어려울 수 있다. 합성 데이터 생성 프로세스가 극도로 복잡하고, 제대로 생성하기 위해서는 단순히 AI 알고리즘을 데이터세트에 연결하는 것 이상의 작업이 요구되기 때문이다. 일단 AI 분야의 최신 지식으로 무장한 전문가들이 필요하다. 또한 원래 목표한 대로 데이터가 만들어졌는지 검증할 수 있는 구체적이고 정교한 회사 시스템 및 측정 기준이 마련돼야 하는데 이 부분이 특히 어렵다.

잠재적 활용 사례(use case)가 워낙 다양하다 보니 합성 데이터를 평가하는 일은 매우 복잡하다. 예측이나 통계 분석 등 작업 유형별로 서로 다른 형태의 합성 데이터가 필요하고 이때의 성과를 측정하는 지표와 요건, 개인정보 보호 규제 수위도 각기 다르기 때문이다. 더구나 이런 데이터 유형마다 요구되는 조건과 해결해야 할 문제도 다르다. 이를테면 날짜와 장소 정보가 포함된 데이터를 평가하고 있다고 가정해보자. 날짜와 장소라는 두 가지 변수는 서로 다른 방식으로 작동하며, 이 변수들을 제대로 추적하려면 각자 다른 평가 기준이 있어야 한다. 그런데 여기서 한발 나아가 수백 개의 변수가 포함된 데이터가 있고 데이터마다 다른 기준을 바탕으로 평가해야 한다고 가정해보자. 이제 이 문제가 얼마나 복잡하고 어려운지 감이 올 것이다. 현재 우리는 합성 데이터의 정확성을 평가하고 ‘보증(guarantee)’하는 데 필요한 도구, 체계, 기준을 만드는 단계의 초입에 있다. 지금 같은 시기에 사회의 모든 구성원이 수용하고 신뢰할 수 있는 표준 프로세스에 따라 정확한 합성 데이터를 생성하기 위해서는 산업화되고 반복 가능한 접근법을 도입하는 것이 중요하다.

합성 데이터 수용의 또 다른 걸림돌로는 많은 기업에서 나타나는 문화적 저항(cultural resistance)이 있다. “우리 회사에서는 안 통한다” “믿을 수가 없다. 전혀 안전해 보이지 않는다” “규제당국이 절대 허용하지 않을 것이다” 등이 이런 저항의 예다. 이런 저항을 딛고 합성 데이터를 더 잘 수용하게 하려면 기업의 고위 임원은 물론 리스크 및 법무팀을 교육시키고 합성 데이터가 얼마나 잘 작동하는지 설득해야 한다.

어떤 부작용이 생길 수 있을까?

관건은 합성 데이터의 정확성을 증명하는 일이다. 이 임무를 맡은 팀은 인위적으로 생성된 합성 데이터가 원데이터를 정확히 대표한다는 것을 입증할 수 있어야 한다. 이와 동시에 합성 데이터가 원데이터와 관련이 없고, 원데이터를 노출하지 않는다는 점도 입증할 수 있어야 한다. 이는 무척이나 어려운 일이다. 이 삼박자가 정확히 맞아떨어지지 않는 한 합성 데이터는 유효한 데이터가 아니고, 잠재적으로 수많은 문제를 야기할 수 있다.

064


예를 들어, 어떤 신제품을 개발할지 정보를 얻기 위해 합성 데이터세트를 생성했다고 해보자. 그런데 기존에 가지고 있던 고객 데이터세트를 합성 데이터가 제대로 대표하지 못한다면 어떤 문제가 생길까? 고객이 어떤 상품에 관심이 있는지, 어떤 상품을 구매하는 경향이 있는지에 대한 잘못된 구매 시그널이 데이터에 담길 것이다. 이 경우 구매하려는 사람이 아무도 없는 제품을 개발하는 데 막대한 돈을 쏟아붓는 실수를 범할 수 있다.

또 다른 부작용도 있을 수 있다. 합성 데이터가 부정확하면 규제당국이 문제 삼을 여지가 있다. 잘못된 데이터를 바탕으로 개발한 제품 때문에 피해가 생기거나 제품이 광고한 대로 작동하지 않는다면? 이런 컴플라이언스나 기타 법적 문제가 야기되면 막대한 금액을 물어줘야 한다. 나아가 이후 규제당국으로부터 집중 조사를 당하게 될 수도 있다. 규제당국은 이제 합성 데이터의 생성 및 측정 방식은 물론 공유 방식까지 검토하기 시작했다. 이 부분에서 규제당국이 큰 역할을 하게 될 것은 자명하다.

부정확한 합성 데이터를 만드는 경우는 아직까지 등장하지는 않았지만 앞으로는 분명히 부작용이 등장할 수 있다. 바로 ‘추론 공격(inference attack)’이다. 합성 데이터의 콘셉트는 이 합성 데이터가 오리지널 데이터와 어떤 형태로든 무관하다는 점이다. 하지만 부정확한 데이터에서 악의적 주체(malicious actor)가 취약점을 찾아내 일부 데이터 포인트를 바탕으로 원데이터를 추적하면 특정 인물을 추측할 수가 있다. 그다음 이 악의적 주체가 해당 정보를 이용해 합성 데이터세트를 끈질기게 조사하고 파고들면 나머지 정보도 결국 손에 넣을 수 있게 된다. 그리고 결국 오리지널 데이터가 전부 유출되고 만다. 기술적인 측면에서 이런 공격이 성공하기는 극도로 어려운 게 사실이다. 그러나 적절한 자원이 있다면 반드시 불가능한 것만은 아니다. 그리고 성공한다면 치명적인 부작용이 야기될 수 있다.

완벽한 데이터세트를 만들었더라도 문제가 생길 수 있다. 바로, 편향이다. 사람이 만든 데이터세트에 내재적 편향(inherent bias), 역사적 편향(historical bias)이 포함돼 있기 때문에 이를 학습한 AI 모델에도 이런 편향이 너무 쉽게 스며들 가능성이 있다. 사전에 합의된 공정성에 대한 정의에 맞춰 데이터세트를 만들 때 합성 데이터를 이용할 수 있다. 이 기준을 최적화 모델의 제약 조건으로 활용하면 새로운 데이터는 오리지널 데이터를 정확하게 대표할 뿐만 아니라 그 과정 역시 공정하게 진행될 것이다. 하지만 회사가 AI 모델에 편향을 수정하기 위한 복잡한 조정 과정을 거치지 않고 단순히 원데이터의 패턴을 모방하는 데 그친다면 합성 데이터에 온갖 편향이 고스란히 담기게 될 수 있다. 심지어 편향을 조장하고 확산시킬 수 있다.

발전을 위해 무엇이 필요할까?

관련 역량, 체제, 지표, 기술이 나날이 발전하고 있는 만큼 앞으로 우리가 합성 데이터에 대한 이야기를 들을 일이 갈수록 많아질 것이다. 합성 데이터가 우리 기업에 맞는지 고민하고 있다면 다음 네 가지 질문을 던져보라.

1. 사람들이 우리 회사가 직면한 상황에 대해 잘 알고 있는가? 대부분의 구성원에게 합성 데이터란 새롭고 어려운 개념이다. 합성 데이터 프로그램 출시에 앞서 전체 경영진과 리스크 대응 및 법무팀 모두 이 프로그램이 무엇이며, 어떻게 사용할 것인지, 우리 회사에 어떤 이득을 줄 수 있는지 숙지하고 있어야 한다.

2. 필요한 역량을 활용할 수 있는가? 합성 데이터 생성은 매우 복잡한 프로세스이므로 회사에서는 데이터 사이언티스트와 엔지니어들이 합성 데이터 생성 방법을 학습할 수 있는 역량을 소유하고 있는지 파악할 필요가 있다. 이러한 합성 데이터를 얼마나 자주 만들지도 고려해야 한다. 그 빈도에 따라 시간과 돈을 들여 직원 역량을 강화할 것인지, 아니면 필요할 때마다 외부 전문가와 계약을 맺을 것인지가 결정된다.

3. 분명한 목표가 있는가? 합성 데이터를 생성할 때는 구체적인 목표를 염두에 둬야 한다. 어떤 용도를 의도하는지에 따라 어떻게 합성 데이터를 만들지, 원데이터의 어떤 속성을 남겨둘지를 정할 수 있기 때문이다. 합성 데이터 판매를 새로운 수익 창출원으로 삼을 수도 있다면 이에 대한 비즈니스 모델을 계획하는 것도 매우 중요하다.

4. 얼마나 야심 찬 목표인가? 웬만한 강단만으로 합성 데이터를 만들겠다고 나서서는 안 된다. 합성 데이터를 제대로 만드는 일은 고도로 복잡하고, 자칫하면 잘못된 데이터를 만들 리스크가 크기 때문이다. 하지만 그만큼 성공했을 때의 반대급부도 엄청날 것이다.

합성 데이터는 최근 등장한 첨단 데이터 사이언스 기술이다. 하지만 갈수록 많은 회사가 합성 데이터를 좁은 실험실이 아니라 드넓은 실제 비즈니스 세계에 적용하기 위해 실험실 밖으로 나서고 있다. 앞으로 이 분야가 어떻게 발전되고, 어떤 성장 타임라인을 그려 나갈지는 미지수다. 그러나 데이터 기반 기업의 리더라면 합성 데이터 상황을 예의주시해야 한다. 그리고 적절한 시기가 왔을 때 바로 적용할 만반의 태세를 갖추고 있어야 한다.


페르난도 루치니(Fernado Lucini)는 액센츄어 어플라이드 인텔리전스(Accenture Applied Intelligence) 소속으로 전문 분야는 글로벌 데이터 사이언스와 머신러닝 엔지니어링이다.

번역 |노이재
whodoneit@naver.com


DBR mini box : 의료 분야에서의 가능성과 한계

코로나 진단 보조 기술 개발에도 ‘합성 데이터’ 효험

인간의 생명을 다루는 의료 분야의 경우, 환자의 신상 및 진료 정보 등 개인의 민감 정보를 담고 있어 충분한 양의 데이터를 확보하기가 어렵다. 그뿐만 아니라 여러 데이터를 결합하는 과정에서 완전한 익명화가 아니라 다시 식별할 수 있게 될 염려가 있어 개인정보의 오•남용 가능성이 존재한다. 2020년 8월, 데이터 3법 및 보건의료 데이터 활용 가이드라인이 마련되면서 가명 정보를 활용할 수 있는 법적 근거가 생겼으나 데이터 보안 및 프라이버시 이슈 등 다양한 문제로 인해 실질적으로 데이터 활용에는 여전히 어려움이 많다. 이에 따라 개인정보 이슈를 해결하는 동시에 적은 양으로도 AI 학습에 이용할 수 있는 ‘합성 데이터(Synthetic Data)’가 대안으로 부상하고 있다.

의료 분야에서 합성 데이터는 ‘존재하지 않으나 그럴듯한 가짜 데이터’로 진료 정보, 유전체, 라이프로그 등 실제 데이터를 기반으로 만들어진 데이터다. 이렇게 실제와 유사한 가짜 데이터를 생성하면 의료 데이터의 민감 정보 식별 문제를 해결할 수 있다. 또한 학습된 데이터가 충분하지 않고 데이터 수집 비용이 높은 경우에 더욱 유용하다.

066

의료 합성 데이터 활용 사례

코로나 진단 보조 기술 개발i : 의료 AI 모델을 개발할 때는 대량의 데이터 확보가 필수적이지만 데이터 전처리에 보통 너무 많은 시간과 비용이 소요된다. AI 개발의 80% 이상이 데이터 오류 제거와 라벨링으로 우수 재료를 만드는 데 들어간다고 해도 과언이 아니다. 특히 코로나19처럼 촌각을 다투는 상황에서는 데이터 불균형 문제가 더 심각할 수밖에 없다. 이럴 때 합성 데이터가 대안이 될 수 있다. 실제로 국내에서 코로나가 급격하게 확산될 때 안경희 서울여대 교수팀은 딥러닝으로 코로나19 흉부 X선 판독 모델을 개발하기 위해 대량의 합성 데이터를 생성하고, 이를 환자 데이터와 정상 데이터로 분류했다. 그 결과 진단을 위한 AI 판독 모델의 성능이 98% 개선됐다.

신약 후보 물질 탐색 : 신약이 최종적으로 개발되는 데는 평균적으로 약 10년, 1조 원의 비용이 소요된다. 이를 단축하기 위해 최근에는 신약 후보 물질 발굴부터 약물 승인에 이르기까지 전 과정에 AI가 활용되고 있다. 게다가 최근에는 사람이 일일이 분자를 합성하는 게 아니라 AI를 활용해 합성 분자를 만드는 방식이 등장했다. 신약 개발 스타트업인 ‘인실리코 메디슨’의 경우 AI로 신약 후보 물질을 선별, 합성하고, 검증하는 전 과정을 46일 이내에 끝내는 시스템을 개발했다. 이 시스템은 수백만 개의 샘플과 다양한 유형의 질병 특성을 이용해 항암 속성을 가진 새로운 분자를 합성하고, 이 분자가 기존 치료법과 비교해 어떤지를 판별해 항암 후보 물질 탐색 속도를 높인다. 실제로 인실리코 메디슨은 이 합성 데이터를 활용해 지금까지 7200만 가지 화학 물질에서 신약 후보를 발굴한 것으로 알려져 있다.

의료 합성 데이터의 가능성

여전히 의료 분야에서 합성 데이터는 타당성이 충분히 검토되지 않아 임상에 활발히 활용되진 못하고 있다. 다만 미국 조지메이슨대 연구팀이 오픈소스로 공개된 합성 데이터 생성기 ‘신세아(Synthea)’로 생성한 120만 명의 매사추세츠 환자들에 관한 합성 데이터 품질을 측정한 결과 신뢰성이 높다고 평가한 바 있다. 신세아란 미국 CMS(Center for Medicare and Medicaid Services)에서 의료 기관들이 합성 의료 데이터를 자유롭게 활용하도록 공개한 AI 알고리즘으로 환자들의 수명 주기, 인구 통계, 1차 진료 기록, 응급실 진료 기록, 증상 기록 등의 정보로 구성돼 있다.

마찬가지로 피부 병변을 합성해 만든 데이터와 실제 데이터를 구분하기 어려웠다는 유효성 검증 결과도 있다.ii 이 연구에 따르면 3명의 피부과 전문의와 5명의 딥러닝 전문가가 일종의 ‘튜링 테스트(Visual Turing Test)’를 수행한 결과 가짜와 진짜를 구분할 수 없었다. 합성된 이미지와 실제 이미지가 랜덤으로 혼합된 상태에서 의사도, AI 전문가도 무엇이 진짜이고 가짜인지 제대로 재분류해내지 못했던 것이다.

의료 합성 데이터의 한계

067


지금까지의 합성 데이터 연구는 주로 MRI, CT, X-ray 등 이미지 생성, 영상 간의 변환, 해상도 향상 등에 사용돼 왔다. 하지만 이런 의료 영상만 본다고 환자의 병명을 정확히 진단하고 치료법을 제시할 수 있는 것은 아니다. 이에 따라 환자 상태를 실시간으로 파악할 수 있는 진료 기록, 임상 데이터 등 다양한 변수의 시계열 데이터도 생성하고 실제 데이터와 얼마나 유사한지를 평가해야 한다.

또한 데이터가 의료 행위의 임상적 근거로 사용되는 만큼 잘못된 의료 정보 활용은 예상치 못한 결과로 이어질 수 있어 신중해야 한다. 딥페이크 등 가짜 의료 데이터 생성이 의료 사고 등 심각한 부작용을 초래할 위험도 배제할 수 없다. 국내에서도 이런 AI 생성 모델과 합성 데이터 품질의 임상적 유효성을 면밀하게 검증하는 실증 연구가 뒷받침돼야만 실제 바이오 헬스케어 기업들이나 병원 등 의료 기관이 합성 데이터를 의료 AI에 광범위하게 적용하고 환자 진단 및 치료에 의미 있는 결과를 가져올 수 있을 것이다.


김보라 한국보건산업진흥원 연구원 bora.kim@khidi.or.kr
김보라 연구원은 한국보건산업진흥원 연구개발혁신본부(R&D) 소속이다. 현재 한국보건산업진흥원은 민감 정보인 의료 데이터의 정보 보호 및 활용성 제고를 위해 재식별 가능성을 낮춘 ‘합성 데이터 생성 및 임상 활용 실증연구 사업’을 지원하고 있다.


  • 페르난도 루치니(Fernado Lucini) | 액센츄어 어플라이드 인텔리전스(Accenture Applied Intelligence) 소속으로 전문 분야는 글로벌 데이터 사이언스와 머신러닝 엔지니어링

    이 필자의 다른 기사 보기
인기기사