서울아산병원은 왜 빅데이터센터를 지었을까 – 수다피플

서울아산병원이 지난 1월 ‘헬스 이노베이션 빅데이터센터’를 지었다. 임상연구, 의료기기 개발과 진료, 병원 경영 등 병원에서 발생하는 수많은 자료를 수집하고, 분석하기 위해서다.

병원엔 데이터가 참 많다. 우선, 진료 정보가 있다. 병원정보시스템(EMR)에서 나오는 정보로, 흔히 ‘오더’라고 부른다. 오더는 환자 처치가 어떻게 이뤄졌는지를 기록한 일종의 전자차트다. 방문날짜, 얼마나 자주 왔는지, 주소 정보, 해당 처치를 맡은 의사 정보, 병원 관리자 등 다양한 정보가 적혀 있다. 이 외에도 각종 의료 연구와 임상시험을 진행하고, 논문을 작성할 때도 데이터가 발생한다.

서울아산병원만 해도 익명화된 의료 데이터 양이 2015년을 기준, 환자 430만명, 오더 정보는 6억건, 처방전은 2억3천만건, 실험 연구 결과 정보는 10억건이 넘는다. 진료 노트는 4억8300만건 이상이다. 데이터 보물창고다.

수많은 데이터 ‘비식별화 작업’이 우선

“병원엔 원래 데이터가 많습니다. 문제는 학문적인 영역을 벗어나서 병원 데이터를 활용하려고 할 때, 다양한 산업에서 빅데이터를 활용한다는 얘기를 들을 때, 저흰 오히려 고민이 컸습니다.”

김영학 서울아산병원 헬스이노베이션 빅데이터센터 소장 겸 심장내과 교수 설명에 따르면, 수년 전 빅데이터 분석이 뜰 때, 제조업체 못지않게 의료업계도 많은 주목을 받았다. 진료 정보엔 영상부터 음성, 텍스트 등 다양한 형태의 데이터가 존재했기 때문이다. CT, MRI, 엑스레이에서 얻을 수 있는 의료 영상정보부터 시작해서 위내시경, 안저검사, 조직검사, 뇌질환자 생체 실험 정보, 뇌파 영상데이터 등 정말 다양한 형식의 데이터가 존재한다.

김영학 서울아산병원 헬스이노베이션 빅데이터센터 소장 겸 심장내과 교수

김영학 서울아산병원 헬스이노베이션 빅데이터센터 소장 겸 심장내과 교수

이 데이터를 분석했을 때 얻을 수 있는 가치와 가능성을 의심하는 이는 없었다. 문제는 이 데이터를 어떻게 활용할 것이냐다. 의료 데이터엔 데이터만 있는 게 아니라, 사람이 있다.

“우리 빅데이터센터는 IT가 의료에 긍정적인 영향을 미치는 것을 목표로 세워졌습니다. 의료 비용이 점점 올라가고 있는 요즘, 기술로 해결을 보려고 했지요. 그렇다고 기술만 고려한 것은 아닙니다. 빅데이터를 어떻게 효과적으로 다룰 수 있는지, 개인정보보호는 어떻게 해결해야 하는지, 데이터 비식별화 작업은 어떻게 헤야 하는지 병원 법무팀과 검토해서 규정을 만들었습니다. 국내 사례, 해외 사례도 참고했습니다. 외부 조언도 적극적으로 반영했지요.”

의료 데이터엔 민감한 정보가 많다. 의료 질을 높인다는 대의를 핑계 삼아 함부로 데이터를 활용할 수 없다. 병원 내 데이터를 외부로 함께 공개할 수도, 공유할 수도, 환자 정보가 고스란히 담긴 내용을 바탕으로 분석할 수도 없다.

서울아산병원 빅데이터센터 교수진은 무수히 많은 데이터 중에서 정작 활용해서 쓸 수 있는 데이터가 무엇인지 파악하는 작업부터 거쳤다. 여러 데이터를 조합해서 환자 개인 정보를 알아낼 수 없도록 비식별화 작업을 수차례 진행했다.

이렇게 만들어진 비식별화된 데이터를 병원 외부로 내놓지 않으면서 확인할 방법을 고민했다. 분석 편의성과 관리 편의성을 위해 클라우드를 택했다. 프라이빗 클라우드 환경을 구축해서, 병원 클라우드 안에서만 데이터를 분석하고 작업하는 환경을 만들었다. 병원 업계 최초다.

김영학 교수는 예전부터 의료 데이터 활용법에 관심이 많았다. 인공지능을 활용한 진료 개념, AI 메디슨은 1980년대 나왔다. 데이터를 활용해서 환자에게 처방한 약을 검토하는 ‘디시전 서포트’ 기술도 눈여겨봤던 터였다.

“CAD가 나왔을 때, 의사를 대체할 거라고 하더군요. 그러나 실제는 달랐지요. 각종 기술을 의료 현장에 적용하기엔 한계가 분명 존재했습니다. 지금은 다릅니다. 최근에는 진짜로 기술을 의료 현장에 적용할 수 있다는 자신감이 생겼지요. 이게 의료 빅데이터를 바라보는 가운데 생긴 가장 큰 변화입니다.”

서울아산병원은 클라우드에 올려놓은 비식별화된 의료 데이터를 활용할 다른 방법은 없는지 고민했다. 이 고민은 외부로부터 아이디어를 받아보는 것도 나쁘지 않겠다는 생각으로 이어졌다. 데이터를 처리하는 공간을 클라우드 안으로만 한정하면, 데이터가 유출될 걱정도 없을 터였다.

의료 빅데이터 분석 컨테스트 열어

빅데이터센터 설립과 함께 서울아산병원은 지난 1월 한국마이크로소프트와 손을 잡고 ‘의료 빅데이터 분석 컨테스트’를 준비했다. 김영학 소장이 앞장서고, 심우현 서울아산병원 헬스이노베이션 빅데이터센터 조교수가 뒤를 따랐다.

“아산병원은 이미 ‘에이블(ABLE)’이라는 익명화 시스템이 있습니다. 데이터를 익명화해서 병원에 있는 사람이 활용할 수 있게 만들었지요. 이를 이용해 영상 헤더에서 개인정보를 삭제했습니다. 법무팀과 IRB(의학연구윤리심의위원회) 위원과 상의했습니다.”

필요한 데이터 비식별화 과정은 심우현 조교수가 맡았다. 컨테스트 준비를 위해 어떤 주제로 아이디어를 받으면 좋을지 병원 안에서 의견을 수렴했다. 의료 영상, 생체신호, 진료정보 등 의료 관련 빅데이터 과제를 정하고, 이 과제를 클라우드 안에서 어떻게 처리할지 고민했다.

심우현 서울아산병원 헬스이노베이션 빅데이터센터 조교수

심우현 서울아산병원 헬스이노베이션 빅데이터센터 조교수

“컨테스트 준비하면서 참가 신청과 함께 설명회를 계속했습니다. 당연한 일이겠지만 의료 관계자에겐 당연한 지식이, IT 위주로 하신 분에겐 당연하지 않은 일이 반복되더군요. 의료에서 쓰는 영상 데이터가 어떤 포맷인지, 어떤 용어로 쓰는지, 의료적으로 중요한 데이터가 무엇인지 등을 알리는 눈높이 맞추는 작업부터 시작했습니다.”

비식별화한 데이터가 어떤 의료 데이터와 연결 고리가 있는지 설명하는 일도 심우현 조교수 몫이었다. 단순히 데이터만 제공한다고 해서 아이디어가 나오는 게 아니다. 쌓아놓은 데이터가 어떤 의미를 가졌는지를 전달해야 했다. 어느 정도 지식 수준이 있어야 데이터 분석을 할 수 있기 때문이다. 단순히 비식별화된 영상정보만으로는 가치를 만들 수 없다.

“예를 들어, 영상 사진에서 어느 부분이 ‘암’인지를 태그했습니다. 의사가 사진에서 어떤 정보를 보고 진단을 내리는지를 태깅해서 정보를 만들었지요. 이게 정말 어마어마한 작업이었습니다. 분석해본 입장에서 이게 없으면 제대로 된 분석이라고 할 수 없다는 걸 알기 때문에 정말 열심히 했습니다.”

컨테스트에 다양한 아이디어가 등장했다. 진료 시간을 단축하는 방법부터 시작해서, 발병 예측, 진료비를 줄일 방법까지 나왔다. 이 과정에서 서울아산병원은 MS 애저 클라우드에서 가상머신(VM) 1500코어, 저장공간으로 150테라바이트(TB)를 사용했다. 모두 비식별화 데이터를 이용했다.

여기 뇌전증 환자가 있다. 뇌전증 환자는 주로 몸을 떨면서 발작을 일으킨다. 이때, 어느 위치에서 뇌전증을 일으키는지를 알면, 수술로 해결할 수 있다. 병원에서는 이 부위를 찾기 위해 뇌파에 센서를 부착해서 며칠 관찰한다. 뇌전증이 일어날 때 부위가 어디인지 찾는다. 이 결과를 바탕으로 수술 부위를 최소화하는 게 목표다.

의료 데이터를 활용하면, 수집한 데이터를 바탕으로 발작이 일어나기 전에 미리 발생 부위에 신호나 자극을 줘서 예방할 수 있다. 뇌전증이 일어나기 전에, 일어날 것만 같은 부위를 수집한 데이터를 바탕으로 예측해 뇌전증을 치료할 수 있다.

치매 분야에서도 활용할 수 있다. 치매를 가진 사람 데이터를 모아 평균 연령 대비 몇 퍼센트 확률로 치매를 예측하는 식이다. 뇌실, 해마 크기 데이터를 바탕으로 정량적 수치로 환자의 치매 발병 확률을 예측할 수 있다. 지금 의료 기술로는 6-10시간 걸리는 작업이었다. 그러나 다양한 데이터 분석 기술을 이용하면 몇 분 안에 우리나라 평균 연령 대비 해마와 뇌실 크기를 언급하면서, 치매 가능성을 보여줄 수 있다.

유방암 조직 검사 방법 중 ‘ ncoTypeDX’라는 고비용 검사가 있다. 이번 컨테스트에선 이 검사 없이도, 이 검사를 한 것과 같은 예측 결과를 보여주는 아이디어도 나왔다. 유방암 조직 검사에 필요한 비용을 줄일 수 있을지도 모른다.

“사람이 놓치는 부분을 기술로 어떻게 보완할 수 있는지 많은 아이디어를 얻었습니다. 이번 일을 시작으로 우린 의료 지식이 없는 기업이, 임상 데이터가 필요할 때 이 부분을 보조해서, 실제 의료 빅데이터 사업을 할 때 경쟁력을 가질 수 있게 만드는 게 목표입니다. 그럼 결국 환자에게 좋은 의료 서비스를 더 많이 제공할 수 있지 않을까요.”

from Bloter.net http://www.bloter.net/archives/275043