Clinical Data Warehouse

Date:     Updated:

카테고리:

태그:

📂 Data warehouse

앞서 우리는 EHR(병원정보시스템)의 구성요소와 도입에 대해 알아보았습니다.

현대 사회는 사회 전반에 걸쳐 기술발전 » Digitalization » Digital transformation 의 과정이 전 분야에서 산발적으로 일어나며 고착화 되고 있는 양상을 보입니다.

뒤에서 미는 힘이 하드웨어, 소프트웨어, 생산방식의 변화와 같은 보다 일반화 가능한 지식발전이라면 앞에서 끄는 힘은 정책결정, 사회적 수요와 세분화된 도메인 맞춤형 prototype의 제안으로 이루어집니다. (라고 저는 생각합니다?)

EHR의 도입도 PC의 양산과 대중화된 보급, OA(사무자동화)의 물결의 산업 전반적인 웨이브에 이은 자연스러운 수순이었다고 생각됩니다. (하지만 이 때 의료도메인의 복잡성이 처음부터 충분히 반영되지는 못했습니다. 의료분야의 특수성은 이 글과 CDSS 부분에서 좀 더 다루어질것입니다)

EHR의 도입이 OA의 물결로 예상가능했다면, CDW는 DW(Data warehouse)가 의료도메인에 확장된 것이라고 생각할 수 있겠습니다.


그렇다면 DW의 목적은 무엇이냐?

1) Digitalization 단계 이후에는 우리가 다루는 정보의 저장형태가 달라집니다.

먼저 값들도 전산화되어 입력되지만, 프로그램에서 운용하는 정보를 저장하는 구조에 따라서 원하는 정보들이 이미 어떤 항목화(indexing)되어 저장되는 것과 마찬가지입니다.

쉽게 당일 진료환자 목록에 보여지는 ‘나이’라는 항목은 Age = 23 과 같이 어떤 변수, 또 그 변수에 대응하는 어떤 저장소 (DBMS인 경우에는 테이블의 컬럼, XML이면 특정 tag 등)에 할당되어 저장됩니다. 그렇다면 ‘_(EHR 도입 이래로)_본원에 다녀간 20세 이상 환자의 목록’ 같은 것은 초단위로 추출이 가능합니다.

운영계 시스템의 사용기간에 비례하여 자동누적되는 데이터를 기업의 목적에 맞게 활용할 수 있지 않을까? 그런데 컴퓨터의 저장소인 디스크는 입/출력에 따라 성능에 부담을 갖게 됩니다. 또한 운영계 데이터는 계속 업무를 수행함에 따라 시시각각 변화하는데 이에 직접적으로 분석을 수행하는 것은 시스템 안정성이나 데이터의 일관성 측면에서 모두 좋지 못한 선택입니다. 그럼 운영계 원본에다가 데이터를 쿼리하거나 분석알고리즘을 돌리지 말고, 정보를 처리하거나 분석을 하는 시스템을 따로 만들자. 이것이 DW의 시작입니다. 여기에 분석계를 얼마나 또 화려하게 얹느냐에 따라서 기능성은 매우 달라질 것입니다.

일반적으로 기업들은 BI(Business Intelligence)목적으로 사용하며, 이를 위한 데이터 저장소를 따로 EDW(Enterprise Data Warehouse)라고도 합니다.

Business-Intelligence-and-Analytics-for-Blog-1080x675-1-1024x640

BI 라고 하면 사람들이 상상하는 모습 (image credit:www.shutterstock.com royalty free image) ——

📂 Clinical data warehouse

CDW는 EHR에 대응하는 DW라고 생각할 수 있는데, 이는 기술적인 큰 틀의 디자인은 DW의 그것들을 그대로 가져오기 때문입니다.

일반적으로는 다음과 같은 기본 구조를 갖습니다.

EHR의 데이터 저장소 » ETL » 분석/정보계(CDW)

image <CDW system 구조 모식도 예: 2011.06.22. +KOSMI 발표자료 중> +’A Log Analysis of Query Patterns on YUHS CDRS’, HJ Kim et al.

이 때 분석/정보계에서 데이터를 어떻게 가져와서 쌓도록 설계되느냐에 따라서 OLAP이라든지 data mart라든지 dimensional modeling이라든지.. 다양한 전략들이 사용됩니다.

(이 부분 매우 중요하지만 너무 전문적일 수 있어 언급 수준에서 갈음합니다)

📂 하지만 CDW가 완연히 다른 점은 -의료계가 다른 산업과 다른점과 대응하여-

1. 윤리적 엄격함

ㄴ 기관에 축적된 데이터이지만 개인정보보호가 최우선이며 환자의 동의여부에 따라 활용 범위가 제한됩니다.

ㄴ 보안사고의 경우 다른 데이터에 비해 파장이 클 수 있어 기관내외의 규제를 크게 받습니다.

ㄴ 이에 맞는 적정선에 대한 고민이 내재되지 않은 조직은 데이터를 제대로 활용할 수가 없습니다.

(접근권한관리의 IT 시스템화, 익명화/가명화의 범위와 구체적인 방안, 법적 규제의 변화에의 대응과 동의체계 확보 등)
2. 공익적 목적

ㄴ 의학연구만큼 공익적 목적이 뚜렷한 연구 도메인은 찾아보기 힘들 것입니다.

ㄴ 따라서 1.에도 불구하고 장려가 필요합니다.

3. 복잡한 워크플로우(형태적 난이도)

ㄴ 종합병원들에서는 하나의 병원 내에 수십가지의 전문직종이 종사합니다. 이는 곧 복잡하고 상호작용하는 워크플로우를 의미합니다.

ㄴ 운영계 정보시스템이 복잡한 워크플로우를 반영하면서도 최적의 추상화/일반화/모듈화를 거쳐서 설계되었다고해도 힘들텐데, 이를 총체적으로 이해하고 환자의 정보를 재구성한다는 것은 쉬운일이 아닙니다.

4. 심도있는 전문분야들의 총체(의미론적 난이도)

ㄴ 예를 들어 진단검사 - LOINC, 진단명 - ICD/KCD, 증상정보 - SNOMED-CT, 약품코드 - KD Code, 처치 - EDI Code 이렇게만 나열해도 각각의 subdomain들이 지식을 정리하고 체계화하는 방식이 매우 구체적이고 심도있음을 알 수 있습니다. 이를 잘 이해하면서 시스템을 구축한다는 것은 매우 훌륭한 software engineering과 ‘전산 마인드’를 가진 clinical expert들의 전폭적인 협조를 필요로 합니다.

그런데, 일반적으로 시스템 구축시 후자는 자원봉사(…)이기 때문에, 헌신을 강요하기는 어렵습니다. 물론 우리나라 병원종사자들은 어딜가나 위대해서..

5. 임상 연구라는 뚜렷한 목적과 사용자 풀

ㄴ 1~4까지 어떻게 했다고 좋은 CDW가 되지는 않습니다. 일단 다 “저장은 했으니까 써봐!” (되는지 한 번 같이 볼까요? 도 아니고.. 어후 세상무책임..아 아닙니다.. 읍읍) 한다고 쓸 수가 없거든요.

ㄴ CDW를 활용한 후향적 연구의 단계들, DB로부터 데이터를 누락없이 검색하고 추출할 수 있는 전략들과 함께

ㄴ 시스템은 1) 코호트를 구축하고 F/U 한다든지 2) 효과평가를 위한 실험군과 대조군의 설정을 용이하게 지원해야 한다든지 3) 운영계/기관의 특이성이 데이터에 미칠 영향을 연구자가 놓치지 않고 고려할 수 있게 하는 방법 등을 고민해야 합니다.

6. 의학 자체의 학문적 본성

ㄴ 불확실성 속의 최선의 의사결정과학 ==> 계속 뭔가가 변동된다는 것이겠죠!! form이든 용어든, 지식이든…..

ㄴ 컴퓨터는 exclusive enumeration이 되지 않는 정보처리에 매우 취약한데, 병원에서 수집된 데이터-우리가 원하는 정보간의 관계는 매우 변동성이 심합니다. 예를 들어, 20년전 데이터에서 ‘정상혈압’이 현재는 ‘정상혈압’ 인가?를 생각해 보면 어떤 데이터들은 그다지 확정적이지 않고 어떤 데이터 (20년 전 30세 남자 성인의 키가 180이었는데 현재 180이 아닐 확률)는 몇 가지 정보만 추가하면 확정적일 수 있습니다.

이런 많은 고려사항중에서 정말로 임상연구자들이 고려해야 하는 것만 빼고, 시스템이 해결할 수 있는 것은 어떤 부분들인지, 그리고 그것들을 내재화해가는 것이 CDW의 차세대이자 고도화라고 할 수 있습니다. (물론, 현재는 windows 97이 더 이상 지원되지 않는 것 처럼 기술 플랫폼의 변곡점에 따라 겸사겸사 이루어지는 면도 있습니다)

따라서 사회의 흐름과 마찬가지로 digital transformation, 임상연구의 workflow들까지 고려하고 온오프라인 프랙티스를 통합해서 최선의 정확도와 효율을 가져올 매우 highly interllectual 한 설계가 __CDW, 적어도 CDW차세대__에는 필요합니다.

EHR이나 CDW 공히 병원의 고급인력들에게 불필요한 삽질노동(일차적으로는 충분히 시행착오를 통해 체득하고 나면 줄일 수 있는 재시행들만이라도)을 모든 연구자들이 똑같이 반복하는 현상을 줄여 줄 수 있다면, 인간은 가장 지적이고 heuristic한 부분을 하게 하고 나머지는 시스템 기능으로 서포트한다면, 연구자 좋고 사회에도 좋고 기관도 안전하면서 효율적인 성과를 창출하고.. 이보다 좋을 수 없겠죠.

하지만 불운하게도, 아직 clinical informatics에는 사각지대가 많습니다.

진정한 융복합의 의미에서의 clinical informatics 도메인에 정착하기보다, IT에 고착된 관점에서 데이터를 미러링했으니 다 됐다는 분들부터 (CDW는 DW가 아닌데) 연구데이터를 왜 네이버처럼 원클릭으로 추출을 못하는지 답답한 분들까지 (코호트 정의부터 결과변수까지 원클릭이 되려면.. 마인드 리딩 되는 기술이 먼저 나와야)

“아직 가야할 길은 멀고 혼자갈 수 있는 길이 아니니 협력하고 개선해 나가면서 활용해야 한다는 공동의 인지”를 갖기가 어려운 것 같습니다.

여기에 “서식”이라는 semi-structured data라는 고운말이 아까운 독특한 데이터 구조까지.. (10년전에 만들고 아무도 입력안한 외래(XX과초재진) 서식에서 나이를 검색하면.. 데이터가 하나도 없겠죠)

사용을 통해서 운영계를 정교하게 업데이트 해 나가고, 이를 통해 축적되는 데이터의 품질이 개선되고 하는 진정한 데이터 과학의 순환이 병원정보시스템에서도 이루어져가고 있지만, 좀 더 대중적인 인식의 개선과 협력하는 문화의 정착이 앞으로도 쭉 이어지기를 기대해봅니다.

📂방점은 CDW의 ‘구현’, 즉 데이터/지식 처리의 구조화에 있습니다

“EHR 도입이 진료에 편익을 가져다 줄 것인가?”라는 질문은 층위가 잘못되었다고 이전 글에서 저의 생각을 밝혔듯이, “CDW 도입이 연구를 촉진시킬 것인가?” 역시 ‘어떤’ CDW인가, ‘어떻게’ 구현된 CDW인가에 그 답이 있을 것입니다.

다만, “EHR-CDW”의 큰 두 축으로 생각해 볼 수 있는 훌륭한 병원”정보시스템”이 없이는 Data-driven medicine, Precision medcine의 선도, 적어도 선제적 도입은 불가능합니다.

이렇게 생각해봅시다. 10명, 20명, 100명의 환자를 대상으로 하는 연구는 manual chart review로 수행하든 CDW로 수행하든 퍼포먼스나 획득자료의 일관성 측면에서 큰 차이가 없을 수 있습니다.

1000명, 10000명을 대상으로 하는 연구, 100만명 중에서 1만명을 추려내야 하는 연구, 이런 연구가 digital platform 없이 가능할까요? 어느 특이점 이상에서는 기반기술확보의 유무에 따라 다음 양상으로의 전환이 가능하고 불가능한 것이 갈리게 됩니다.

여기서 기반기술이란 knowledge processing을 말합니다.

데이터 깡패라는 말처럼, 연구자본과 데이터의 질과 양이 무시할 수 없는 연구의 한 독창성(?!)으로 등장한지는 꽤 되었습니다.다만 정교한 설계, 정밀한 데이터, 빠른 가설검증과 데이터 풍경의 제공, 데이터 과학의 선순환이 내재화된 시스템을 갖추는 것은 우리나라의 병원들과 연구자들이 충분히 경쟁력을 갖추고 있고 아직 다음 단계를 선점할 수 있는 부분이 있을 것이라고 개인적으로 믿고 있습니다. (한글 포스트니까 ㅎㅎ 매우 개인적인 생각입니다)

IT, 기관특이적 진료환경, 의료용어체계, 정보표준, 의학적 지식과 비전까지 고른 스펙트럼의 사람들이 공동의 목표하에 학제간 팀을 이루고 기관과 국가차원의 지원과 협조가 있어야만 잘 될까 말까 하는 것이 secondary use of clinical data domain입니다.

이번 글에서는 그 안에서도 가장 주요한 플랫폼인 CDW에 대해서 큰 맥락에서 이야기를 나누어 보았습니다.

📂CDM은 그럼??

CDW와 CDM을 혼동하는 분들이 종종 계십니다.. CDM은 데이터 모델로서 이를 통해서 CDW의 구현을 생각해 볼 수도 있는데, 정확히는 CDM이 추구하는 첫째 기능은 (분석이 가능한) 대외계라고 할 수 있습니다.

이 부분은 CDSS를 다룬 이후, CDM 글을 따로 파서.. 다루어 보도록 하겠습니다. :)

Clinical Informatics 카테고리 내 다른 글 보러가기

댓글 남기기