잠자는 보물, 다크 데이터
다크 데이터 (Dark Data)
지금 사용하는 개인 컴퓨터를 살펴보면 다양하는 폴더와 파일이 자리 잡고 있으며, 폴더에 담긴 파일은 데이터이다. 이러한 데이터 중 최근 생성한 파일, 최근 자주 사용하는 파일 외에 얼마나 많은 데이터를 활용하고 있을까?
폴더에는 문서 파일, 이미지 및 영상 파일, 유틸리티 프로그램을 비롯해 공간 효율을 위해 압축해둔 파일 등이 있다. 그런데 폴더를 보면 재생한지 오래된 음악 파일이나, 과거의 회의 자료와 각종 문서가 그대로 쌓여 있다. 언제 다운로드했는지 혹은 만들었는지 기억조차 없는 파일이 있다.
이처험 수많은 데이터가 저장되어 있지만 활용하지 않는 데이터를 '다크 데이터(Dark Data)'라고 한다. 다크 데이터는 다른 데이터와 연결되지 않고 고스란히 남아 있다. 사용자조차 존재 여부를 모르는 채 보유하고 있는 데이터는 사용자의 컴퓨터나 클라우드 서비스 등 어디에나 존재한다.
다크 데이터는 무엇인가?
다크 데이터는 빅데이터와 비슷하지만, 구조화되어 있지 않고 일반적으로 더는 사용하지 않는 데이터를 말한다. 기업이나 비즈니스 활동에서 수집, 처리하지만 특별한 목적을 위해 사용되는 데이터가 아니다. 많은 회사가 생성하고 수집한 데이터를 저장하지만, 데이터로 어떻게 활용해야 할지 몰라 그냥 두곤한다. 로그 파일이나 오래전에 작성된 문서 등이 이에 해당한다.
대부분의 다크 데이터는 구조화되지 않은(Unstructured) 비정형 데이터이다. 오디오나 비디오, 이미지 파일 등으로 사용자의 행동이나 음성 정보 등이 포함된다. 일반적으로 흔히 찾아보거나 접근하는 데이터가 아니고 워낙 양이 많아 특별한 수집, 분석 도구가 필요하다.
다크 데이터의 종류는 산업별로 굉장히 다양하다. 날씨를 기록하기 위해 수집하는 데이터도 있고 이커머스에서 쇼핑할 때 발생하고 수집되는 데이터도 있다. 서버나 시스템에 기록되는 각종 로그 파일과 위치 데이터, CCTV 녹화 영상, 고객 상담 기록, 회의록 등과 같은 데이터도 포함된다.
일반적으로 모바일과 인터넷 활동을 통해 전송되는 모든 데이터는 잠재적인 다크 데이터라고 볼 수 있다. 네트워크에서 인터넷 환경을 구성하는 여러 요소가 데이터를 끊임없이 생성하고 정보를 주고받기 때문이다.
빠르게 분석하고 활용 가능한 정형화 데이터와 반대로 비정형 데이터인 다크 데이터는 기업 입장에서는 저장 비용을 발생시키며, 오히려 필요한 데이터를 찾는데 방해 요소가 될 수 있다. 리서치 기업 가트너는 다크 데이터를 '기업의 활동으로 수집되지만, 특별한 용도로 사용되지는 않는 정보'라고 정의했다.
다크 데이터를 밝은 데이터로 만들기 위해
전제 데이터에서 다크 데이터가 차지하는 비율은 최소 80% 많게는 90% 이상이 다크 데이터로 알려져 있다. 이는 세상에 존재하는 수많은 데이터 가운데 10% 정도만 활용하고 있다는 것이다.
다크 데이터에 대한 관심이 높아진 데는 두 가지 요인이 있다. 먼저 데이터 저장 장치와 인프라의 발달이다. 클라우드 기술의 발전과 함께 저장되지만 사용되지 않는 데이터 역시 많이 늘어났다. 하지만 과거와는 다르게 더 많은 데이터를 저장해도 큰 비용이 들지 않는다. 또한 클라우드를 통해 여러 곳에 방치되어 있거나 잠들어 있는 데이터에 쉽게 접근하고 분석할 수 있는 기반이 마련되었다.
다른 요인은 대규모의 데이터를 분산 처리할 수 있는 기술과 이를 시각화하는 분석 프로그램의 발전이다. 하둡(Hadoop)과 같이 분산 응용 프로그램을 지원하는 소프트웨어 프레임워크를 통해 데이터 분석이 쉬워졌다. 팍사타(Paxata)와 같이 머신러닝과 자연어 처리 등을 활용해 데이터를 자동으로 분석하는 솔루션도 등장하여 데이터 활용 범위가 확대되었다.
메디컬 분야에서의 다크 데이터
메디컬 데이터는 환자의 진료 기록, 검사 결과, 생체 신호 등 다양한 형태로 존재한다. 이러한 데이터는 질병 진단, 치료, 신약 개발 등에 활용될 수 있는 귀중한 자산이지만, 다크 데이터라는 형태로 잠재되어 있는 경우가 많다.
메디컬 데이터에서 다크 데이터가 발생하는 이유
- 데이터 형식의 다양성 : 의료 현장에서 사용되는 다양한 장비와 시스템으로 인해 데이터 형식이 표준화되지 않고 제각각인 경우가 많다. 이는 데이터 통합 및 분석을 어렵게 만들어 다크 데이터를 발생시키는 주요 원인이다.
- 데이터 품질 문제 : 데이터 수집 과정에서 오류가 발생하거나, 누락된 정보가 있을 수 있다. 또한, 데이터 표준화가 부족하여 데이터 간의 비교 및 분석이 어려운 경우도 있다.
- 데이터 접근성 문제 : 데이터가 서로 다른 시스템에 분산되어 있거나, 접근 권한이 제한되어 있어 데이터를 통합하고 분석하는 데 어려움을 겪을 수 있다.
- 데이터 보안 및 프라이버시 문제 : 개인정보 보호에 대한 관심이 높아지면서 민감한 의료 데이터를 안전하게 관리하고 활용한 데 제약이 많다.
- 데이터 분석 역량 부족 : 복잡한 의료 데이터를 분석하고 의미 있는 정보를 추출하기 위한 전문 인력과 기술이 부족한 경우가 많다.
- 전자 의료 기록(EMR) 내 비정형 데이터 : EMR에는 환자의 주관적인 증상이나 의료진의 진료 기록 등 비정형 텍스트 데이터가 많이 포함되어 있다. 이러한 데이터는 구조화된 데이터에 비해 분석이 어려워 다크 데이터로 남아 있는 경우가 많다.
- 의료 영상 데이터 : X-ray, CT, MRI 등 의료 영상 데이터는 방대한 양이 생성되지만, 이를 분석하고 진단에 활용하기 위한 전문 인력과 기술이 부족하여 다크 데이터로 남아 있는 경우가 많다.
- 임상시험 과정에서 생성된 데이터 : 신약개발은 전임상시험에서 임상 3상시험까지 허가 받야야 할 단계가 많고 성공률은 9.6%에 불과할 정도로 어렵다. 성공한 신약개발 외 실패한 수많은 임상시험 연구 데이터들이 다크 데이터로 남아 있다.