영화 <마이너리티 리포트>를 보면 살인이 일어나기 전에 살인자로 체포하는 것이 과연 정당한가와 어떻게 그 사람이 살인을 저지를 것인지를 미리 아는 것일까 의문이 생길 것이다. 당시엔 이것이 허구였지만 지금은 현실로 다가와 미국의 여러 도시에서 경찰들은 실시간으로 범죄 유형과 발생 확률, 발생 지점 등에 대한 정보를 네트워크를 통해 전해 받고 특정 지역을 감시하고 있다. 범죄 관련 빅 데이터를 분석한 결과이다. 이와 같은 것을 가능하게 하는 것이 이른바 빅 데이터를 통해 예측에 필요한 정보를 생산할 수 있게 되었기 때문이다. 그러면 빅 데이터란 무엇인가? 지난 30년간 컴퓨터 관련 기술들과 같이 저장장치 기술도 급속도로 발전해 왔다. 최근에는 16테라바이트(10의 12제곱) 용량의 이동 저장장치가 나왔다고 한다. 참고로 현재 수학적으로 정의가 된 단위 가운데 최대 단위가 10의 30제곱인 지옵바이트(Geopbyte)이다. 이처럼 컴퓨터 기억장치의 용량이 기하급수적으로 증가하면서 저장해서 쓸 수 있는 데이터의 규모 또한 같이 커졌다. 2015년  페이스북 사용자는 매 분 400만개 이상의 컨텐츠를, 트위트는 35만번의 트위트를, Youtube는 300시간 분량의 새로운 비디오를 올리고 2억건 이상의 이메일이 보내진다고 한다. 또 종류도 기존의 디지털 데이터뿐만 아니라 동영상, 사진, 음악, SNS상의 각종 형태의 비정형 데이터가 등장하면서 데이터의 종류도 다양해졌다. 또 지금은 사물인터넷(Internet on Things)시대가 열렸다. 즉 모든 사물이 인터넷을 통해 연결이 되어가고 있다. 여기서 생산될 데이터의 양은 도무지 얼마나 될지 예측조차 불가능할 지경이다. 이런 데이터의 폭증 현상은 가트너 그룹의 전신인 메타그룹의 Laney가 쓴 2001년 한 글에서 데이터 운용에서 있어 3차원인 볼륨(Volume), 속도(Velocity), 형태(Variety)를 처음으로 이야기 하였고, 2008년 CCC 그룹의 브라이언트 등에 의한 글에서 빅 데이터 용어가 소개되었다. 이러한 빅 데이터를 저장과 관리하는 도구로는 HADOOP, NoSQL, MapReduce 등이 있다. 이렇게 기술이 개발되면서 데이터 사이언스(data science)라는 새로운 학문분야와 최근 가장 핫한 직업으로 등장한 데이터 사이언티스트(data scientist)이다. 데이터 사이언스란 빅 데이터로부터 정보를 생산 가공하는 학문으로 대용량 데이터의 관리와 분석, 도식화와 기계학습, 실험과 인과분석, 법적 윤리적 측면과 회귀분석과 시계열분석 등의 수법을 기초로 하고 있다. 또한 데이터 사이언티스란 통계 모델링과 기계학습, 데이터 마이닝, 지도학습과 자율학습 등에 대한 지식과, 데이터베이스에 대한 지식, 각종 언어(Python, R, SQL, MapReduce, Hadoop 등) 실행능력, 비주얼 디자인, 스토리텔링 등의 능력과 데이터에 대한 호기심, 전략적, 창의적이면서 협력적 태도 등을 갖춘 사람으로 정의한다.이상의 정의로 본다면 데이터 사이언스란 통섭의 학문분야로 간주되는 21세기형 학문이다. 이 분야에 대한 수요는 2015년 한 해만 해도 미국에서는 백 만 명 이상의 데이터 사이언티스트가 필요하다고 할 만큼 폭발적이다. 미국의 각 대학에서도 데이터 과학전공을 할 수 있는 관련 학부를 신설 운용하면서 이에 필요한 인력을 양성하는 데 심혈을 기울이고 있다. 데이터 사이언스가 해 낼 수 있는 것으로 경영분야에서는 고객의 구매 패턴을 파악 예측하고, SNS 등의 데이터로 영업에 필요한 많은 정보를 생산 활용함으로써 경쟁력 제고에 필수적 수단이 되었다. 유명한 인터넷 기업 아마존에서는 사용자의 관심을 주문이나 방문한 내용 등을 스스로 분석하여 사용자가 들어오면 관심을 가질 만한 제품을 추천하고 또 주문한 제품에 관련된 다른 제품을 제시함으로써 주문을 용이하게 할 수 있게 도와줘 구매량을 증대시킬 수 있는 시스템을 구동중이다. 무인자동차의 경우 자동 운전 장치가 사물 또는 사람을 인지하고 행동 등을 예측하도록 기계학습을 통해 이루어지게 설계함으로써 안전성을 높여 가고 있다. 또 과거 10년 이상 걸리던 20억건 이상의 DNA 데이터 분석을 단 하루 만에 분석함으로써 유전자 관련 정보를 획득하여 유전자 설계 분야가 획기적인 발전을 할 수 있도록 하고 있다. 이는 과거 실험만으로는 규명하는데 한계가 있었는데 이를 넘어서게 하고 있다. 빅 데이터 분석의 가장 큰 장점은 표본조사 등의 한계인 일정 패턴 등을 찾아내고 또 연관성을 규명할 수 있다는 것이다. 또 드러나지 않았던 다양한 인자들을 찾아내고 이들 사이의 관련성을 정확히 분석함으로 예측에 있어 그 정확도를 향상시킨다는 것이다. 이와 이런 기술은 향후 사물인터넷이 실용화될 때 더 많이 활용되어 인간 생활에 획기적인 변화를 가져다 줄 것으로 기대되고 그만큼 더 많은 데이터 사이언티스트가 필요하게 될 것이다.  우리 대학도 이에 대한 대응이 절실한 시점이다.

손중권 교수

(자연대 통계)

저작권자 © 경북대학교 신문방송사 무단전재 및 재배포 금지