빅데이터는 거품이다(김동환 저, 페이퍼로드출판사)

“큰 것”만 쫓는 한국의 현실 속에 빅데이터는 광풍이다

<빅데이터는 거품이다>(페이퍼로드출판사, 2016년)라는 책을 쓴 저자 김동환 교수는 현재 중앙대학교 공공인재학부 교수로 재직중이다. 고려대 경영학과를 졸업하고 행정학과에서 석사와 박사 학위를 받았다. 행정학을 전공한 김동환 교수가 왜 빅데이터를 언급하는가? 저자는 1980년대 후반부터 인공지능을 연구해왔다. 그러한 이유로 빅데이터에 대한 나름의 비판적 시각을 이 책에 담고 있다.

이명박 정부가 들어서고 4대강 사업으로 시작한 이른바 “녹색성장 정책”이 끝나면서 “빅데이터 관련 사업이 “휘몰아”쳤다고 언급한다. 김동환 교수는 빅데이터 학문의 기반에는 20세기에 풍미했던 미국학계의 “행태주의”에 영향을 받은 것으로 서술하고 있다.

“행태주의”는 데이터 분석만 잘하면 사회의 움직이는 법칙을 밝혀낼 수 있다고 믿고 있다. 그러나 저자는 현재 행태주의는 쇠퇴해 왔다고 보고 있다. 그러나 한국은 뒤늦게 행태주의적 연구인 빅데이터 분석을 우리 사회의 문제를 분석하는 새로운 툴(Tool)로 추앙하고 있다고 비판하고 있다.

우리나라에 빅데이터가 본격적으로 도입된 것은 2011년 11월 7일 이명박 대통령이 참석한 국가정보화전략위원회. 이날 대통령은 “다른 나라에 앞설 수 있으며 조속히 실천에 옮겨 효과가 나오도록 하자”고 언급했다. 이 회의 이후 일정도 주목된다.  이명박 대통령은 빅데이터의 대명사로 알려진 구글(Google) 이사회 의장 에릭 슈미트와의 만남이 진행되었다. 저자는 이날 11월 7일을 한국 빅데이터의 생일날이라고 표현하고 있다

빅데이터란 대용량 데이터를 분석, 활용하여 가치 있는 정보를 추출하고, 생성된 지식을 바탕으로 능동적으로 대응하거나 변화를 예측하기 위한 정보화 기술이라고 정의하고 있다.

빅데이터의 정의해서 볼 수 있는 첫번째 특징은 “많다”라는 점이다. 그리고 흔히 빅데이터의 특징으로 불리는 V3, 양(Volume), 속도(Velocity), 다양성(Variety).  많은 양의 데이터를 빠르게 분석해야 하고, 다양한 형태의 데이터를 분석해야 한다는 것을 의미한다.

또한 빅데이터는 기존의 정형데이터(인구통계, 교통량조사 등) 뿐만 아니라 비정형 데이터(소셜미디어 대화, CCTV 동영상자료, 신용카드 사용내역, 버스요금 지출내용 등)를 포함하고 있다. 기존의 정형화된 데이터에서 비정형 데이터를 분석에 포함함으로써 빅데이터는 새롭고 다양한 시각의 분석 결과를 도출할 수 있게 된다.

비판1. 빅데이터는 미래를 예측할 수 없다

재난지역의 다양한 정보를 수집하여 피해지역을 사전에 예측하기는 힘들다는 것이다. 특히 소셜미디어에서 언급하는 재난 현장의 사진이나 멘션 등을 수집하는 것은 재난을 예측하고 방지할 수 있는 것은 아니라는 점이다.

즉, 빅데이터는 미래를 예측하는 기능이 없다는 것이다.  저자는 빅데이터보다는 스몰데이터를 꾸준하게 잘 관리하는 것이 오히려 재난사고 등을 예방하는데 필요하다는 것을 강조한다.

비판2. 미국 오바마 대통령 당선은 빅데이터를 활용한 마이크로 타케팅이 중심이었다

김동환 교수는 오바마 대통령의 리더쉽은 빅데이터가 아니라 소수에 대한 “경청”이라고 언급하고 있다. 오바마 대통령의 두번의 선거에서 빅데이터를 활용한 것으로 잘 알려져 있다. 그리고 재임시에도 빅데이터 사업이 강조되어 왔다.

2013년 워싱턴포스트지에서도 <Obama, the big data president>라는 제목의 기사가 올라오기도 했다. 워싱턴 포스트 기사에서는 오바마 대통령이 빅데이터를 강조함으로써 전임자와는 달리 자신이 이데올로기에 얽매이지 않았다는 점을 보여 주었다고 말한다. 즉, 데이터기반 정책을 강조한 것이다.

2012년 대통령 선거에서 오바마 캠프는 빅데이터를 활용하여 재선에 성공한다. 각종 SNS의 데이터를 수집하여 대통령 선거의 판세 분석을 매일 66,000번씩 시뮬레이션을 했다. 2012년 대통령 선거 5개월 전에 이미 오바마 캠프는 빅데이터 분석을 통해 오바마가 332명의 선거인단을 확보하고 상대 후보 미트 롬니는 206명에 그칠 것이라는 예측을 했다고 한다. 그 예상은 비슷하게 맞았다.

그러나 실상 캠페인에서 빅데이터 분석과 함께 중점을 둔 것은 “마이크로 타겟팅”이었다. 즉, 유권자 한명 한명에 대한 분석을 바탕으로 맞춤형 광고였다. 특히 선거 기금을 모집할 때 개인들에게 보내는 이메일의 내용과 형태를 각기 달리해서 보냈다. 빅데이터를 통해 유권자의 성향을 분석해 활용한 것이지 판세분석 등 선거 결과 예측이 중심이 아니었다는 것이다.

비판3. 구글 독감 예방 프로젝트는 독감을 예방할 수 없다

2009년 네이처 학술지에 실렸던 구글의 독감 예방 논문으로 빅데이터의 미래 예측 능력이 주목을 받았다. 그런데 저자는 이 논문이 빅데이터 예측 기능으로 많이 인용되어 쓰이지만 논문의 제목이나 내용에서는 예측(predicting)이라는 단어보다 진단(detecting)이라는 단어가 주로 사용되었다고 한다. 논문 제목은 <Detecting influenza epidemics using search engine query data>이다. 저자는 독감이 발생하는 초기에 독감의 유행을 얼마나 빨리 알아내는가가 문제의 핵심이라고 지적한다.

그런데 구글데이터는 독감에 걸린 사람들이 병원에 가서 진단을 받고 친구들에게 독감에 걸렸다고 이야기하면, 그제야 비로소 독감 진행 상황을 파악할 수 있다는 것이다. 즉, 빅데이터는 사고나 현상이 발생하고 그 데이터를 수집하여 분석할 수 있기 때문에 미래를 예측하는데는 한계가 분명하다는 것이다.

비판4. 빅데이터는 상관관계(correlation), 스물데이터는 인과관계(casual relation)

최근 스몰데이터로 주목받는 사람은 마린 드스트롬이다. 그는 “빅데이터는 소비자 행동의 전체그림을 보여주는 않는다며 이어서 스몰데이터를 통해 사람들 본 모습을 알 수 있다”고 말했다. 빅데이터는 방대한 데이터에 대한 통계적 분석을 수행하여 상관관계를 찾는다. 그에 반해 스몰데이터는 원인과 결과의 관계, 즉 인과관계를 파악한다.

천문학자 케플러는 하늘에 떠 있는 수억 개의 별들의 운행에 관한 빅데이터를 분석하여  “케플러 법칙”이라고 일컫는 행성 운행의 법칙을 발견한 것은 아니라는 점을 강조한다. 단 하나의 별, 화성의 움직임을 분석하여 케이플러는 행성 운동의 법칙을 발견한 것이라는 것이다.

비판5. 구글은 왜 직접적인 판매상품을 만들기 보다 미래 예측 등의 연구에 집중할까?

구글은 독감 예방을 위한 빅데이터 분석에 많은 투자를 했다. 얼마전 인공지능 알파고와 한국인 이세돌 9단과의 바둑격돌에도 구글이 있었다. 이러한 구글의 미래 산업에 대한 투자와 연구는 미국 산업의 “주주 자본주의(Shareholder Capitalism)”에 기인한다고 보고 있다.

미국 기업은 지적 유행으로 투자를 받아내고 그것으로부터 수익을 창출한다. 알파고와 이세돌의 대결에서 구글의 주식은 4.38% 상승하여 주식 총액이 한화로 10조 8천 7백억원 증가했다. 2014년 구글이 딥마인드를 인수하는데 지불한 금액은 7,000억원인데 주식 총액의 상승으로 구글은 2년만에 투자금의 12배가 넘는 장사를 했다는 것이다. 이러한 주주 자본주의적 특성도 빅데이터 광풍에 일조했다고 보고 있다.

비판6.  빅데이터는 우로보로스 숭배이다

그리스 신화에는 우로보로스(Ouroboros)라는 생물이 등장한다. 우로보로스는 자신의 꼬리를 물고 있는 뱀의 형상으로 스스로를 파기시키는 가장 어리석은 모습을 하고 있지만, 거꾸로 늙은 육체를 벗어버리고 새로운 육체를 얻는 불사의 생물로 숭배를 받기도 한다. 많은 빅데이터 옹호론자들이 빅데이터를 우로보로스로 숭배한다면, 필자는 우로보로스와 같은 빅데이터의 자해가 어리석다고 지적하는 것이다.

저자는 빅데이터가 가지고 있는 문제점으로 행태주의적 관점을 지적하고 있다. 행태주의를 통해 나타난 문제들의 상관관계는 구조적인 사회의 문제를 해결하는데 한계가 있다고 보고 있다. 사람들의 복잡한 사회적 문제와 구조를 파악하기 위해서는 단순한 상관관계로 풀기는 어렵다고 보고 있다.

비판7. 빅데이터는 과거의 기록일 뿐

이 책에서는 빅데이터는 하나의 데이터가 모아져서 빅데이터가 되는 것이고, 데이터는 이미 발생한 사건에 대한, 과거의 기록일 뿐이라고 정의한다.

빅데이터 전성시대를 살아가는 우리에게 가장 시급한 건 빅데이터의 신화로부터 한꺼풀 벗겨내려는 자세다. 동서고금을 막론하고 데이터란 결코 객관적이지도 중립적이지도 않다. 제 아무리 데이터값이 크다 한들, 현실은 언제나 데이터 ‘바깥’에 존재한다. 진실한 빅데이터는 없다.

결록적으로 빅데이터에 대한 큰 기대는 망상이 될 수 있다. 또한, 미래 예측에 대한 빅데이터 기능은 허상일 뿐이다고 평가한다. 데이터가 과거의 기록이라는 측면에서 빅데이터는 단지 과거의 기록으로 보아야 한다는 것이다.  과학적 방법론에서 이론(Theory)을 비교해서 정의하고 있다. 이론은 통시적 원리를 따른 것이며, 인과관계로서 증명된다. 그런 면에서 빅데이터의 상관관계와 달리 미래의 예측 기능이 있다고 보는 것이다.

필자가 말한 국내의 빅데이터 광풍에 대한 지적은 일면 수용하고 싶다. 우리의 학풍은 미국 등 서구에서 유행하는 것을 맹목적으로 따르는 경우가 다반사다. 그것은 진보든 보수든 마찬가지라고 생각하다. 빅데이터 열풍도 학풍이 진보든, 보수든 상관이 없었다고 본다.

그러나, 필자가 지적한 빅데이터 한계점, 과거의 기록일 뿐이라는 비판에 대해서는 일부 수용하기 힘들다. 과거의 기록이라는 빅데이터가 미래를 이해하는 단초가 될 수 있다. 지금은 상관관계만 증명할 수 있지만, 더 많이 수집되면 그 안에서 인과관계가 증명될 수 있고, 이론으로 발전할 수 있지 않을까 생각한다. 데이터의 연속적 측면에서 본다면, 빅데이터가 통시적 자료는 될 수 없다고 단정하기 어렵다고 느껴진다.

그러나, 반면 빅데이터 분석에 대한 모호함, 지표의 부재 등도 내가 느끼는 한계점이다. 특히 비정형데이터를 활용하다 보니, 과학적 분석에 한계가 많이 드러나고 있다. 결과적으로는 분석자의 시각과 경험을 토대로 데이터를 분석하게 된다. 이런 점은 빅데이터가 객관적이지 못하다고 하는 지적을 피할 수 없게 한다.

카테고리: 일상 | 댓글 2개