데이터 사이언스 ≠ 빅데이터 분석

요즘 IT 혁명을 이끌고 있는 키워드들을 꼽으라면 인공지능이 제일 먼저 꼽히고, 그 기술의 근간이라고 할 수 있는 머신러닝과 딥러닝, 그리고 빅데이터, 데이터 사이언스 등의 단어들이 여러사람들의 입에 오르내리고 있다. 한낱 바둑 게임인 알파고가 한중일 바둑계의 전설인 이세돌 9단을 이긴게 엊그제 같은데, 지난 1년 남짓동안 알파고에 쓰인 인공지능 방식을 적용한다는 서비스가 수십가지나 생겨났다. 기업들은 인공지능 연구소를 설립하고, 정부는 인공지능에 5년간 1조원을 투자하겠다고 발표했고, 사설 강의 업체들 곳곳에서 데이터 사이언티스트 양성소라는 팻말을 달고 머신러닝, 데이터 사이언스 수업을 제공하고 있다. (수준 낮은 퀄리티를 보고 열받아 이제 필자도 강의를 하게된다 ;;;)

4차산업 혁명에 대한 이야기들이 등장하면서, 섣부른 추측과 언론의 “설레발”들을 곳곳에서 만날 수 있다. 어느 벤쳐 투자자는 빅데이터를 갖추고, 거기에 머신러닝을 적용만하면 꿈같던 일들이 모두 현실화 될 것이라고 이야기하시던데, 인공지능을 고도화하는데 어떤 종류의 빅데이터가 필요하고, 그 데이터는 아직 없고, 기계가 더 고도화되는데 어떤 난관이 있고 등등에 대해서 잘 모르시는 것 같아 듣던 중 참 안타깝기도 했다. 이런 한국의 현실에 맞춰, 인공지능, 빅데이터, 머신러닝, 데이터 사이언스에 대한 일반의 오해를 풀어보고 싶다.

 

 

빅데이터 분석이 데이터 사이언스?

필자가 시장에서 만나는 첫번째 오해는 데이터 사이언티스트는 데이터를 “돌리는” 모든 직종이라는 오해다. 필자가 전에 몸 담았던 투자은행계 친구들이나 그 옆동네(?)인 전략 컨설팅 출신 친구들은 자기네가 “엄청난” 양의 데이터를 “엑셀”로 다루고 있어서 데이터 사이언스가 나오기 10년 전부터 벌써 데이터 사이언스를 하고 있었다고 주장한다. 저 아래에서 다시 언급하겠지만, 그 동네에서 하는 “엑셀”작업은 데이터 “사이언스”가 아니라 그냥 데이터 “분석”이다.

빅데이터는 그냥 데이터의 볼륨(Volume)이 크고, 빠른 속도(Velocity)로 저장되고, 종류가 다양(Variety)하고, 그래서 가치(Value)가 있는 데이터(라고 한)다. (이른바 3Vs + Value in Big Data)

예전처럼 통계청 페이지에서 엑셀로 저장된 파일 하나를 다운받아서 데이터 작업을 하는게 아니라, 대용량의 데이터가 시시각각으로 쌓이고, 그 데이터를 어떻게 활용하느냐에 따라 다양한 정보를 뽑아낼 수 있게 되었다. 그래도 이게 “사이언스”는 아니지 않나? “빅데이터 = 사이언스” 라는 공식이 깨지는 예를 좀 들어보자.

 

1. 빅데이터 in 금융시장

빅데이터가 뭔지 다들 감도 없던 시절에 빅데이터 분석을 했던 곳은 (당연하겠지만) 돈이 가장 많이 모이는 곳, 금융 시장이었다. 주식, 채권, 파생상품 거래를 컴퓨터로 처리할 수 있게되자 초 단위로 거래 데이터가 쌓이기 시작했다. 매일의 종가만 정리하면 한 달에 20개 데이터가 쌓이지만, 매 초단위로 데이터를 쌓으면 한달동안 20(일) x 6(시간) x 60(분) x 60(초) = 432,000개의 데이터를 모을 수 있게 된다. 20개 데이터와 432,000개의 데이터 둘 중 어느쪽을 택하겠는가? 상식적(합리적)으로 초 단위 데이터를 쓰면 뭔가 좀 더 복잡한 분석을 할 수 있을 것 같은 느낌, 돈을 더 벌 수 있을 것 같은 느낌이 들지 않나?

지금은 컨셉마저 달라져버린 High Frequency Trading (HFT)의 등장이었다. 언뜻보기에는 이런 데이터를 이용하면 더 큰 돈을 벌 수 있을 것 같은 기대감 때문에 HFT는 한 때 큰 반향을 불러 일으켰다.

그럼 HFT로 헤지펀드들은 큰 돈을 벌었을까?

HFT의 핵심은 초 단위의 데이터에 있는 정보들을 개별적으로 해석, 활용할 수 있느냐의 여부에 달려있다. 그 정보들을 활용하지 못하면 데이터 포인트가 아무리 많아도 데이터 분석의 결과는 동일하다. 쉬운 예시를 하나 들어보자.

1월 1일 아침 개장 시간에 투자해서 1월 31일 장 마감에 매도하려는 생각을 가진 투자자가 있다. 이 투자자에게 중요한 데이터 포인트는 딱 두 개다. 1월 1일 아침 개장 때 구매한 가격과 1월 31일 장 마감에 매도하는 가격. 그 사이 30일간 투자 포트폴리오의 가격이 어떻게 움직였는지는 전혀 중요하지 않다. 20 거래일 동안 20개의 데이터 포인트를 이용해 분석을 하건, 7,200개의 데이터 포인트를 이용해 분석을 하건 어차피 1달 투자 후의 수익률은 동일하다. 아래 예시를 보면, 3번의 데이터를 갖고 있건, 12번의 데이터를 갖고 있건 상관없이 매도 시점의 가격은 122.14로 동일하다.

 

결국 이런 데이터로 추가 수익을 내기위해서는 초 단위로 이익을 얻기 위해 가격 움직임을 예측해서 초 단위로 남들보다 빨리 매수-매도할 수 있는 알고리즘이 도입되어야 한다. 그럼 가격 움직임은 어떻게 예측할까? 뉴스 같은 “재료”가 있을 때 투자자의 반응을 보고 움직이겠다는 생각은 초 이하 단위에서는 통하지 않는다. “남들보다 더 빨리”가 사실상 불가능하기 때문이다. (가능한 구석이 있는데 뒤에 소개한다.)

“재료”를 보고 투자하는게 아니라면, 과거 움직임의 패턴을 보고 미래의 움직임을 예측하는 방식을 쓰는게 하나의 대안이 될 수 있다. 그런데, 이 아이디어는 오래전부터 “기술적 분석”이라는 이름으로 썼던 투자전략이다. 120일 이동 평균선, 60일 이동 평균선 같은 이야기를 어디선가 한번쯤은 주워들어봤을 것이다. 정리하면, 데이터가 더 많이 생겨서 기술적 분석을 120일 이동 평균선이 아니라 120초 이동평균선을 보고 하겠다는 투자전략이라고 할 수 있다.

이런 기술적 분석이 맞기 위해서는 과거 거래 기록에서 찾는 패턴이 미래에도 반복되어야하는데, 그런 패턴 찾을 수 있으면 매일의 주가를 보고 만든 기술적 분석으로도 누구나 다 큰 돈을 벌었을 것이다. 일 단위가 안 맞아서 돈을 잃는 사람이 부지기수인데, 초 단위라고해서 딱히 더 높은 확률로 맞출 수 있을까?

필자의 박사 전공인 MCMC simulation에서는 주가 수익률 움직임을 무한대로 쪼개서 각각의 조각들이 Random하게 결정된다고 가정한 모델로 시뮬레이션화 한다. 무한대로 쪼개진 조각들이 뭉쳐질 수 있는 가능성의 조합은 당연히 무한대다. 실제 주가 움직임의 가능성도 무한대다. 투자 기간 (Window)이 월, 일에서 분(초) 단위로 내려간다고해서 주가 움직임의 가능성이 유한한 숫자로 내려오는 것도 아니다. 무한대를 나눠도 역시 무한대니까. 결국 HFT는 “예측” (좀 더 정확하게는 “도박”)용으로는 실패했다.

저런 투자가 성공하는 예외적인 경우는 모멘텀(Momentum)이 있는 사례 밖에 없다. 올라가던 트렌드, 내려가던 트렌드가 며칠간은 지속되는 경우를 흔히 볼 수 있으니까. 그런데 그 트렌드로 돈을 벌겠다면 굳이 일 단위 주가말고 초 단위 주가를 써야할 이유가 있을까?

“빅데이터”를 이용하는 이런저런 시도 끝에 오늘날 우리가 알고 있는 HFT 기반의 헤지펀드들은 여러개의 거래소들간 <가격, 물량> 차이가 발생하는 찰나의 순간을 활용하는 차익거래 (arbitrage trading) 모델에 안착했다. (한 거래소에서 모든 주문 물량을 소화 못 할 때 다른 거래소로 주문을 이전하는 그 순간 발생하는 가격 차이에서 차익을 얻는 거래법이다. 아쉽게도 주식, 채권 거래소가 하나뿐인 한국에서는 적용 못한다.) 쉽게 이야기하면, 빅 데이터를 쓰기는 하지만, 그 데이터로 미래를 “예측”하는 방식이 아니라 기술적인 한계를 “악용”하는 방식이다.

 

2. 빅데이터 in 정치

Case 1: 미국, 1936년, 대통령 선거, 여론조사

1936년 미 대선을 맞아 Literary Digest라는 잡지는 무려 240만명의 미국인을 대상으로 당시 캔자스 주지사 Alfred Landon과 대통령 Franklin Delano Roosevelt에 대한 선호도 여부를 조사했다. 여론조사는 Landon의 압승을 예측했으나 정작 선거 결과는 Landon이 단 2개 주에서만 과반수를 차지하는 것으로 나왔다. 1936년 빅데이터로 대 실패를 겪은 이후, 샘플 추출, 선택 편차 (Selection bias), 반응 오류 (Non-response error), 측정 오차 (Measurement error) 등 분석 이전에 데이터 자체의 퀄리티를 확보하는 연구가 진행되었고, 오늘날 선거 여론 조사는 기껏해야 1,000명 혹은 2,000명에 대한 샘플 조사로 결과를 예측하고, 240만명에 대한 여론조사보다 정확도는 훨씬 높아졌다. [Reference]

위의 1936년 미 대선은 데이터가 양적으로 방대하다고해서 예측이 정확해지는 것이 아니라, 얼마나 정확한 데이터를 갖고 있느냐가 예측 정확도를 담보할 수 있는지에 대한 대표적인 사례다. 가장 최근에 있었던 브렉시트 (Brexit), 2016년 미 대선 등은 속내를 밝히지 않는 유권자(속칭 Shy voter)들을 제대로 찾아낼 수 없으면 여론조사의 정확성이 떨어지는 한계를 보여주기도 했다. 혹자들은 Shy voter가 많으면 샘플을 늘리면 되지 않냐고 주장하는데, 1936년 대선에서 볼 수 있듯이, 데이터 자체에 오류가 있으면 샘플 숫자가 아무리 많이 늘어나도 결과의 정확도를 높일 수는 없다.

 

Case 2: 미국, 2016년, 대통령 선거, 여론조사

2016년 11월 8일 오후까지만해도 도널드 J. 트럼프가 대통령이 될 것이라고 말하는 사람은 바보 아니면 맹목적인 트럼프 지지자로 낙인찍혔다. 그리고 트럼프 대통령이 과거에 했던 여성 비하 발언, 인종차별적인 발언, 저속한 표현 등등을 바탕으로 트럼프 지지자는 “White Trash”라고 부르는 분위기가 형성되어 있었다. 그래서인지 공화당 선거 행사장에 어마어마한 숫자의 군중이 몰려드는 걸 일부 백인들의 광분으로만 폄하하고 과반수 득표로 이어지지는 않을 것이라고 추측하는 전문가들이 대다수였다. 결과는? 우리 모두가 알다시피 트럼프 후보가 대통령으로 선출되었다. (물론 선거인단 득표만 이기고, 대중 투표에서는 48 vs 46으로 졌다.)

CNN이 힐러리 클린턴의 압승을 예측하던 그 당시, 필자는 미국에서 겪었던 인종 차별 사건들을 조용히 떠올려봤다. 눈에 보이게 눈을 가로로 찢고 가는 백인 젊은이들, 논문 발표장에 동양인이 단상에 올라서니 표정이 일그러지던 백인 교수들, 주차로 시비가 붙었을 때 중재하러왔던 백인 경찰의 태도들… 그나마 학생들이 많았던 보스턴에서도 그런 일들이 많았는데, 보수적인 백인 문화가 자리잡힌 미국 중서부 시골 마을에서 과연 힐러리가 과반수 득표를 할 수 있을까?

브렉시트 당시 여론조사가 실제 민심을 제대로 반영 못 했다는 뉴스가 처음 나왔을 때, 필자의 머리를 제일 먼저 스쳐갔던 런던의 기억은 장바구니 들고 횡단보도에 서 있던 필자에게 “Such a contamination!”이라고 외쳤던 술 꼴은 영국인 아저씨의 폭언이었다. “정치적 올바름 (Political Correctness)”이라는 사회적 압박 때문에 평소에 말은 안 하지만 속으로는 대단히 보수적인 사고를 가진 그들이 여론조사에서는 정치적으로 올바른 답변을 하고, 정작 투표장에서는 자기 속내를 내보이는 결정을 내리는 사람들이 영국에 그렇게 많았다면, 미국이라고 다를까?

그럼 그들의 속내를 알 수 있는 방법은 없을까? 앞으로는 Shy voter들의 성향을 감안해서 직관(Read “깬또”)적으로 여론조사 결과를 수정해서 예측해야할까?

 

3. 진짜 빅데이터란?

빅데이터의 핵심은 데이터의 크기가 아니라 데이터로 여태까지는 못했던 분석, 예측을 할 수 있는지, 그래서 정확도를 높일 수 있는지의 여부다. 위의 예시처럼 금융시장에서 엄청난 양의 데이터를 분석한다고 해도 분석 방식은 “기술적 분석”의 구태에서 크게 벗어나지 못하고, 당연히 예측의 정확도도 높아지질 않는다. 미 대선 사례들이나 브렉시트는 대용량 데이터도 정확하게 측정되지 않으면 예측력에 도움이 안 된다는 사실을 일깨워준다. 위의 정치 케이스에서 빅데이터가 진정 데이터의 역할을 하기 위해서는 Shy voter들의 속내를 밝힐 수 있는 데이터여야 한다. 여기에 두 가지 아이디어가 있다.

Idea 1: 반복질문

군 입대를 위해 신검을 받던 날, 유사하게 반복되는 200개 남짓의 문항을 읽고 필자의 성향과 가장 유사한 답안지를 고르는 “인성검사”를 받은 적이 있다. (대한민국의 신체건강한 남성이라면 누구나 한번쯤은 경험해봤을 것이다.) 굉장히 도덕적인 답안만을 고르게 되어있지만, 20-30개 문항 뒤에 살짝 바꾼 단어 몇 개 때문에 약간씩 다른 답을 고를 수도 있는 질문들이 계속해서 반복되는데, 이렇게 테스트를 하는 이유가 유사한 질문에 “일치성(Consistency)”이 낮은 대답을 한 피실험자를 “관심병사”로 “찍기”위해서라고 알고 있다.

같은 방법으로 살짝살짝 다른 질문을 여러차례 눈에 띄지 않게 반복해서 유권자의 “진짜” 성향을 파악해 낼 수 있지 않을까?

Idea 2: 현시선호 (Revealed preference)

사과와 배를 놓고 사과를 골랐다면 이 사람은 사과를 배보다 더 좋아한다고 결론 내리는 방식이다. 예를 들면, “어느 후보를 지지하십니까?” 라고 질문을 하는게 아니라 (Question-based), 어느 후보의 팜플렛을 읽고 있는지 (Action-based)를 보고 그 유권자의 투표 성향을 예측하는 방식으로 이해하면 된다.

위의 두 아이디어를 결합해서 필자가 생각해볼 수 있는 빅데이터 모델 중 하나로 유권자 별로 선거기간 중에 읽은 신문 기사 리스트를 뽑아보면 어떨까? 아마 트럼프 대통령을 지지했던 유권자가 여론조사 전화가 걸려오면 “힐러리”라고 대답했거나 전화를 그냥 끊었어도, 정작 읽은 신문 기사는 트럼프 대통령의 유세활동에 관련된 기사 위주였을 것이다.

구글 트렌드 (Google Trend)에서 누구 이름이 더 많이 검색되었는지 데이터를 뽑아 선거 결과를 예측하는 시도도 같은 맥락에서 이해하면 되겠다.

 

 

“Big” Data -> “Rich” Data

2016년 11월 9일 아침에 MSNBC 뉴스를 보니 어떤 패널이 이렇게 이야기를 하더라. “It’s not the failure of data. It is only the failure of ‘Bad’ data.”

빅데이터 분석이 240만개의 오류 투성이 데이터로 선거 결과를 예측하고, 별 도움 안 되는 주가 예측에만 국한된다면 데이터 사이언스라고 할 수는 없을 것이다. 정말 데이터 사이언스를 하고 싶다면, “Bad” Data를 걸러낼 수 있는 통계적 지식과 데이터 베이스 관리하는 지식을 갖추는데서 출발해야한다. 데이터 사이언스에서 핵심 단어는 사이언스일지 몰라도 사이언스가 사이언스이기 위해서는 어찌됐건 “Clean” Data가 필수적이기 때문이다.

국내의 대형 IT회사들, 유망한 스타트업들이 몇 천만개의 디바이스를 추적하고 있고, 몇 백억개의 데이터 포인트를 보유하고 있다고 열심히 홍보를 하고 있는 경우를 본다. 그러나 대용량 데이터를 모아도 오류없이 깔끔하게 DB에 담아놓는 회사는 드물고, 각 디바이스 별 (혹은 유저별) 행동 패턴을 예측할 수 있는 근거로 쓸 수 있는 데이터를 DB화 해 놓은 회사는 더더욱 드물다. 이런 상황에 자기들이 갖고 있는 데이터로 돈 좀 벌어볼 수 있냐고 물어보는 회사 분들을 만나면 필자도 참 답답하다. “데이터가 있어야 뭘 해볼텐데요….”

데이터 용량만 크면 “Big” 데이터라고 주장하는 세상은 지났다. 실리콘밸리를 가면 용어 혼동을 피하기 위해서 (사실은 좀 멋있어보일려고) “Rich” 데이터라는 표현을 쓴다. 유저의 행동을 추적할 수 있는 데이터가 있다면, 그 행동을 바탕으로 광고도 보여주고, 상품도 추천해주고, 정치인 팜플렛도 보여주고, 검색 결과물도 합리적으로 맞춰서 제공할 수 있다. 구글 검색창을 열어서 평소 검색 쿠키가 잔뜩 남아있는 경우와 Ctrl + Shift + N 에서 새로 열린 Incognito mode (제로 쿠키 상태)에서 검색 결과물을 비교해보라.

평소에 자주 검색하던 단어라면 결과물이 완전히 다를 것이다. 이렇게 데이터를 활용하려면 같은 유저의 행동을 장기간 추적할 수 있어야 된다. 단순히 검색 기록만 100억개 갖고 있는 경우와, 100만명의 유저들이 1인당 1만개의 검색 기록을 갖고 있는 두 검색 엔진 중 어느쪽이 더 유저가 원하는 결과물을 찾아줄 가능성이 높을까?

넷플릭스에 나온 미국 정치 미드 중 필자가 자주보는 하우스 오브 카드s에서 한 Data Scientist가 나와서 전화번호 목록을 몇 백만개 뽑아주는 장면을 보고 너무너무 부러웠다. 나도 저런 데이터 있으면 뭐 좀 해볼텐데….

 

<윗 글은 필자가 타사에 재직 중에 쓴 글을 일부 수정한 내용입니다. 원본은 이곳에서 확인해주세요.>

You may also like...

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다