빅데이터 분석의 한계과 미래 (feat, Nate Silver)

데이터 사이언스, 빅데이터, Bad data, 분석의 실패

2012년 미국 대선에서 50개 주의 승패를 모두 맞춘 걸로 유명해진 Nate Silver가 FiveThirtyEight (이하 538)이라는 데이터 블로그를 2008년부터 운영하고 있다. 말이 블로그지 사실 왠만한 신문사 출신 기자들 다 모여있고, 글의 깊이도 상당하다. 글의 대부분은 상당한 내공이 담긴 데이터 분석, 통계 모델링이 들어가 있고, 가끔 보면 어디서 저런 데이터를 찾았을까 싶을 정도로 커버리지 영역도 넓다. 다루는 주제도 다양하다. 그리고 필자의 여가 시간 대부분을 뺏어가는 웹사이트이기도 하다.

538을 홍보하려는 글은 아니고, 538에서 Nate Silver가 아주 오래전에 쓴 글 중에 “What the Fox Knows”라는 글에서 필자가 배운 점이 많아서, Nate Silver의 글을 한국적인 맥락에서 다시 정리해볼까 한다.

 

데이터 블로깅을 시작한 이유 – 언론계의 데이터 이해도

언론계에 진입하는 신입사원들의 시험 점수를 보면 읽기, 쓰기에서는 높은 점수를 받았는데, 수학에서는 매우 낮은 점수를 받은 경우가 많(다고 한)다. 필자의 학창시절 경험을 봐도, 보통 언어와 수학에서 동시에 뛰어난 경우는 매우 드물고, 고시를 치는 경우가 아닌 이상 둘 모두에서 출중한 대부분의 친구들은 숫자를 다루는 쪽 커리어를 택하는 경우가 많았다. 연봉도 그 쪽이 더 높았다는 점도 무시 못하겠다. 좀 더 심하게 놀랄만한 예시를 들면, 경제학 공부하는 사람들 사이에서 수학+통계학적인 모델링으로 논문 못 쓰는 사람들을 “Sociologist”라고 “폄하”하는 분위기도 있다. 수학이라는 언어를 자유자재로 구사할 수 있는 곳은 또 다른 진입장벽을 갖춘, 그래서 아무나 못 들어오는 영역이라는 사고방식이 만연하고 있기 때문일 것이다.

이런 인력 풀의 쏠림 현상 때문에 저널에서 찾은 글 중에 제대로 된 데이터 분석이 들어간 경우는 매우매우 드물다. 필자의 모 외국계 뱅킹 초년병 시절 중에, 외부에서 온 미완성 기사에 필요한 숫자들을 찾아서 끼워 넣어주는 작업을 해준 적이 있었다. 무슨 숫자를 찾아줘야 되는지 문맥이 이해가 안 가는 경우도 있어서 한참 고생했던 이야기를 나중에 친구들과 공유한 적이 있었는데, 통계청과 한국은행 같은 국책기관에서는 그런 업무만 전담하는 부서도 있을 정도란다. 우리나라 언론사들이 그런 숫자를 찾는 작업을 얼마나 사소한 일로 치부하고 있는지, 최소한 데이터를 찾는다는 작업에 대한 전문성이 얼마나 결여 되어 있는지를 단적으로 보여주는 증거가 아닐까 싶다.

최근에 통계청에서 언론지 상의 통계 해석 오류와 왜곡을 바로잡기 위해서 통계 바로쓰기 공모전도 개최한 걸 보면 우리나라 곳곳에서 그런 문제에 대한 공통된 인식을 갖고 있다는 걸 느낄 수가 있다.

 

 

데이터 블로깅이란 – Quantitative vs. Qualitative

데이터로 블로깅을 한다는게 단순히 글 대신 숫자로 블로깅을 한다는 뜻이 아니다. 글에 그래프를 많이 넣겠다는 뜻도 아니다. 정확하게는 Quantitative한 분석을 글로 옮기겠다는 뜻이다.

여기서 먼저 짚고 넘어가고 싶은 부분은, 필자는 Quantitative(계량적) 분석이 무조건 옳다고 생각하지도 않고, Quantitative 분석을 안 하는 (혹은 못하는) 쪽이 실력이 부족하다고 생각하지도 않는다. 아래는 Nate Silver의 도식화다. 좌우는 계량적 vs. 질적 분석의 잣대고, 상하로는 엄격한&경험적 vs. 스토리 기반&일시적인 분석의 잣대다. 여기서 2사분면 (좌상)에 있는 분석이 반드시 맞는 것은 아니다. 때로는 4사분면(우하)에 있는 분석이 우리의 삶에 꼭 필요한 내용일 수도 있다. 거의 모든 사람이 횡단보도 신호를 안 지키고 있는데 새벽 3시에도 신호를 꼬박꼬박 지키는 사람을 찾았던 “냉장고가 간다”는 프로를 떠올려보라. (거의) 모든 사람이 신호를 안 지킨다는 팩트 기반의 지식에 단 하나의 반박 스토리로 그 프로그램은 대성공을 거뒀고, 우리의 일상 생활에서 질서의식도 근본적으로 바뀔 수 있었다.

문제는 질적 분석의 틀을 벗어나지 않고 있는 사람들에게 계량적인 분석을 제시했을 때 나타나는 거부반응이다. MoneyBall로 유명한 통계학 야구가 처음 시작됐을 때, 언론과 야구 관계자들 대다수가 야구를 숫자로 해석하겠다는 건 매우 바보같은 행동이라고 폭언을 쏟아부었다. 정말로 그럴까? 실제로 승리 기여도 (WAR, Wins Above Replacement)를 계산하는 식만 놓고 보면 한 타자가 1루까지 뛸 때 얼마나 열심히 달리는지, 투수가 타자, 주자와 얼마나 미묘한 신경전을 벌이는 지에 대한 정보 없이 단순히 수식에 맞춰서 계산만 하는 것 같다.

그러나 언제나 그렇듯이 모든 숫자는 서로 연결되어 있다. 1루까지 더 열심히 달리는 타자는 내야안타나 실책으로 출루할 가능성이 조금 더 높을 것이고, 덕분에 득점도 많이하고, 결국에는 팀 승리에 많이 기여하게 된다. (그리고 열정있는 플레이에 반해서 그 선수 등번호의 야구 셔츠가 한 장이라도 더 팔릴 것이다.) 투수의 타자, 주자 다루는 기술은 누상에 주자가 있을 때 피안타율이 얼마인지, 도루 허용률은 얼마나 높은지 등등의 숫자로 반영이 되고, 그 숫자들은 결국 그 투수의 방어율로 나타나게 된다. 그만큼 숫자는 무섭다.

(원 글에서는 아이스 하키 예시가 나오지만 한국인에게 친근한 야구로 예시 교체함)

Quantitative 분석이 필요한 가장 큰 이유는, 데이터가 없다는 핑계로 Qualitative 분석만으로 모든 문제를 풀려고하는 사람들이 많기 때문이다. 야구가 그랬고, 다른 스포츠도 아직 그런 곳이 있고, 사실 세상 만사가 다 그렇다. 단적인 예로, 경영진이 직원들을 해고하기 가장 좋을 때는 복잡한 숫자가 없을 때다. “당신네 팀이 매출액이 적으니까 팀을 해체하겠습니다.”라고 이야기 할 때, “우리 팀이 다른 팀의 업무에 큰 도움을 주었습니다”라고 반박하는 것과, 다른 팀 매출액이 실제로 우리 팀의 매출액에 잡힐 수 있는 Cross-channel 알고리즘이 있는 경우를 놓고 비교해보라.

 

데이터에는 이미 의도가 담겨 있다 – Data does not have a virgin birth –

그렇다고 데이터를 절대적으로 신뢰해야할까?

숫자는, 숫자만큼은 가치 중립적이라고 생각한다. 아니 그렇게 착각한다. 사실 데이터는 그 데이터를 만들고 정리하는 사람의 주관적인 의도에서 벗어나기 쉽지 않음에도 불구하고 말이다.

우리가 일상에서 만나는 데이터는, 특히 데이터 분석은 밑바닥에 깔려있는 모델이 무엇인지에 따라서 얼마든지 다른 결론과 연결될 수 있다. Nate Silver는 이런 데이터 분석 과정을 크게 4단계로 정리했는데, 아래의 도표에 나오는대로 데이터 수집 (Collection), 데이터 정리 (Organization), 데이터 설명 (Explanation), 일반화 (Generalization)가 그것이다.

 

위의 4단계 모두에서 데이터는 가치 편향적이 될 위험에 노출되어 있다.

  1. 데이터 수집 프로세스에서 이미 추출 오차 (Selection bias)가 발생한다. 마음에 들지 않는 데이터는 배제하고, 마음에 쏙 드는 데이터만 더 샘플 안에 집어넣으면 어떻게 될까?
  2. 정리할 때도 마찬가지다. 전달하고자하는 메세지에 따라서 1,2,3,4로 정리해야할수도, 혹은 2,1,4,3으로 정리해야할 수도 있다.
  3. 데이터 설명은 어떤 모델을 깔고 있느냐에 따라 완전히 다른 방식의 설명을 이끌어 낼 수 있다.
  4. 일반화는 무서운 작업이다. 10개중에 7개가 맞았다고해서 A는 B이다고 결론내면 C와 D의 사례들은 죽어버린다. 경우에 따라서는 C와 D가 훨씬 더 중요한 경우도 많다.

당장 미국에서 인종별로 살인 사건에 휘말리는 경우를 따져보자.

이 질문이 나오는 순간부터 흑인들은 반감을 가질 것이다. 그 조사가 흑인이 잠재적 범죄자라는 결론을 낼 것이라는 일반의 상식을 테스트하는 것으로 보이기 때문이다. 그런 우려를 갖고 있는 흑인에게 데이터를 모으라고 하면 어떻게 될까? 어쩌면 수집, 정리과정에서 흑인은 본인이 살인을 저지른 경우만 포함시키고, 다른 인종은 살인사건에 연루된 모든 사례를 포함하는 “의도적” 실수를 할 수도 있다. 그 데이터로 설명을 해야하는 시점에, 단순 총합 숫자를 보여주면서 흑인 인구 비율이 매우 낮은 곳을 집중하면 흑인이 잠재적 범죄자가 아니라고 주장하는데 매우 설득력있는 정보처럼 보일 수 있다.

만약에 이 조사의 원래 의도가 거주 지역과 살인 사건 비율간의 상관관계를 보는 중에 인종이 얼마나 영향을 미치는지 변수로 넣을지 말지를 결정하는 대형 조사의 일부였다면 어떤 결론이 나올까? 인종이 아무런 관련이 없는 것처럼 나올 것이다. 사실 우리 모두는 인종(정확하게는 출생 환경이겠지만)이 살인 사건과 높은 연관 관계가 있음을 잘 알고 있다. 우리의 상식과 반대되는 조사 결과가 나오면, 이 연구는 정치적인 가치만 갖는 어용 분석 밖에 안 된다.

 

“Bad” 데이터의 악영향 – Not a defeat of “Big” data, but a failure of “Bad” data

사실 관계를 꼼꼼하게 잘 파헤치는 것이 언론의 핵심적인 역할이라면, 데이터 수집, 정리 부분에서 언론이 큰 역할을 할 수 있다. 그러나 그 데이터가 가치 편향적이었다는 사실을 밝혀낼 수 있는 센스가 없는 사람이 여과없이 데이터를 대중에게 공개하면 어떻게 될까?

2016년 11월, 도널드 J. 트럼프 대통령이 당선되고 난 다음에 Nate Silver도 틀렸다는 기사가 떴다. 아마 그 무렵에 제대로 트럼프 대통령의 당선을 맞출 수 있는 알짜 데이터를 가진 사람은 없었거나, 있었더라도 극소수에 불과했을 것이다. Nate도 신이 아닌 이상, 그렇게 왜곡된 데이터를 갖고 합리적인 분석과 예측을 할 수는 없었을 것이라고 변명 아닌 변명을 했다.

데이터에 오류가 있으면, 사실 무슨 종류의 분석을 해도 결과값이 제대로 나올 수가 없다. (Garbage In, Garbage Out, GIGO라고 부른다.) 위의 카툰처럼 엉망인 데이터를 더하고, 빼고, 곱하고, 나누고, 아니 다른 더 어떤 복잡한 계산을 한다고해도, 왜 엉망인지 원인을 알아서 그 문제를 해결할 수 없다면 그 데이터는 Garbage가 된다.

필자가 만났던 분들 중에 일부는 머신러닝으로 빅데이터가 갖고 있는 오류를 해결할 수 있지 않냐고 하는데, 데이터 자체에 오류가 있고, 그 오류가 어떻게 나타났는지도 모르고, 정상적인 데이터 셋이 어떻게 될지 머신에게 가르쳐줄 수 없다면 머신러닝의 어떤 알고리즘을 갖고와도 해결책은 없다.

1930년대 미국 대선에서 240만명에게 받은 여론조사 결과가 2000명의 잘 뽑은 샘플에서 얻은 여론조사보다 예측력이 낮았다는 지난 글에서 말했듯이, 데이터의 크기는 “Bad” 데이터와 철저하게 분리된 문제이다. 빅데이터 시대가 왔다고 주장을 하는 이 시점에 우리가 다시 던져야하는 질문은 내가 가진 빅데이터가 혹시 빅 “Bad” 데이터가 아닌지에 대한 확신이다.

 

분석의 깊이 – Vividness vs. Scalability –

Nate Silver의 가장 큰 고민은 데이터 분석을 어려워하는 대중들에게 2사분면(계량적, 엄밀한, 경험적 분석)의 내용들을 어떻게 전달할 수 있을까라고 한다. (그래야 블로그를 많이 읽고, 자기도 유명해질테니까)

데이터의 크기에 관계없이 어떤 메세지를 전달할 때 필자가 갖고 있는 고민도 같다. 그리고 대부분의 경우, 필자의 해석은 잘 전달이 안 된다. 왜 필자는 실패할 수 밖에 없을까? (그리고 왜 Nate Silver는 성공했을까?)

Nate Silver는 분석의 명료성 (Vividness)과 확장성(Scalability) 사이의 적절한 타협점을 찾아야한단다.

데이터를 직접 보고, 모델을 만들고, 그 모델을 검증하는 사람이 분석의 완벽함을 찾기 위해 골몰하다보면, 타인에게 전달할 때 같은 이해도를 얻어내기 굉장히 어렵다. 우리가 데이터 분석이라고 이야기를 할 때, 필연적으로 그래프를 떠올리는 것도 같은 이유다.

Nate Silver가 저 글을 쓰던 2014년보다 지금은 훨씬 더 좋은 그래픽 툴들이 나와있다. 잘 쓰기만하면 얼마든지 쉽게 상대방에게 자신의 데이터 분석을 전달할 수 있(을지도 모른)다. 데이터 사이언티스트가 갖춰야할 5가지 스킬셋 중 4번째로 언급했던 것처럼, 데이터 시각화 툴에 대한 지식은 빅데이터를 보여줄 수 있는 필수지식이 되어버렸다.

예전엔 말/글 vs 숫자의 충돌을 막는 수단으로 그래프를 활용했지만, 빅데이터가 도입되면서 분석의 내공이 깊어졌고, 툴이 복잡해지면서 말/글 vs 숫자/그래프 의 프레임으로 흐름이 넘어가고 있다. 조만간 Data Scientist 중 누군가는 아래와 같은 작업을 하고 있을지 모르겠다.

 

빅데이터 시대에 주는 함의

뱅킹시절 M&A건을 들고 인수측이나 매각측 관계자들을 만나면 몇 십, 몇 백장의 분석 자료를 갖고가도 대화의 종류는 항상 같았다. “책은 이따보시고”로 시작되는 그 대화들. 어린 시절에는 며칠밤을 새서 자료를 만든 필자를 바보로 만든다는 생각에 답답한 감정도 있었지만, 인간이 어떤 의사 결정을 내리는 마지막 순간은 결국 “감”으로 결정된다는 걸 체득하고 난 다음부터는 그런 생각을 버렸다. 더더군다나 필자가 그 당시에 가져간 “분석”이라는 것이 겨우 그래프 몇 개 그리는 수준이었을 따름에야.

그 시절 필자의 가슴 깊숙한 곳에 있던 좌절감의 근원은 Quantitative 분석없이 “감”으로만 결정을 내리는 상황이 아니라, 더 깊은 분석을 할 수 없는 지식의 한계와 데이터의 한계였다고 보는 편이 옳을 것 같다.

그리고 세상이 참 많이 바뀌었다. 4차 산업혁명이라는 단어가 매일같이 언론지상을 오르내린다. 빅데이터와 머신러닝을 결합한 인공지능 상품이 세계 곳곳에서 소비자의 주머니를 향해 경쟁하고 있다. 데이터가 세상을 지배하는 시대가 올지도 모른다는 우스갯소리가 더 이상 농담처럼 들리지도 않는다. 빅데이터 분석 훈련이 잘 된 전문가들이 시장에 투입되면서 다음세대 초짜 뱅커들은 10년전 필자보다 훨씬 더 깊은 분석을 할 수 있지 않을까? “책은 이따보시고”가 구시대의 유물같은 대화가 되었으면 좋겠다.

 

You may also like...

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다