빅데이터 vs. 스몰데이터

언론사 기자 분이 취재 요청이 왔다. 요청 내용 중에 빅데이터 시대가 끝나고 스몰데이터 시대가 온다는 주장에 대한 코멘트를 해달라고 하시더라. 모르는건 모른다고 시원하게 지르고, 전화를 끊으면서 스몰데이터가 뭔지 구글링을 해 봤다. 이미 단순 대용량 데이터가 빅데이터가 아니라는 주장, 개인화 + 동적 데이터가 결합되어서 Multi-pattern을 추적할 수 있는 데이터일 때 “빅데이터”라는 Label을 붙일 수 있다는 주장을 했었던 만큼, 제대로 오지도 않았던 빅데이터 시대가 끝난다고 주장하는 건 또 무슨 소리일까, 이번엔 누가 스몰데이터라는 이름으로 대형 사기를 치고 있을까 궁금해졌다.

어느 백인 마케터 아저씨 한 분이 스몰데이터로 책을 냈는데, 레고가 망할뻔하다가 기사회생한 이유가, 레고 마니아 + 스케이트 보드 마니아인 소년이 가장 자랑하는 물건이 다 헤어진 신발이었다는 사실을 직접 미팅으로 알게 되었고, 덕분에 스케이트 보드 전문가가 되기 위해서 얼마나 노력을 많이 했는지 자랑할 수 있는 상징물을 찾아내는 관점으로 마케팅 전략을 변경했기 때문이라며 스몰데이터는 이런 데이터란다.

그 마케터 아저씨의 기준에 따르면, 빅데이터는 DB에 찍혀있고, 사무실에서 모니터 스크린으로만 보는 (별 쓸모없는) 데이터고, 스몰데이터는 직접 고객과 스킨쉽을 하면서 얻게되는 직감같은 (매우 중요한) 데이터일 것이다.

일단 빅데이터에 대한 정의를 제대로 모르니까, 반대 이름이라고 붙여놓은 스몰데이터에 대한 정의도 엉망으로 끼워넣어놨는데, 수학, 통계학은 커녕 IT의 기본도 모르는 전형적인 백인 마케터가 입으로 뭔가를 강조하려고 붙인 이름이라고 보면 된다. (이게 딱 경제학 하는 사람들이 사회학을 보는 관점이기도 하다.)

어그로성 Naming이 좀 불편하기는 하지만, 스몰데이터의 중요성을 주장하는 맥락들을 보면 왜 밖에 알려진 빅데이터라는 정의 (대용량, 빠른 속도…)가 잘못되었고, 필자가 정하는 정의 (Multi pattern, 개인화)가 좀 더 산업 연관도가 높은지 설명할 수 있을 것 같아 보인다.

 

1. Insight 가 풍부한 데이터

위의 레고 예제에서 다 헤어진 신발에 집착하는 어린 아이의 마음을 빅데이터에서는 찾을 수 없을 것이라고 하는게 스몰데이터의 논거일 것이다.

일단 여기서 2가지 포인트를 지적할 수 있는데, 1.정말 다 헤어진 신발에 집착하는 어린 아이의 마음을 DB에 기록된 데이터로 볼 수 없어서 직접 방문을 해야한다면, 그 방문 정보는 “데이터”인가? 그냥 인터뷰 정리자료 아닌가? 왜 “스몰”데이터라고 부르는거지?

2.빅데이터로 정말 그런 개인의 감정 정보를 찾는건 불가능할까? 빅데이터를 단순한 대용량 데이터, (단순 무식하게) 대형 Neural Net에 입력하면 뭔가 대단한 Insight가 툭 튀어나올 데이터라고만 생각했다면 불가능하게 보일 것이다.

근데, 그 어린아이가 다니는 (온라인) 쇼핑몰에서 모든 구매 데이터를 다 갖고 있으면 정말 그런 정보를 못 찾았을까? 스케이트 보드를 샀으면 신발을 교체하는 주기가 빨라질텐데, 안 빨라진 유저들 대부분은 스케이트 보드를 방치하는 사람들일 것이고, 그 소년처럼 스케이트 보드를 험하게 타고 있으면 유지 및 보수를 위한 여러 관리 제품을 사게 될 것이다. 그렇게 관리 제품을 계속 샀으면 분명히 신발을 교체해야할텐데, 왜 교체 안 하는걸까? 뭔가 이상하다고 판단할 수 있을만큼의 데이터가 쌓이지 않았을까?

물론 실생활에서는 구매하는 채널이 여러가지고, 소년의 부모님이 구매를 대신해주는 바람에 포괄적인 정보를 모으지 못할 수는 있다.

(같은 맥락으로 “스몰데이터”를 모으겠답시고 저런 방문 이벤트로 다 헤어진 신발을 애지중지하는 소년을 만날 수 있는 가능성은 얼마나 될까?)

요컨데, 데이터 베이스에 쌓여있는 빅데이터로는 못하는 작업이고, 실제 현장에서 고객의 소리를 들은 스몰데이터로는 얻을 수 있는 그런 정보는 아니라는 뜻이다. 굳이 따지자면 그런 Insight를 찾아내는 작업을 빅데이터로 훨씬 더 논리적으로 진행할 수 있다. 이전 글에 기업 강의 요청에서 겪는 답답한 점을 정리하면서 언급했던 온라인 쇼핑몰에서 빅데이터를 이용해 수요곡선을 정확하게 계산해낼 수 있는 예제가 딱 여기에 해당 될 수 있다.

본인이 실력이 없어서 빅데이터의 장점을 활용 못 해놓고, 모니터 속에서만  찾을 수 있는 데이터는 안 좋은 데이터라고 공격할 필요는 없지 않을까? 고객과의 만남 시간 잡고, 솔직한 이야기를 찾아 듣는게 얼마나 힘들고 돈이 많이 드는 일인지 겪어본 사업가라면 다 알꺼라고 생각한다.

 

2. 핵심적인 action을 찾아낼 수 있는 데이터

빅데이터가 쓸데없이 용량만 많고, 정작 중요한 정보는 거의 없다는 식의 폄하하는 발언도 봤었는데, 정말 그럴까?

빅데이터는 기본적으로 여러가지 행동 패턴 정보가 섞여있는 데이터 셋을 말한다. 스몰데이터가 어떤 데이터인지 모르겠지만, 정말 학교 교실에서나 만날 수 있는 그런 간단한 데이터라면, 그런 데이터를 다룰 수 있는 능력이 있어야 “빅”데이터도 다룰 수 있게 된다는 어느 통계 전문가의 이야기는 좋은 설명이라고 할 수 없다. 1개의 결과값에 이르는 K개의 다른 방식을 찾아내는 작업을 기존의 통계학에서 다루지 않기 때문이다.

통계학은 1개의 Action에 대한 설명에 초점이 맞춰져 있다. 그게 과거 데이터에서 R-squared 값을 구하는 작업이건, 미래에 대한 예측이건 상관없이.

빅데이터는 N개의 Action을 Chain으로 묶은 다음, 그 중 도달점이 같은 Chain들이 얼마나 자주 나타나는지를 쳐다보는 관점이다. 물론 데이터로 작업을 하고 있기 때문에 기본 통계학을 정확하게 알고 있어야하겠지만, 그와는 별개로 새로운 계산법을 새로운 철학으로 공부해야할 부분이 분명히 존재한다.

근데 빅데이터가 쓸모없다고 주장하려면, 그렇게 Chain으로 엮은 데이터가 아무런 쓸모가 없다는 결론이 났다고 주장해야지, 본인이 데이터 처리도 하지 않고 단순하게 아무 모델이나 넣어봤는데 잘 안 되더라는 이유를 들이대서는 안 되는거 아닐까? 애시당초 빅데이터의 정의를 제대로 알고 있었다면….

 

3. 기초 통계학이 중요하다는 데이터

위의 논리를 좀 더 확대해보자. 어느 블로그에서 만난 글인데, 미국내 대표적인 배달앱 면접 중에 그 회사 데이터를 받아서 이런저런 작업을 해 보는 경쟁을 붙었는데, 다른 면접자들은 별다른 생각없이 Random Forest 하나 돌려서 실패한 데이터 분석 작업에, 일부 지원자들은 Time Series decomposition을 해서 효과를 봤다는 이야기였다.

습관적으로 알고리즘을 대입하기만 하면 좋은 결과를 얻을 수 없다는 결론을 내면서 스몰데이터를 강조하던데, 필자의 관점으로는 스몰데이터를 이야기할게 아니라, 기초 통계학도 모르고, 데이터 전처리의 중요성도 모르고 Data Scientist 면접을 봤던 사람들을 놀리고 비웃고 무시하고 경멸해야되는 상황이 아닌가 싶다.

요즘이야 머신러닝 붐이 불어서 너도나도 (구시대적인 지식이라는) 통계학은 내팽겨치고 머신러닝 계산법(Random Forest도 그 중 하나)을 배우고 있지만, 필자처럼 통계학으로 첫 발을 뗀 사람 입장에서 Time Series decomposition은 꽤나 기초적인 영역에 속한다. 내 데이터가 Stationarity를 (최소한 Weakly Stationary를) 만족하는지 확인해보고, 그게 깨질 때 데이터를 필터링 해줘야한다는 건 시계열 수업 초반부에 만나는 지식이다. 필터링의 가장 기본이 Seasonal decomposition인데, 그걸 해볼 생각도 안 한 상태에서 바로 Random Forest를 쓸 생각을 했다는건 Data Scientist 자격이 없다고 봐야한다.

더 어이없는 사실은, Linear programming을 배우고 난 다음에 Non-linear programming을 배우는게 맞는 순서일텐데, Linear programming에서 좀 고급 지식에 해당하는 Time Series decomposition은 아예 모르는 상태에서 다음 레벨 지식인 Non-linear programming 중에서도 꽤나 높은 수준의 지식에 해당하는 Random Forest를 쓸 줄 안다(?)는 것이다. 머신러닝이라고 불리는 응용통계학 모델군은 모두 Non-linear programming 작업의 일환이라는 사실, 그런 작업에 적합한 데이터 그룹이 따로 정해져 있다는 사실, 그런 방법론을 이용하기 위해서는 통계학을 착실하게 다져야한다는 사실을 제대로 인지하지 못한채 80% 정확도, 90% 정확도, 95% 정확도 같은 숫자만 보는 아마추어이 회사 면접에 나타난다는 사실이 황당할 뿐이다.

사실 많은 (짝퉁) Data Scientist들, 특히 통계학 기초 실력 없이 그냥 Non-linear programming 모델들에 해당하는 머신러닝 테크닉 몇 개만 주워들은 수 많은 사람들이 위와 같은 문제점을 가진 채 일을 하고 있을 것이다. 글을 쓰던 중에 0~100 scale로 움직이는 종속변수(y)를 0~50으로 줄였더니 RMSE가 줄었다고 환호하는 대기업 Data Scientist의 질문도 받았다. y값 범위를 줄였으니 오차 크기도 당연히 줄어드는거 아닌가?? 그래도 지적해주니 바로 잘못을 인지하시는거보고 다행이라고 생각했었다. 경험상 그런걸 지적해줘도 모를 정도로 심각한 사람도 (대부분 “전산”직렬 사람들이다..) 국내 초일류 지식인 집단에서 Data Scientist 타이틀 달고 있는 경우가 널려있는 판국이니까….(Pabii 직원이었으면 그런 “아마추어” Data Scientist는 물론이고, 뽑은 부서장도 해고할꺼다.)

아마 제대로 훈련을 받은 Data Scientist에게는 “해보고 싶은게 너무 많아보이는” 데이터 셋을 들고 있는 많은 회사들이 “빅데이터 해봐야 소용없더라”는 이야기를 하는 가장 큰 이유는 그 회사에 재직 중인 Data Scientist들의 역량이 부족한 부분이 제일 클 것이다.

 

나가며 – 차라리 빅데이터를 제대로 정의하자

스몰데이터를 정의할 수 있는 여러가지 Context를 한번 정리해보자.

  • Insight 가득한 데이터,
  • 핵심적인 Action을 찾아낼 수 있다는 데이터,
  • 기초 통계학이 중요하다는 데이터

위에서 지적했듯이, 빅데이터에 대한 정의를 대용량에서 Multi-pattern을 담고 있는 개인 데이터의 집합으로 바꾸면 위의 맥락들은 모두 빅데이터에서 해결이 된다. 실제로 필자가 오랫동안 Pabii 블로그에서 주장해왔던 내용, 이런 데이터가 진짜 빅데이터라고 했던 그 내용이기 때문이다.

스몰데이터라는 새로운 컨셉이 나와서 그걸 또 배워야하는게 아니라, 기존의 빅데이터 활용한다는 Data Scientist들의 역량이 부족하기 때문에, 나아가 빅데이터라는 용어가 잘못 정의되어 있기 때문에 저런 비판이 나왔다고 생각된다. 데이터를 다루는데 통계학을 모른다는 것은 말이 안 되는 이야기인데도 불구하고 통계학은 구시대 기술이라고 폄하하면서 대충대충 배우는 사람들이 많지 않았다면 저런 이야기가 나올 이유가 없었을 것이다.

괜히 새로나온 컨셉이라고 쫄지말고, 지금처럼 통계학 공부만 착실하게 하시면 된다.

You may also like...

7 Responses

  1. 멘사보이 댓글:

    블로그애독자입니다! 글 재밌게 잘 읽었습니다!
    이젠 매주 포스팅이 기다려지네요~ㅎㅎ
    매일 관련 분야 이론 위주의 공부만 하니, 서점에 진열되어 있는 업계 동향(?) 을 다루는 내용의 책들도 읽어보고 싶었습니다. 하지만 책의 매력과 가치를 제목과 저술가, 평가 언론사의 유명세로 밖에 판단할 수 없는 뭘 모르는 학생입장에서는(저에게만 해당되는 내용일 수도 있겠지만… ㅎㅎ), 책 표지에 Forbes니 Times니 하며 붙어있으니 빨리 잡아읽으며 세상의 속도(?)를 따라잡아야 할 것만 같은 느낌이 들게 하는 책들이 많아서 머리가 늘 아팠거든요ㅋㅋㅋ
    두 다리로 세상을 자유롭게 누비기 위해선 역설적으로 책상 앞에 앉아있는 시간이 많아야 겠다는 생각이 들게 하네요. 정보를 얻기 위해 책과 기사를 읽으려 하면 그걸 이해하기 위해 수많은 수식과 씨름해야 한다는 사실이 슬픕니다 ㅋㅋㅋ 언제쯤 이 무지의 굴레에서 벗어날 수 있을까요 ㅋㅋ
    포스팅 감사합니다~

    • Keith 댓글:

      학부 시절엔 The Economist가 정말 대단한 잡지라는 생각을 했었는데, 런던서 경제학 석사 받고 난 다음부터 그렇게 대단한 잡지라는 생각이 들질 않았고, 박사시절 저희들 휴게실에 놓여있던 The Economist를 비롯한 여러 “지식인용” 잡지들이 학부시절 우리나라 경제신문 보던 느낌으로 조잡(?)한 수준이라는 느낌을 받았습니다. 물론 여전히 구독 중이고, 가끔씩 좋은 글을 봅니다만, 배움이 조금씩 늘어날 때마다 “전문가”라고 불리는 사람들의 생각을 헤아리고 가늠할 수 있게되니 그렇게 대단한 잡지라는 생각이 들질 않네요. 머리 좀 컸다고 까부는 것 같습니다;;;;
      박사가겠다고 뱅킹 그만두고 1년쯤 지난 무렵, 제 보스들이 회사 다시 돌아오라고 술 사주면서 돈 없으니까 버겁지 않냐, 여자들 다 떨어져 나가지 않냐, 박사해봐야 별 거 없다는 둥의 악담(?)을 많이 하셨는데, 힘든 속에서도 묵묵하게 (사실은 좀 고집스럽게) 공부했더니 세상 보는 눈, 특히 “기술”이라고 불리는 (수학)지식을 보는 눈이 많이 달라진 것 같아서 내 인생 황금기를 Trade-off한 것치고는 그렇게 손해는 안 봤다고 생각하고 있습니다.
      멘사보이님의 건투를 빕니다.

  2. 바보학과 댓글:

    이책…저도 읽어봤습니다만…이젠 이런 책들을 보면 그냥 마케터가 마케팅 했다라고 생각합니다.
    모델링으로 패턴을 잡아내는 작업을 할 수 없으니 인지과학에서 적당한 주제를 가져와 과학적인 느낌을 첨가하려고 ‘빅데이터’ 만 가져다 붙인 전형적인 요즘 마케팅책이네요…심지어 그 인지과학 조차도 과학으로써 인정받기까지 머나먼 길이 남았는데도 말이죠.

    마케팅 책은 방법론을 제시하기보단 자기가 이만큼 잘났다를 보여주려고 내는 나르시즘 가득한 자기 PR용이니 저런 책은 솔직히 불쏘시게라고 생각합니다.

    • 전효범 댓글:

      사실 제 입장에서 더 큰 문제는 저런 책들이 대학교 강의시간에 등장하는데 있다고 생각합니다. 물론 저런걸 가지고 학기 내내 수업을 하진 않지만 저런 뜬구름잡는 소리나 하는 책을 좋다고 떠들어대는 교수나 보려고 학교나오나 생각해보면 솔직히 수치심을 불러일으키더군요..경영학과가 자기 경영에 실패한거죠..

      • Keith 댓글:

        경영학과 교수들 중 일부의 상태(?)를 제가 잘 알고 있기 때문에 무슨 말씀하시는지 충분히 공감합니다.
        고교시절 수능치고 경제학 vs. 경영학으로 백번쯤 전공 고민하던 시절 미시경제학과 마케팅원론 시험문제 보여주던 분께 윗 댓글과 비슷한 이야기를 듣고 제 갈길을 정했었습니다.
        우리나라 학부 교육이 앞으로 어떻게 흘러갈지는 모르겠지만, 경영학과 학부 과정이 근본적으로 변하지 않으면 법대 -> 로스쿨처럼 CPA치는 전공으로 전락할지도 모른다고 생각해요.
        CPA가 예전처럼 고시급으로 힘든 시험도 아니고, SKY 애들이 자격증으로 생각하고 회계법인은 가지도 않는 시대가 왔는데, 학부 전공이 CPA 사관학교가 되면 법대 운명이 될 수 밖에요.

  3. 김정운 댓글:

    스몰 데이터… 정말 위험한 사고방식이라고 생각합니다. 만약 소수의 다른 데이터를 얻었다면 저 마케터가 성공할 수 있을 지가 미지수입니다. 적절한 샘플을 얻는 것은 그런다 치더라도 그 데이터를 분석하는 과정이 합리적일 수 있는가가 의심스럽습니다.
    Keith님의 글을 읽으면서 제가 사회학을 선택했던 과정과 비슷했다는 느낌을 받았습니다. 통계를 다른 학자들보다 더 공부하신 일부 교수님(한 분은 심지어 통계학 석사출신…)을 보고 사회학이 수학을 적극적으로 사용한다고 착각에 그 결과로 사회학이 수학을 강조한다는 잘못된 결론낸 저를 본 거 같습니다. 오늘 조사분석 시험을 봤는데 많은 수학적 개념들이 사용되지 않았는데 주변에서 어려웠다고 합니다. 그 말을 듣고 Keith님이 왜 저를 냉소적으로 보셨는지 알 것 같습니다

댓글 남기기