데이터 사이언티스트가 되는 길

데이터 사이언스에 대한 견해를 묻는다는 메일을 하나 받았다. 엉? 견해? 무슨 견해?

(중략) 최근에 데이터 사이언스에 대한 관심이 많아진 공대 학부생입니다. 제가 어떤 데이터를 추출하고 분석하여 새로운 유용한 가치를 주고 싶은데, 데이터 사이언스, 맞는 길이겠죠? 다만 한 사람이 그 과정을 전부 하기는 불가능하다고 합니다. 그래서 데이터 엔지니어, 분석가 (도메인 지식), 그리고 수학, 통계의 박사과정을 밟은 True 데이터 사이언티스트 중 한 가지 테크를 타라는데, True 데이터 사이언티스트는 도메인 지식을 쌓기 어렵나요?

즉, 데이터 사이언티스트가 엔지니어 분석가 둘 다 할 수는 없나요? 저는 선배님이 쓴 글에서 자동차 설계자가 되고 싶습니다. 카카오나 네이버 채용을 보면 데이터 처리의 전과정과 인사이트 도출까지의 역할을 하는 데이터 커리어 직군을 뽑던데, 이는 데이터 엔지니어인가요, 분석가인가요, 데이터 사이언티스트인가요?

또, 어떤 영국 마이크로 소프트 데이터 사이언티스트라고 하는 분의 페이스북 글을 보게 되었는데 상당히 현실적? 비관적? 이었습니다. 간단히 정리하면, 5년 후에는 데이터 사이언티스트의 입지가 좁아질 것이고, 사실 지금도 웬만한 데이터 분석 작업을 해당 분야 내부자가 교육을 조금 받으면 충분히 행할 수 있다고 합니다. 물론 그 분도 문과 학부 개발자 출신이지만 독학을 통해 데이터 사이언티스트가 되었다고 합니다.

데이터 과학, 진입장벽이 이렇게 낮은거 맞나요?

물론 선배님도 그런 교육을 하시고 있지만 제 커리어를 데이터 사이언스 쪽으로 잡고 석사까지 계획하고 있는 저로써는 상당히 불안합니다. 그 분의 페이스북 글들을 보고 저에게 조언을 보내주시면 감사하겠습니다.

데이터 사이언티스트가 되는 법

데이터 사이언티스트가 되는 법2

난 죽어도 데이터 사이언티스트 신입으로 들어가야겠다면

빅데이터에 대한 단상

 

 

분노의 답변

필자도 비슷한 논조의 글을 몇 번 쓴 적이 있다. 데이터 사이언스는 죽었다, 데이터 사이언스 민주화 등의 제목으로 이 시장이 결국은 대단한 스킬셋이 아니라 평범한 지식이 되는 수준이 5년 정도 안에 올 것 같다는 식으로.

그러면서도, Low skilled 포지션들은 자동화 작업으로 빠르게 대체되겠지만, 모델링을 해야하는 자리는 결국 교육받고 똑똑한 인간이 오랫동안 자리를 지킬 것이라는 글을 쓴 적도 있다.

아래의 답변은 그런 글들과 필자의 다른 블로그 글들을 종합한 내용이다.

 

Data Engineer는 DB 개발자, DB Architect라는 포지션으로 예전부터 그 직군에 종사하는 사람들이 많이 있었습니다. 단지 요새 머신러닝 패키지들이 좋은게 많이 나오는데, 그걸 플랫폼에 얹으려고 하다보니 이름이 약간 업그레이드 (?)된 거라고 봅니다.

Data Analyst는 예전부터 Business Intelligence라는 직군이 있었습니다. SQL로 DB에서 데이터 뽑은다음, 그래프 그리고, 자기들 나름대로 결론 도출하고 등등 나름대로 “Intelligence”를 데이터에서 뽑아내는 업무죠. 이 분들도 머신러닝이 뜨니까, 그리고 BI 툴들에 머신러닝 테크닉들이 포함되니까 그걸 응용해보려고 한다는걸 알고 있습니다.

그리고 위의 두 직군은 개발자 커리어와 경영학과 커리어로 구분되어야 한다고 봅니다. SQL이 들어가니 아직도 상당수 회사들이 저 자리를 “전산직”으로 뽑고 있던데, SQL 배우는데 일주일 하드코어 훈련이면 충분하고 (회사들이 그 교육마저도 시키기 싫으니까 아마도…), 그 다음부터는 도메인 지식으로 그래프를 설득력 있게 그리는 업무에요. 다만 위의 두 직군은 Data Science 업무가 아닙니다.

Data Scientist는 모델링하는 작업이에요. 완전히 기술적으로 다른 백그라운드가 필요한 직군입니다. 괜히 수리통계학으로 박사 과정 훈련을 받은 사람들한테만 열려있었던 직군이 아닙니다. 이런 직군도 위의 두 직군과 마찬가지로 예전부터 곳곳에 다른 이름으로 존재해왔습니다. 대표적으로 R&D 담당하는 기관에 가면 연구원이라는 이름의 직업이 있죠. 모든 산업이 다 빅데이터를 갖고 있는게 아니라, 아주 일부 산업만 빅데이터를 갖고 있는 시점에 특정 산업에 있는 연구원만 진정한 Data Scientist 업무를 할 수 있는 건 어찌보면 너무나 당연해 보입니다. 현재 IT 산업과 금융권 일부에만 빅데이터가 있습니다. 당연히 이런 산업에서만 빅데이터를 이용한 머신러닝 최적화 모델링이 제대로 돌아갈 것이고, 그러다보니 Data Scientist라는 이름으로 사람을 뽑는 경우가 제일 많은 동네가 실리콘 밸리가 되는 거겠죠.

아래 말씀주신 카카오나 네이버의 업무들은 전형적인 BI 작업인데, 이름만 데이터 사이언티스트로 달린 것 같습니다. 실리콘밸리가도 그런 경우 많아요. 이름만 그렇게해서 한 단계 높은 교육을 받은 인력을 싸게 쓸려고 하는 거죠. 저도 그런 경우를 겪어봤고, 시장에 넘쳐나는 인재들이 갈 곳이 없어 그런 곳이라도 가야한다는 사실을 알고 있습니다만, 어찌됐건 그건 Data Scientist가 아니라 BI 입니다.

제가 겪은 사람들만 놓고 보면, 박사 학위 없는 대부분의 Data Scientist들이 Data Engineer거나 혹은 Data Analyst였습니다. 당장 Reinforcement Learning 모델 만든다고 했을 때, Bellman Equation을 풀어야 모델에 쓸 식을 만들 수가 있는데, 이거 Value function 푸는 수학이고, 제가 박사 1학년 때 이런 수학을 거시 경제학 문제에 응용하는 공부를 한 적이 있습니다. 2학년 때는 Continuous time으로 파이낸스 문제 푸는데도 같은 테크닉을 그대로 썼네요. 기계항공 전공하는 후배를 보니 박사학위 내내 저랑 똑같이 생긴 식을 머리 싸매고 풀고, 안 되면 시뮬레이션 돌리고 있더군요. 물리학 박사하는 선배들도 그랬구요.

간단한 테크닉만 써서 데이터 가지고 단순한 작업하는건 있는 툴을 활용하면 되니까 진입장벽이 낮다고 생각합니다. 물론 그 정도도 못해서 나가떨어지는 실력없는 사람들이 수없이 많다는 걸 잘 알고 있구요. 그렇게 나가떨어지는 분들은 쫓겨나게 될 것이고, 남아 있는 사람들 대부분에게 지금 제가 강의에서 가르치고 있는 지식은 평균적인 지식이 될 거라고 봅니다. 시장의 수준이 올라가겠죠. 다만, 공부 안 했고, 깜냥없는 사람들이 자기 수준으로만 알고 있는 세계관으로 Data Science라는 직군의 진입 장벽이 낮다고 이야기하는건 그냥 얼굴에 조소를 머금게 할 뿐입니다.

 

좀 옛날 이야기

작년 이맘 때 쯤으로 기억한다. 전에 다니던 회사의 한국 세일즈 분 하나가 공부를 좀 더 해서 데이터 쪽으로 커리어를 전환하면 어떻겠냐고 물으시더라. 그 분이 저 위에 말한 데이터 사이언티스트가 되는 건 수학 공부에 들여야하는 시간을 봤을 때 좀 무리라고 생각했고, 결국 BI 관련 직군을 가셔야하는데, 그냥 SQL로 데이터 뽑아서 그래프 그리는 Back-office 자리만 차지하시기에는 세일즈를 너무 잘 하시는 분이라고 생각했다. 메일로 질문하셨던 분이 보내주신 링크에서 보이는 부정적인 논조가 딱 그 세일즈 분의 고민에 대한 답변과 일치하는 것 같은데, BI라는 직군이 할 일이 사실 고만고만한데, 굳이 잘나가는 세일즈 커리어를 갈아엎어야하는지 잘 모르겠더라.

예전에 대형 보험사 다니던 형이 자기네 회사에 수학, 통계학 학부 전공인 애들 뽑아서 SQL로 데이터 뽑고 그래프 그리는 일 시키는 자리 있는데, 거기 있던 애들이 3년정도 채우고 나면 어디 스타트업으로 “도망”가서 항상 힘들다고 그러셨던 기억이 난다. 그 “도망”가신 분들이 몸 값이 높아져서 연봉을 올려서 이직한 측면도 있겠지만, 똑똑한 애들한테 BI 업무라는 단조로운 일을 시켜놨으니 얼마나 지루하고 따분했을까 싶었다. 필자 역시도 직장 다니던 시절에 BI 업무할 때가 제일 재미없었다. 좀 격한 표현을 쓰면 “바보”들도 알아먹을 수 있도록 최대한 단순화한 “그래프”를 “예쁘게” 그려야하는 작업인데, 모델 만들고 아이디어 증명되는거에서 쾌감을 느끼는 필자 같은 사람에게는 말 그대로 직장에서 시키니까 돈 벌려고 하는 일들이었다.

실리콘 밸리에서 봤던 데이터 팀 사람들을 보면 학벌이나 실력이 모두 부족한데 심지어 세일즈에 적합한 외모와 말빨도 없는 사람들이 BI 시장에 진입하고, 똑똑한 애들이 다 도망가는 동안 장기간 그 자리에 있다가 짬밥으로 “팀장”같은 타이틀을 달고 있었는데, 요즘처럼 똑똑한 인재가 그 시장에 진입해서 물갈이가 되고 난 다음에, upgraded BI 직군은 어떻게 진화하게 될까?

 

나가며

요즘보면 BI 툴들이 경쟁적으로 머신러닝 알고리즘들을 “쉽게” 적용할 수 있도록 버젼 업되었다는 소식이 들려온다. 예전에 필자가 처음 머신러닝 수업 들을 때만해도 Neural net 하나 만들려고 코드를 직접 다 쳤던 걸 생각하면, MXNet, H20, TensorFlow 같은 간략화한 코딩용 패키지가 등장한 것도 모자라, Tableau, Qilk 같은 Data Visualization 툴들에도 그런 기능들이 들어가고 있는 마당이니, 얼마지나지 않아 그런 지식들은 정말 “평균”적인 지식이 되는 시절이 올 것이다. (엑셀로도 할 수 있냐는 요청을 받고 요즘 짜투리 시간을 써서 작업 중이다 ㅋㅋ)

간단한 회귀분석 식이나 상관관계 계산하는 공식보고 “Super complicated equation”이니 “Cool analysis”니 같은 소리하는 사람들이 퇴출될 때까지 한 5년 정도 걸릴 것이고, 그 동안 제대로 교육받은 인재들이 BI 시장에 진입하고 나면, 그 다음은 어떻게 될까? 메일로 질문 주신분의 링크에 걸려있는 글을 쓰신 분은 아마도 BI 업무를 하시는 분인 것 같다. 그리고 그 시장이 5년 정도 지나고나면 닫히거나, 혹은 평균적인 지식이 되어서 평균 연봉으로 돌아간다고 생각하시는 듯.

공감한다.

그렇다고 모델링을 전문으로하는 “True” Data Scientist 업무까지 “평균”이 되기는 좀 힘들 것 같다. 필자도 나름대로 수학 잘한다고 이름난 “놈”이었는데, Value function 이용해서 Bellman equation 푸는 문제들, 그거 조ㄹ라리 참 어렵더라.

You may also like...

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다