데이터 사이언스 석사 – 필요한 기초 지식

아래는 New York University (NYU)의 Data Science 석사 프로그램에서 지원자에게 요구사항으로 제시해놓은 글을 바탕으로 했다.

GRE, TOEFL, SOP, 추천서 등등의 상식적인 서류들은 다 제쳐놓고, Educational Prerequisites 라는 부분만 살펴보자.

 

듣고와야하는 과목 (Educational Prerequisites)

학부 전공을 보면 통계학, 컴퓨터 과학 (컴퓨터 공학 아니고), 수학, 공학, 경제학, 경영학, 생물학, 물리학, 심리학 등이다. 학점이 좋아야 한다는 말을 빼놓고 나면, 학부 전공에 관계없이 높은 수준의 수학적인 훈련 (specific and substantial knowledge of certain mathematical competencies)기본적프로그래밍 지식을 요구 (some training in programming and basic computer science)하는 걸 볼 수 있다. 한국에서 공학 (특히 컴공) 전공자들이 Data Science에 적합한 교육을 받았다고 생각하거나, 심지어는 개발자가 Data Science에 적합하다고 착각하는 것과 엄청나게 다르다는 걸 바로 눈으로 확인할 수 있다.

필자가 영미권에서 겪었던 Admission 을 떠올려볼 때, 일단 수학 훈련이 거의 안 되었을 보통의 개발자들이 저런 석사 프로그램에 지원하면 애시당초 Resume Screening 작업에서 탈락할 것이다. 공대에서 수학을 깊게 공부하는 전공들, 특히 통계학 지식을 많이 활용하는 컴퓨터 과학이나 산업공학 정도가 요구조건을 충족하고, 나머지 공학 전공들은 본인이 학부 과정을 어떻게 밟았느냐가 굉장히 중요해보인다.

구체적으로 명시한 조건들을 보면, 미분방정식, 선형대수학, 확률론 등에 대한 지식을 기본적으로 갖춘 상태에서, 약간의 프로그래밍 지식, Python과 R에 대한 깊이있는 경험을 제시해놨다. 혹자들은 오해할수도 있겠지만, 프로그래밍 지식Python/R을 이용한 “Serious Academic” 지식은 완전히 별개의 경험이다. R/Matlab/Mathematica를 이용한 “Serious Academic” 경험이 있는 필자는 (어린시절 GW-Basic, Q-Basic, Visual Basic 로 했던 걸 제외하면) 프로그래밍을 한번도 해본적이 없고, 할 줄 아는거라고는 Android Studio로 간단한 앱 만들기 밖에 없기 때문이다. (코딩이 중요한게 아니라, 수학이 중요하다는 Pabii 데이터 사이언스 수업 홍보글도 같은 맥락이다. “머신러닝이라는 것도 결국은 코딩이라고 생각하고~”라던 개발자들 우르르 떠오르네.)

위의 그림에서 가장 흥미있는 부분은 맨마지막에 있는 “Econometrics course with heavy mathematical content” 라는 문구다. 필자가 경제학부 시절 들은 계량경제학 수업이 딱 여기에 해당한다. 우리과에서 고시 안 치고 박사 유학가겠다던 친구들 사이에서 필수였던 수업이기도 하고. 이런 문구를 보면, 한국적인 관점에서 문과/이과 구분해서 공대 출신이면 더 잘할 수 있다고 착각할게 아니라, 학부 과정에서 수학을 통계학 모델링에 썼냐 안 썼냐로 데이터 사이언스 예비 전공을 했냐 안 했냐를 구분하는게 미국의 스탠다드라는게 느껴지는가? (필자가 블로그에서 줄곧 공대 출신보다 통계학 공부 열심히 한 경제학과 출신이 더 Data Science에 적합하다고 주장하는 근거이기도 하다. 물론 수학 안 듣고 졸업한 경영학과스러운 경제학과는 제외한다ㅋ)

 

계량경제학, 수리통계학, 계산통계학

경제학과에서 통계학을 배우다보면, 크게 2갈래의 방향이 나눠지는걸 보게된다. 첫번째는 “응용통계학”이라고해서, 다른 사회과학 학문에서 쓸법한 수준의 통계학 지식을 실용적으로 활용하는 부분이 강조된다. 간단한 예시는 선거 전 여론조사할 때 적정한 샘플 추정 및 여론조사의 결과 해석이라고 보면 된다. 두번째는 “수리통계학”이라고해서, 수학을 이용한 모델링을 하는 학문에서 두루두루 쓰이는 지식인데, 이게 바로 NYU DS에서 요구하는 “Econometrics (계량경제학) with heavy mathematical content”라고 생각하시면 되겠다. LSE에서 경제학 석사시절, 박사과정의 Econometrics까지 다 듣고, 그 위로 어떤 수업이 있는지 살펴보니 이해 불가능해 보이는 수학 증명들 몇 십개를 달달 외우지 않고는 기말고사를 칠 수가 없어 보이는 수업들만 있길래 좌절하고 포기했던 기억이 난다. (제대로 된 학문이면 주제에 상관없이 수학 못하면 많은 걸 포기해야한다…)

우리나라에서 공부 좀 잘한다는 학생들이 가는 대학으로 유명한 K대와 Y대에는 문과 전공 중에 통계학과가 있다. 필자가 다녔던 S대를 비롯한 많은 대학들이 통계학을 이과, 특히 수학과 옆에 배치해놓는데 비해, K대와 Y대는 경제학 전공, 심하게는 경영학 전공의 연장 선상에서 통계학에 접근하는 것 같은 학과 체계와 수업 커리큘럼을 갖고 있다보니, 가끔 이런 질문을 받는다.

“인공지능이라는거, 통계학만 잘하면 된다면서요? 그러면 K대나 Y대 (응용)통계학과 가면 되겠네요?”

꼭 틀린 말은 아닌데, 굳이 정답을 말해라면 이렇게 답하고 싶다. 데이터 사이언스는 응용통계학 Line이 아니라, 수리통계학 지식을 기반으로 한 계산통계학이라고. (여담으로 K대쪽 통계학이 좀 더 수리통계학을 강조하는걸로 알고 있지만, Y대에도 엄연히 수리통계 I, II가 학부 과정에 있다.)

도대체 뭐가 다른지 이해가 잘 안 된다고? 계산 통계학이라는거 그냥 평균, 분산 같은 주제를 빨리 계산하는 “응용”통계학 같은거 아니냐고?

 

계산통계학 (Computational Statistics)이란?

10^n 개의 가능한 Path를 이용해서 내일의 주가 수익률이 10% 이상일 확률을 시뮬레이션 하는 문제를 푼다고 생각해보자. 대략 10억개 정도의 가능한 Path를 정규분포 기반의 Markovian process로 생성한 다음, 아주 작은 확률로 대폭락이 있는 경우를 포아송 분포를 이용해 모델에 추가해서, 정규분포 + 포아송 분포 두 가지 Source에 기반한 Path들 중 주가가 10% 이상 뛴 경우의 수를 잡아내고, 그 주식을 밑바탕에 깔고 있는 파생상품의 가격을 계산하는 교과서적인 기본 문제에서 쉽게 볼 수 있는 사례다.

이 계산의 포인트는 10^n개의 데이터 포인트 묶음 (가능한 path 1개는 최소 몇 백만개의 작은 랜덤 데이터들의 결합으로 만들어진다) 때문에 발생하는 Computational cost다. 어떻게든 빨리 계산해서 결과값을 찾고 싶은데, 거기다 예상하는 기간이 1일이 아니라 1주일, 1달, 1년 등등으로 늘어나서, 혹은 고려해야하는 요소들이 추가되는 탓에 가능한 Path가 더 복잡해지면, 시뮬레이션 데이터를 더더욱 많이 생성해내야 한다.

이런 계산을 좀 빨리해보려고 10^n개의 데이터를 2^n개 형태로 재배열하고 (직관적으로 설명하면, 2^3 = 8이니까 10-8 정도의 약간의 손실이 발생하기는 한다), 10진법이 아니라 2진법으로 이 계산을 바꿔서 접근하면 계산에 필요한 시간을 상당히 줄일 수 있다. Fast Fourier Transform (FFT) 계산법이라고 한다. 물론 정확도에는 손실이 있고, 이런 상충관계에서 시간 vs. 정확도의 타협점을 찾기위해 샘플 데이터로 여러차례 계산하는 과정이 뒤따른다. (FFT말고도 비슷하게 시간을 줄여주는 계산법들로만 두꺼운 교과서 몇 권 만들 수 있다)

당연하겠지만 위의 교과서 같은 예제로 일을 하는건 아니고, 증권사에서 파생상품 가격 계산을 위해 돌아가는 모델은 수학적으로 굉장히 복잡한 형태를 갖추고 있다. FFT가 효율적인 계산법이라는걸 배웠다면 단지 계산을 좀 더 빨리 해줄 수 있을 뿐, 정작 Stochastic calculus에 기반한 수학 모델링은 또 다른 차원의 문제다.

딱 위의 내용을 금융공학 석사 2학년 학생들에게 가르쳤고, 학생들이 기말 프로젝트를 위해서 FFT를 다양하게 응용하는 걸 봤던 기억이 난다.

그 FFT는 계산통계학과의 여러가지 “계산법” 중 하나에 불과하다. 계산통계학의 궁극적인 목표는 시간 vs. 정확도의 적절한 타협점을 찾고, 시간적으로 좀 더 빠른 계산을 위한 수학적인 개선법을 찾아가는 과정이기 때문이다.

왠지 Machine Learning이랑 비슷한 이야기하는거 같지 않나?

질문1. 위에 나온 FFT를 더 배우고 싶다는 말을 들으면 어떤 생각이 드는가?

그냥 여러가지 계산법 중 하나인데, 아예 FFT라는 계산법을 수학적으로 엄청나게 깊게 파겠다는 이론적인 연구가 아니라면, 굳이 “더” 배워야할 필요는 없다. 왜? FFT는 계산통계학의 수많은 계산법 중 하나에 불과하니까. 그런 수업에서 배운 10개 남짓한 계산법 중 하나에 불과하고, 교과서 밖에는 수없이 많은 계산법들이 있으니까. 특별히 그 계산법을 깊게 판다고해서 Dramatic하게 바뀔 구석도 별로 없으니까.

질문2. 그렇다면 Deep Learning을 더 배우고 싶다는 표현은 어떻게 생각되나?

이런 계산법들은 “더” 배워야할 주제가 아니라, 그냥 여러개의 계산법을 배운 다음에 내가 쓰는 데이터사용 목적에 맞게 골라쓰는 도구에 불과하다.

(한국에서 요즘 Deep Learning이라는 주제를 소화하는 분위기가 계산 구조를 이해하고 응용하는 방식이 아니라, 딥러닝에 대한 맹목적인 광신과 데이터 입력해서 나오는 결과값의 Matching rate만 보는 상황이니 퐝당할 뿐이다. “딥러닝을 배우고 있는데요” 라는 표현을 들으면 필자 같은 사람이 얼마나 무시할지어떻게 반응할지 대충 짐작이 되시는가?)

 

NYU Data Science 프로그램의 교수진들

위의 섹션 제목에 걸린 링크를 따라 들어가면 NYU Data Science 프로그램의 교수진들을 볼 수 있다. 그리고 25명의 주요 교수진들의 전공을 보면 컴퓨터 공학(Computer Engineering) 타이틀이 달린 분이 1명이다. 1명 Yann Lecun (그것도 박사가 아니라 학부 때만 전공했더라)

나머지 교수진 전원은 Computational stat을 활용하는 연구자들이 했을법한 전공 출신들이다. (Statistics, Applied Math, Computer Science, Neural Science, Physics 같은 전공들) 필자가 Financial Math하면서 수학쪽 대형 학회인 SIAM에서 발표했던 적 (링크의 Keith Lee )이 있는데, 그 때 흔히 봤던 전공 사람들이고, 나중에 실리콘밸리에서 Data Scientist 면접보겠다고 찾아다닐 때 경쟁자(?)로 or 면접관으로 볼 수 있었던 사람들 전공이기도 하다.

 

머신러닝 vs. 계산통계학

통계학, 특히 수리통계학을 하던 사람 입장에서보면 머신러닝은 Non-linear approximation을 하는 다양한 방법들을 수학으로 해결하기보다 계산으로 해결하는 지식이다. 처음 머신러닝이라는 단어를 들었을 때가 MIT에서 머신러닝을 이용해 사람이 내일 어디에 있을지를 95%의 정확도로 예측할 수 있다고 주장하는 PT에서 였는데, PT 내내 그 때까지 필자가 연구에 썼던 계산통계학 방법론을 그대로 쓰고 있다는 느낌을 받았다.

NYU의 Educational requirements에 나오는 내용을 봐도, Machine Learning, Computational Statistics, Data Mining 같은, 경험자의 눈에 사실상 같은 지식, 다른 이름인 내용들이 나열되어 있다. 그 뒤에 따라나오는 Large-scale computing은 필자가 연구실에서 매일같이 하던 작업이고, Operations research 하던 친구들이 다루던 데이터도 어마어마한 대용량(+Pattern)이었었던 기억이 난다. 한 예로, 2개의 다른 Risk source에서 나온 결과값을 3차원 그래프로 그려서 Copula를 만들고 있던 중이었는데, 같은 연구실에서 Operations research하던 중국인 박사 과정 친구가 Alibaba의 구매 데이터로 비슷한거 그리고 있다면서 경험담을 공유했던 기억이 있다.

 

나가며 – Not 공학 But 수학

경제학을 공부하다보면, 수학 모델링을 잘하는 사람들 (미시경제학 Line)과 통계학 모델링을 잘하는 사람들 (계량경제학 Line)로 교수 사회가 구분이 되는 걸 볼 수 있다.  (거의 대부분의 Quantitative 전공들 사정이 비슷할 것이다.) 물론 둘 다 잘하면서 자기가 좋아하는 주제를 잡는 천재들이 많긴 하지만, 재능이 부족한 필자는 좀 만만(?)해 보이는 금융시장 문제 하나를 잡고 통계학 모델링으로 그 문제를 풀려다가 시뮬레이션이라는, 수(리통계)학을 쓰는 사람들이 절대로 손을 대지 말아야하는 금기를 범했다. (수학적으로 Elegant하지 않으면, 시뮬레이션 같은 “꼼수”를 쓰면 논문이 Publish되기 힘든 전공이니까…)

시뮬레이션에 손을 대면서 만났던 계산통계학 때문에 연구 주제의 방향과 연구용 지식 도구가 경제학 중심의 학계에서는 받아들여지기 어려운 방향으로 흘러갔고, 뜻하지 않게 Financial Mathematics를 공부하게 됐다. 당시엔 뭔가 잘못된 방향으로 인생이 꼬인 것 같은 생각도 들고, 항상 마음 속 깊은 곳에 찜찜함이 남아있었는데, 요즘 Machine Learning에 대한 열광을 보는 눈이 달라지게 된 점을 생각하면 한편으로는 전화위복이 아닌가 싶다.

우리나라야 아직까지 머신러닝이 계산통계학과 같은 지식이라는 사실을 인지 못해서 정부 프로젝트가 여전히 (수학아니라 계산 중심인) 공대 출신들에게 가고 있기는 하지만, 의사 결정권자들이 바보도 아니고, 근시일내에 미국에서 그런 것처럼 공학대신 수학 지식, 통계학 훈련을 탄탄하게 받은 사람들이 Data Science 분야를 이끌고 갈 수 있는 길이 열릴 것이라고 생각한다. Pabii에서 이야기하는 대로 통계학 기반으로 공부했다가 지금처럼 공대 출신만 Data Scientist로 뽑고 있으면 취직 못하는거 아니에요? 라는 질문 하시는 분들이 가끔 있던데, 한국 시장이 느리고 멍청하다는 생각을 많이 하지만, 그래도 전 세계를 기준으로 하면 꽤나 빨리 변하는 축에 속한다. 당장 홍보없이 돌아가는 이런 블로그 1달 평균 방문자가 1년 반 사이에 0명에서 2만명으로 뛴 걸 보시라… 통계학 중심으로한 Data Science 저변이 빠르게 넓어지고 있다는 증거가 아닐까?

처음에 강의 시작했을 때만해도 필자더러 “저 사람 뭐하는 사람이냐?”는 황당하다는 반응과 “인공지능 쓰는 코드만 주시면 됩니다”고 하던 사람들을 엄청나게 만났는데, 1년이 좀 넘은 이 시점에 벌써 수학이 중요하다는 사실을 인지했다는 다양한 종류의 Feedback을 여러 경로로 받고 있다. 이런식의 지식 선도 산업에서 미국이 틀리고 한국이 맞았던 적이 단 한 차례도 없었기 때문에(ㅠㅠ), 한국이 언제나 Follower였기 때문에(ㅠㅠㅠㅠ), 근시일내로 인력에 대한 요구 조건이 빠르게 바뀔 것이라고 생각한다. (이미 많이 바뀌기도 했고.)

아직도 Data Science 공부를 하고 싶은 분, 석사 과정에 진학하고 싶으신 분들은 위의 Data Science 석사 입학 조건에서 보신것처럼 수(리통계)학 공부에 열정을 쏟으실 것을 추천한다.

 

데이터 사이언스 석사 시리즈

데이터 사이언스 석사 – 이렇게 돌아간다

데이터 사이언스 석사 – 이렇게 준비하자

데이터 사이언스 석사 – 필요한 기초지식

You may also like...

40 Responses

  1. dvg 댓글:

    안녕하세요. 블로그 반년전부터 잘 보고 있습니다. 저는 경영학과 학부생인데요. 우연히 데이터를 다루는 일에 관심이 생겨서 이것저것 찾아보고, 항상 말씀하시는 ‘코드 복붙하기’만 열심히 연습하다가, 데이터 사이언스라는 학문에 깊게 매료되었고, 제가 실력있고 가치있는 데이터 사이언티스트가 되는 데에 있어 수학이 무엇보다 중요함을 깨닫고 모든 일을 내려놓고 선형대수와 미적분 공부부터 시작하게 되었습니다(대학원 진학 목표중입니다). 모든 일이 기초공사가 중요한 것처럼 수학-통계학 공부가 제 미래의 밑거름이 될 거라 생각하고 열심히 하고 있습니다! 올바른 길을 보여주셔서 감사합니다. 가끔 공부하다가 지칠 때 블로그 들어와서 신랄하게 까시는(?) 사람들처럼 난 되면 안되겠다 라는 동기부여를 많이 받고갑니다. 기회가 되면 꼭 수업도 듣고 나중에 성공해서 찾아뵙고 싶습니다. 항상 감사합니다.

  2. 김원호 댓글:

    구독하고 있는 모든 매체들 중에 여기 글을 제일 기다리는 애독자입니다.

    두달전에 전역하자마자 (강사님께서 비판하신 그런 종류의) 시중의 “데이터사이언스 ” 수업을 들어보고
    뭔가 부족하다 싶어 구글을 헤매던 중 우연찮게 들어왔는데 정주행한지 벌써 한달이 돼 가네요.
    경영학과에 회의를 느끼고 도피하듯 입대를 했던거라 이제 3학년 복학을 앞두고 고민이 많았는데 덕분에 마음 잡고 늦게나마 수학공부를 다시 시작하게 됐습니다 ㅎㅎ

    항상 감사합니다 앞으로도 많은 글 기대할게요!

    • Keith 댓글:

      관심갖고 읽어주셔서 감사합니다만, “강사”라는 표현은 좀 안 해주셨으면 좋겠습니다. 공부 길게했고, 엄연히 투자금 받아서 DSP 서비스하는 스타트업 굴리는 입장인지라, 박사님, 대표님, 사장님 등등의 호칭을 본의 아니게 듣게 됩니다. 그런 호칭들이 뭔가 좀 어색함이 있긴 한데, 그래도 비지니스니까… 라고 넘어가긴 해요. 근데, 그 중에서도 “강사”라는 표현은 정말 반응해주기 싫습니다. 박사 과정 동료 중에 교수나 연구원으로 간 친구들을 그닥 대단하게 평가하지 않는 입장에서, 그들보다 사회적 지위가 몇 단계는 낮은 학원 강사같은 느낌이 드는 호칭은 정말….. 밥맛 떨어지네요. 뭐, 호칭으로 사회적 지위가 결정된다고 생각하는 꼰대도 아니고, 그깟게 뭐 대수냐고 생각은 합니다만, 저도 한국 사람이라 그런지 그냥 듣기가 좀 그렇습니다. 시장이 너무 엉망으로 돌아가고 있는게 어이가 없어서, 좀 배웠다는 사람의 사회적 책임감에 강의를 시작했는데, 다른 스트레스는 다 제쳐두고라도 잘 모르는 개발자들이 절 무시하는 맥락 속에 담긴 그 “강사”라는 밥맛 떨어지는 호칭을 듣기 싫어서 강의를 그만두고 싶습니다. 제가 “강사” 소리 들을 일반인 수준의 지식을 가르친다고 생각하진 않는데, 최소 대학원 수준의 지식을 가르친다고 생각하는데, 계속 그런 호칭을 들어야 한다면 단지 그것만으로 강의를 그만두고 싶습니다. 차라리 이름을 불러주시는게 백배는 맘이 편해요.

  3. 김원호 댓글:

    충분히 이해하고 죄송합니다. 저는 단지 제 자신이 블로그로부터 배움을 얻고 있는 입장이고 강의를 하시니 이름으로 부르는 것보다는 예의를 담아 ‘강사님’이라는 호칭을 썼던 것인데 생각이 짧았습니다. 제 본의 아닌 표현의 실수로 불편하셨다면 다시한번 사과드립니다.

  4. rayel 댓글:

    안녕하세요 글 잘 읽었습니다.
    저는 공대생이고 코드 위주로 인공지능을 접했습니다. Keith님 말씀에 감명을 받았고 수리통계쪽을 공부해보려고 하는데 어떻게 시작해야될지 약간 감이 안옵니다. 독학으로 한권씩 보고 싶은데 혹시 책 추천을 부탁드려도될까요?

    • ming 댓글:

      제가 달아도 될지 모르겠지만… 가장 많이 보는 것은 hogg 수리통계학을 같고요. 이건 9판까지 나왔네요. 수리적인 내용이 보다 많이 들어가고 정리를 엄밀하게 증명하는 책은 서울대학교 김우철 교수님이 쓰신 수리통계학 책이 있습니다. 저는 고려대에서 송성주, 전명식 교수님 책으로 강의를 들었는데 이 책도 학부 수준에서 수리통계를 시작할 때 괜찮습니다.

  5. jj 댓글:

    실례가 안된다면 교수나 연구원이 된 동료들을 높게 평가하지 않는 이유를 물어봐도 괜찮을까요?

  6. 머스마 댓글:

    근데 사실상 지식 선도 산업에서 미국 빼고는 다 팔로우 아닌가요?ㅜㅜ

  7. 바보학과 댓글:

    슈퍼천재였던 뉴턴도 거인의 어깨쯤에 있었는데..최소한 무릎위까진 올라가야 학문을 이용해 뭔가 할 수 있지 않나 싶습니다..거인이 그세 또 너무 커서 문제……지만요…ㅠㅠ

  8. Traveler 댓글:

    재밌는 이야기 하나 해드릴까요? 얼마전 I 사(랩탑에 스티커 붙은 그 회사 말입죠)와 technical deep dive meeting을 했는데 3D object recogniton 알고리즘에 대한 설명을 굉장히 혁신적인 것 처럼 하더군요. 근데 제가 그걸 보고 웃었습니다. 나중에 회의 끝나고 그쪽 담당자가 물어보더군요. 왜 웃었냐구요.
    그래서 사실 제 박사 동기가 15년전에 그쪽 연구를 했는데 쓰는 알고리즘이 똑같아서 웃었다고 했습니다. 머신 러닝이나 딥러닝 알고리즘이 매우 혁신적인 신기술인것처럼 이야기하지만 사실 기본이 되는 텍스트북들은 60년대나 70년대에 쓰인 책들이 많고 많은 이론들은 뉴턴 시대 이전부터 증명된것들이 많죠.
    Keith 님이 계속 블로그에서 이야기 하시지만 기본은 정해져 있는겁니다. 어떤 데이타를 다루던 필드에서 일해보시면 더 느끼실거구요.
    Keith 님 같은 분이 저희 필드에 계셔서 정말 감사드립니다. 저를 비롯 많은 동종업자들이 이렇게 강의를 하고 블로그를 만드는 수고를 하며 구구절절 데이타 사이언스가 무엇인지 설명을 안할려고 하죠.
    늘 드리는 말씀이지만 정말 수고가 많으십니다.

    • Keith 댓글:

      블로그도 강의도 회사 홍보의 일환이어서요 ;;; 딱히 선량한 의도만 갖고 하는건 아닙니다ㅎㅎ
      그나저나 댓글 내용들이 제 블로그 글 100개보다 훨씬 더 강하게 제가 전달하고픈 메세지를 전달하는 것 같아서 너무너무 감사합니다.

  9. Pablo 댓글:

    본 블로그를 보며 데이터 사이언스에 대한 정보를 쌓고 있는 학부생입니다.
    전공이 경영학과이고, OR 이나 Mis 쪽에 관심이 있어 그쪽으로 공부하고 있는데 (관련 수학은 미적과 선대까지는 들었습니다.) 이 분야 석사로 진출할 수 있을까요? 아니면 pabii님이 말씀하신 것 처럼 데이터 애널리스트가 적당할까요?

    • Keith 댓글:

      저는 회의적입니다만, 지원하는건 Pablo님 자유입니다.
      근데, Pabii는 제 이름이 아니라 회사 이름입니다

      • Pablo 댓글:

        아…네 죄송합니다.

        경영학과 중 그래도 이 분야가 수학을 조금이나마 많이 쓰는 분야라고 생각했는데…데이터 사이언스 공부하기에는 많이 부족한…가요…

        • Keith 댓글:

          문맹동네에 살지만 그래도 저는 천자문을 깨쳤는데요… 이 정도면 성균관에 입학할 수 있지 않을…까요…

          • Pablo 댓글:

            어쨌든 좋은 충고 감사드립니다. 아직 학부 1학년생이라 제가 아무것도 모르고 한 말이었나 봅니다.

          • 그냥 지나가다 댓글:

            ㅋㅋㅋㅋㅋㅋ 빵 터지고 갑니다
            제가 끼어들 자리는 아닌 것 같습니다만, 학부 1학년이 그것도 이 블로그에서 제일 무시당하는 전공 1번인 경영학과가 이렇게 바쁘신 분한테 저런 개념없는 질문을 했으면 사과를 해도 시원찮을 판국에 태도가 글러먹었네요.
            평소에 얼마나 어이없는 질문들 받고 있으실지 상상이 되고, 그런데도 이렇게 꾸준히 블로그 관리하시는거보면 자칭 성격 안 좋다 그러시는데 멘탈이 꽤나 대단한 분 같습니다

          • Keith 댓글:

            무지라는 보호막을 깨고나면 안에 있는 희망도 같이 깨지는게 항상 꺼림직합니다.

    • Evird Eos 댓글:

      학부 1학년이면 모르실수도 있다고 생각이 됩니다. 데이터 과학이 하고싶으시다면 통계학 쪽으로 이중전공이든 전과든 하시면 될거 같습니다. 밑에 다른분들이 조금 강하게 말씀하시는것도 공부하고 나시면 이해되리라고 생각됩니다. 너무 상처받지는 마세요.

  10. 통계학과 열혈수강생 댓글:

    현재 데이터 사이언스 강좌를 듣고 있는 통계학과 4학년 학부생입니다. 다음 주 수업 끝나고 석사과정에 대해서 질문해보려고 정리하고 있었는데 블로그에 작성해주신줄 모르고 생각없이 물어보려고 했네요. 열혈 복습중이라 블로그 확인을 못했습니다 ㅜㅜ. 글 감사합니다.
    제가 감사 댓글 남기려고 쭉 보고 있다 보니까 이런 글들이 정말 많네요.
    ‘통계학 어디서부터 공부해야 되요, 어떤학과인데 이거 공부하면 데이터 사이언티스트 될 수 있을까요? ‘ 사실 이런 질문들은 제가 중학생 과외하면서 거의 똑같은 질문은 받는거 같아서요. ‘ 이 책쓰면 하면 내신 잘나와요’, ‘자사고 갈려면 어떻게 해야해요’, ‘어떻게 하면 점수 많이 올릴 수 있나요’. 사실상 똑같은 맥락아닌가요? 대학생이고 성인되신 분들이 이런 질문을 올리시고 메일을 준다니(without second thought)… 사실 통계학과 게시판에만 가도 어떤 걸 배우는지 나오고 학부과목 설명에 어떤 교재를 쓰는지도 나와있는데…
    수리통계학, 회귀분석, Linear Programming 등 수학 과목을 머리 싸매고 학기중에 전전긍긍하며 씨름한 통계학을 전공하고 있는 학부생 나부랭이 조차 위와 같은 과목들을 가볍게 생각하고 있다는 느낌을 받았는데 이러한 질문들과 댓글들만 보시기만 해도 어떠실지 …

    다시한번 글 감사합니다. 다음주에 뵙겠습니다!

  11. back 댓글:

    안녕하세요. 1월 강의 수강생입니다.
    저희 학교에 대한 언급이 있어 댓글 남겨봅니다.
    사실 블로그에서 계속해서 말씀하시는 그런 촌극이 학교에서도 벌어지고 있는데요. 최근 학교 게시판의 가장 큰 이슈는 응용통계학과의 명칭 변경입니다. applied statistics에서 department of statistics & data science로 바뀌게 됩니다. 이 이름에 대해서도 말들이 많지만 진짜 촌극은 디지털 애널리틱스라는 신설 과정입니다. 다른 글 댓글로 어떤 분이 물어봤던 걸로 기억합니다. 누가봐도 미국의 data science master course 따라 만드는 전공이지만 이름이 disital analytics가 된 이유는 학교 내부의 정치 싸움 때문입니다. 조금이라도 찾아보신 분들은 알겠지만 교수진에 통계학과 교수님들이 한분도 없습니다. 세세한 내막은 모르겠지만 한 컴퓨터사이언스 교수님의 주도로 전공을 만들면서 응용통계학과를 의도적으로 배제했고 응용통계학과에서는 반발로 데이터 사이언스라는 이름을 못 쓰게 막았다는 말들이 많습니다.

    통계학과를 배제한 데이터 사이언스 과정이란 것이 가능할까요. 또 진지한 고찰과 커리큘럼 변경 없이 학과 이름 바꾸고 실무자 데려와 강의 몇개 연다고 될 일이 아니란걸 이제 저도 조금은 알겠습니다. 통계학을 복수전공하려는 학부생인데 학교에 대해 회의감이 듭니다.

    • Keith 댓글:

      이런 이야기 들을 때마다 차라리 내가 제대로 된 교육기관 하나 만들어 버릴까는 생각도 들어요
      지식 후진국 주제에 힘을 모아 발버둥을 쳐도 시원찮을 판국에 NYU 흉내내려다가 쌈박질에 밥그릇 싸움만 하고 있으니….

  12. Traveler 댓글:

    음 제 모교라 컴싸교수님이 누굴까 봤는데 저 컴싸 교수님은 데이터 사이언스랑 아무 상관도 없는 전공이십니다. DB하신 분이신데 왜…… 차라리 다른 전공 교수님이 하셨으면 납득이라도 할텐데…… 석사때 응용통계학과에 수업들으러 갔을때 거기 전공 교수님들이 “니네 서버 몇대나 있냐.” 그래서 “저희 연구실에 유닉스 서버 7대 정도 있는데요.” 그랬더니 “우린 과에 하나다.” 이러고 한숨을 푹 쉬시던게 생각나네요.
    학교에 제일 돈 많이 벌어주는 과가 경영학과라 할말이 많아도 아무 말씀 안하신다고 했던게 기억이 나는데 아직도 저 난리군요. 교수님들 정치싸움에 질려서 학교에는 절대 안 남으리라 했는데 선택을 잘한거 같네요.

  13. hazzys 댓글:

    대학에서 경제를 전공하고, 데이터 사이언스 수업을 들었습니다. 현재는 학원에서 데이터 강의를 듣고 있습니다. 학원은 아무래도 프로그램 활용 기법을 위주로 강의를 하고 있더라구요. 제가 원하는 앞으로의 진로는 데이터 통계, 관리 분야입니다. 근데 아무래도 안하던 프로그래밍은 어렵게 느껴지네요 ㅠㅠ 이글을 읽고 다시 한번 통계학의 중요성을 느낍니다. 저희 학교에 제가 정말 존경하는 교수님은 기초통계의 중요성을 억번 강조하십니다. 제가 방학에 학원에 간다고 했을 때 데이터 통계학 전공서를 절때 놓지 말라던 말씀이 기억이 나네요. 좋은 글 감사히 읽었습니다

  14. Game theory 댓글:

    본문과 관련이 없지만 학부생 주제에 질문이나 조언을 구합니다..

    저는 경제학 주전공에 수리 통계복수전공을 하고 있고 통계 대학원을 준비중입니다.

    수리통계와 수학과 과목은 무엇을 들을지 계획이 잡히는데 졸업을 하려면 경제학 전공을 이수를 해야하는 상황이라..

    학부때 경제학 전공을 하셨다고 읽어서 혹시 앞으로 데이터사이언스를 진로로 잡을때 그나마 연관있는 경제학 전공이 무엇이 있을지 궁금합니다..

    게임이론과 계량경제학은 꼭 수강할 예정입니다.. 그 이외에 미,거시 분야에서 추천하실만한 전공이 있으신지 궁금합니다..

  15. 경제학자 댓글:

    안녕하세요. 한국에서 경제학과 학부 마치고 석사 재학중인 학생입니다. 미시학 전공이었지만 대학원 수준의 수리통계학, 계량경제학 등을 이수해 통계적 방법론에 익숙하고, R과 python에 능숙해서 데이터 사이언스로 미국 석사 유학을 고민하고 있습니다. 데이터 사이언스 진로 관련해서 이 블로그를 보고 정말 많이 배웠습니다. 그런데 수학과 통계학을 잘해야 한다는 말씀에 정말 공감하는 한편, 제가 job market에 나갔을 즈음 쏟아져 나올 계량 경제학자들과 어떻게하면 차별화될 수 있을지에 대한 고민이 계속 듭니다. 혹시 데이터 사이언티스트와 계량 경제학자의 차별점이 무엇이라고 생각하시나요? 한국에서 경제학 석사를 마친 지금, 데이터 사이언티스트로서 롱런하기 위해서는 제가 어떤 점에 집중하면 좋으리라 생각하시는지 여쭤봐도 될까요? 귀한 시간 내주셔서 감사드립니다.

    • 지나가던 1인 댓글:

      데이터 사이언스는 계산통계학이라고 저렇게 길게 써 놓으셨는데.. 경제학 석사까지 했으면 수통이랑 계통이랑 차이는 아실텐데요

      • dfjgdf 댓글:

        내용 추가합니다. 계산통계학과 수리통계학의 차이를 여쭌 것이 아닙니다. 박사과정을 통해 경제학적 직관과 수리적 기초를 탄탄히 갖춘 계량 경제학자들이 계산통계학도 잘할 것 같은데, 데이터 사이언티스트가 계량 경제학자와 차별화되기 위해 갖춰야할 소양을 여쭌 것입니다. 실제로 지금도 연구에 머신러닝을 활용하는 계량 경제학자들이 존재하고요.

        • 지나가던 1인 댓글:

          오래전부터 부트스트래핑이나 인터폴레이션 같은 작업 하는 분들이 요즘 말하는 머신러닝 테크닉들 써 왔습니다. 계량경제학자라고 퉁치기엔 범위가 너무 넓어요. 경제학에서 데이터 사이언스 관련 주제들은 한정되어 있습니다. 요새 AdTech이 뜨니까 퀀트 마케팅 주제들로 경제학 논문 나오던데, 그 쪽으로 포커스하면 또 모를까요. 뭐 어쨌건 데이터 사이언티스트 되겠다고 경박하는 것도 웃기구요. 경박 재학중인 입장에서 학계 못 남을 때 옵션 정도로 생각하는데, 파비 대표님 백그라운드를 보니 제가 처음보는 수학이랑 계통 방법론을 엄청 많이 알고 있으시더라구요. 아시다시피 박사 전공이 아예 다르셨잖아요. 경박하고 실리콘 밸리 가 있는 분들 은근히 많고 phd 대접은 받는걸로 압니다만, 연구 주제도 잘 잡아야되고, 그거할려고 5-6년 시간 쓰는게 맞는지 잘 모르겠네요. DS 커리큘럼만 봐도 우리랑 다르게 CS 애들이나 볼법한 데이터 구조론 같은거 공부하던데, 여기 대표님 성격상 DS 커리큘럼 안 보고 이렇게 질문하시면 밝은 어조의 답변 안 하실듯 합니다. 암튼 경박이 거기 갈 수는 있는데 우리가 거기 갈려고 경박할려면 좀 방향을 달리 잡아야되요

          • Keith 댓글:

            연구 주제 잘 잡은 경제학 박사가 괜찮은 데이터 사이언티스트 후보인건 맞는데, 데이터 사이언티스트 할려고 경제학 박사하는건 말씀하신대로 잉여 공부가 너무 많은 것 같습니다

        • Keith 댓글:

          미국 석사는 취직용입니다. 데이터 사이언스 석사도 마찬가지구요. 배움의 수준은 다르겠지만, 쉽게 말하면 강남 IT 학원 같은 거에요

          경제학 석사하고 아카데믹 돌아가는거 알만한 분인것 같은데, 이런 수준의 정보는 직접 찾읍시다.

댓글 남기기