Category: 머신러닝

머신러닝의 통계학의 비선형 (Non-linear), 비변수 (Non-parametric) 모델을 패턴형 데이터에 맞게 활용하는 응용 통계학 방법론 중 하나를 말합니다

10

Data Scientist 면접 질문들

오랜만에 WorkingUS.com을 들어가봤다. 미국에서 일하는 한인들의 모임인데, 가끔은 Data Science 관련 분야에 대한 질문 & 답변도 올라오고, 한국 상황이 아니라 미국 상황에 맞는 답변이 많기 때문에 필요하신 분은 참고하시면 좋겠다. 링크의 어느 댓글을 보다가 필자기 2016년에 받았던 여러가지 질문들이 생각나서 한번 정리해본다. 참고로 링크를 보면 느끼게 되겠지만, 한국처럼 코딩을 얼마나 해 봤냐, C언어는 쓸 줄 아느냐, 알고리즘 한번 짜봐라 같은...

0

대답하고 싶은 질문들

메일 섹션을 홈페이지 하단에 넣고, 회사 전화번호를 등록했을때만해도 공부하다가 뭔가 잘 모르는 내용이 있는 사람들, 벽에 부딪혔는데 스스로의 힘으로 극복하기 좀 어려운 분들의 연락을 기대했었다. 수업을 하는 것도 같은 이유니까. 나도 공부할 때 힘들었는데, 누군가 조금만 더 도와줬으면 쉽게 극복했을텐데, 이제 쬐끔 더 알게되었으니 도와주겠다는 마음에서 넣어놓은 개인 연락 포인트건만, 거의 대부분의 연락은 포인트 못 잡는 비지니스 요청이나, 대학원가고 싶은데...

6

데이터 사이언스 공부를 위한 교과서 추천

요즘 데이터 사이언스를 독학으로 하고 있는데, 혹은 수업에서 들은 것보다 더 깊은 내용으로 도전해보고 싶은데 좋은 교재를 추천해줄 수 없냐는 요청을 많이 받는다. 불행히도 그런 질문을 하시는 분들 대부분이 수학 & 통계학을 필자 스타일로 공부하신 적이 없는 분들이다. 당장 데이터 사이언스 책을 추천하기 전에 수학과 통계학을 추천해야할 판국인 셈이다. 그 중에는 데이터 사이언스 공부를 하는 이유가 최소한 어떤 스토리가 돌아가고...

0

대학원 머신러닝 강의 레벨

얼마전, 증권사에서 퀀트 팀 주니어로 일하신다는 분의 메일을 받았다. 글로벌 자산배분 업무라는 허울 좋은 일을 시작했는데, 현실은 매일 뉴스 체크하면서 직관에 의존한 배분만… 시장의 많은 데이터 속에서 유의미한 Implication을 뽑아내는 능력을 기르는…. 이론적인 모델은 아니더라도 시장의 패턴을 이용해 (Portfolio를) 분산하는 모델을 여러가지 만들어내는… 메일을 읽자마자 10년쯤 전에 초짜 투자은행가로 첫 사회생활을 시작했던 무렵이 떠오르더라. 바로 위에 있던 형 하나랑 밤새...

5

커리어 쌓기 in Data Science

국내에서 데이터 사이언티스트로 성장하고 싶으면 어떤 커리어를 밟아야할까에 대한 질문을 많이 받는다. 개발자들이 Data Engineer쪽 커리어를 밟거나, BI들이 Data Analyst쪽 커리어로 나가는 건 이미 여러번 이야기를 했는데, 정작 Data Scientist로 성장하기 위해 한국에서 어떤 커리어를 밟아야할까에 대한 고민을 깊게 해 본적은 없었던 것 같다. Engineer나 Analyst는 학부 출신들이 전공만 맞다면 충분히 도전할 수 있는 영역이기 때문에 좀 더 쉽게 이야기할...

5

수학이라는 장벽 for 4차 산업

외부 강의 요청이 있거나, 장문의 상담 이메일을 받거나, 책을 쓰자는 연락을 받고 미팅을 하면, 가장 먼저 물어보는 내용이 “어느 정도 수준의 수학”을 알아야 머신러닝을 이해할 수 있느냐다. 몇 번 말이 오가고 나면 이 분들이 왜 필자를 잡고 있는지 금방 눈치채게 된다. 필자가 문과 출신이기 때문이다. “수학”, “통계학”이 중요하다고 열심히 써 놨지만, “너는 경제학 출신이니 수학을 잘 모를 것이다”라는 기대감을 갖고,...

0

통계학자가 본 머신러닝

요즘 자주 듣는 표현 중에 필자의 귀를 매우 거스르는 표현들이 몇 가지 있다 빅데이터를 배운다 딥러닝을 배운다 빅데이터는 용량만 큰 데이터가 아니라 유저들의 행동을 초 단위로 추적한 데이터라고 이미 여러번 포스팅을 했다. 딥러닝도 머신러닝의 Neural net 모델 중 layer의 숫자가 좀 많은 모델들을 부르는 이름이라는 것도 같은 맥락에서 여러번 언급을 했었다. 말을 바꾸면 빅데이터와 딥러닝은 특정한 데이터나 모델인데 이걸 마치...

6

머신러닝에 왜 통계학이 필수일까?

작년 (2017년) 이맘때로 기억한다. 어느 벤처 투자사 (Venture Capital)와 미팅을 하는데, 왜 머신러닝에 통계학이 필수적인지 잘 이해가 안 된다는 질문과, 머신러닝은 알아서 변수를 다 찾아주는 거라고 들었는데, 도대체 무슨 변수를 어떻게 찾아서 최적화를 한다는 건지 잘 이해를 못하겠다고 하더라. 그 중 한 명은 통계학을 꽤나 쓰는 학문으로 석사 유학을 다녀오신 분이고, 다른 한 분은 국내 매우 유명한 DMP + DSP...

4

머신러닝 교육 포기하고 외주업체를 써야하는 이유

가끔 출장 교육(?)이 가능하냐는 연락을 받는다. 거의 대부분은 일언지하에 거절한다. 그런 보따리 강사하려고 이 강의를 시작한게 아니라, 실력없는 사람들의 3류 강의, 직접 데이터 다뤄본 적이 없는 교수들의 책 속에만 파묻힌 강의에 분노해서, 시장이 좀 교육이 되었으면 하는 기대를 갖고 남는 시간을 활용해서 하는 강의인데, 폰돈 몇 푼 쥐어주면서 “이 강의를 듣고 나면 우리 회사 사람들이 다들 머신러닝의 전문가가 되는거겠죠?”라는 어이없는...

11

R과 Python을 같이 써 보자 – RPy2(1)

이전글 – 왜 Python 이 아니라 R로 강의하는거야?   귀국하고 지난 1년 반 남짓한 기간 동안 데이터 사이언티스트로 살면서 필자가 싸워(?)야했던 오해 중 가장 큰 두 개를 꼽자면, 빅데이터 = 용량만 많은 데이터 데이터 사이언티스트 = 공대 출신 개발자 라는 잘못된 이해들이었다. 수 십개의 블로그 포스팅도 빅데이터란 유저들의 행동데이터를 말하고, 데이터 사이언티스트는 그 행동데이터에서 패턴을 추적하는 사람들이지, 프로그래밍하는 개발자가 아니라는...