데이터 사이언스 블로그 Blog

0

블랙박스(Blackbox)라고?

소수 (Prime number)가 어떤 규칙을 가지는지, 가장 큰 소수는 얼마인지 등등에 대한 이론 연구를 하는 수학 전공이 있다. 정수론이라고 한다. 수학과 천재들 중에서도 최고들이 도전하는 분야다. 그런 정수론을 자기 평생의 연구 주제로 삼은 장이탕은 베이징대 수학과를 졸업하고, 나이 서른 여섯에 겨우겨우 퍼듀에서 수학 박사 학위 받고나서도 나이 50줄에 들어설 때까지 교수는 커녕 강사자리 하나 못 잡고 마트 캐셔로 살았었다. 그...

0

데이터 사이언스 공부를 위한 교과서 추천

요즘 데이터 사이언스를 독학으로 하고 있는데, 혹은 수업에서 들은 것보다 더 깊은 내용으로 도전해보고 싶은데 좋은 교재를 추천해줄 수 없냐는 요청을 많이 받는다. 불행히도 그런 질문을 하시는 분들 대부분이 수학 & 통계학을 필자 스타일로 공부하신 적이 없는 분들이다. 당장 데이터 사이언스 책을 추천하기 전에 수학과 통계학을 추천해야할 판국인 셈이다. 그 중에는 데이터 사이언스 공부를 하는 이유가 최소한 어떤 스토리가 돌아가고...

0

데이터 사이언스 공부법

몇 달전의 일이다. 경제학 석사까지 공부하고 모 통신사에서 Data Analysis 팀에 재직하시는 분이 데이터 사이언스 강의를 들으러 오셨다. 수업이 진행되면서 수식 하나 놔 두고 여러가지 직관을 설명하고, 그게 데이터 사이언스에 어떤 방식으로 적용되는지, 어떤 주의 사항이 있는지를 계속 설명했더니만, “유학가면 보통 이렇게 수식 속에 숨겨진 직관적인 내용을 파보는 교수님들이 많냐?”고 질문하시더라. 학부 시절, 혹은 고교 시절로 돌아가보면 아무래도 지식 흡수에...

0

블록체인(Blockchain) 시리즈 – 문제점들

처음 데이터 사이언스로 사업하겠다고 나선 다음, 한국에서 만난 VC들, 수업에 찾아온 수강생들, 외부 미팅에서 만난 관계사 직원 분들 모두에게는 다들 뭔가 “머신러닝이 모든 걸 다 해결하는 마술이다”는 사고방식이 자리잡고 있는 걸 느낄 수가 있었다. 개발자, 혹은 그 근처에서 IT업무를 하는 사람들은 머신러닝이 데이터 관련된 업무를 알아서 척척척 다 해주니까 통계학 같은 구시대(?) 학문은 필요없다고 목소리를 높여서 미팅이 굉장히 어색하게 끝나는...

0

SPSS로 할 수 있는 걸 굳이 Python 코드로 쳐야되냐?

모 게임사에서 데이터 분석(?)을 한다는 팀에 있는 개발자 친구를 만났다. 아무리 학부시절 절친이어도, 오랜만에 만나니까 회사 내에서 무슨 일을 하고 있을지 좀 알고 가야지 실례가 아닐 것 같아서 이래저래 구글링을 좀 해 봤다. 언론에 공개된 내용만 봤을 때는, 좋은 회사고, 훌륭한 목적을 가진 부서라고 보였지만, 그 팀의 수장이라는 사람부터 사내의 데이터 “분석”을 한다는 사람들의 스펙과 발자취(?)를 봤을 때는, 모델링을 할...

6

데이터 사이언스 수업 수강생들의 질문

Teaching position에 있다보면 친구들끼리 모임에서 내 수업에 진짜 똑똑한 학생 있다는 이야기를 하는 경우는 거의 없고 (애시당초 그런 학생이 잘 없다 ㅋㅋ), 대부분은 “내 수업에서 이렇게 깝깝한 질문 받았음ㅋㅋ” 이라는 불평을 토로하는 경우가 많다. 보스턴에서 박사 시절, 학부나 MBA 학생들용 수업 TA로 들어가면, 정말 충격적인 질문을 많이 받았는데, 고교 수준의 등비급수를 몰라서 이해를 못하는 학생, 등비 급수 푸는 법을 알려주고...

4

데이터 사이언스 Hackathon 모집

자칭 “데이터 사이언스” 학원 하나가 “강사” 모집 중이라고 메일이 왔었는데 (한 땐 이런 메일 여러번 왔는데, 요즘은 좀 뜸하더만…), “실제 데이터를 기반으로 하는 실무형 프로젝트 참여”를 목적으로 하는 기관이라고, 날더러 “강사”에 “지원”해라고 하더라. 뭐… 내가 왜 “지원”해야되는거지? 당신들이 pabii에 지원하시던가 ㅋㅋㅋ 근데 또 개발자들을 “강사”로 모셔놓고서는 “실무형”이라고 우기는 건 아니겠지? 이론을 (몰라서) 안 가르쳐놓고, 데이터만 넣으면 무조건 실무형이 된다고 우기는...

2

블록체인(Blockchain) 시리즈 – Byzantine Generals Problem

알고 지내는 VC 한 분이 블록체인 (Blockchain)으로 코인 찍어서 펀딩한 회사로 자리를 옮기셨다. (솔직히 저렇게 쉽게 펀딩되는거보면 나도 “인공지능이 곧 인류의 삶을 바꾼다” 같은 헛소리하는 답답한 VC들 상대하지말고 시류에 편승해서 코인이나 찍을까는 욕심이 솟아오른다 ㅋㅋ) 회사 잘 되었으면 좋겠다고 덕담을 하는데, 이제 블록체인 공부 좀 하셨는지 계속 BGP, BGP로 노래를 부르시더라. 그러나 정작 BGP를 해결하는게 얼마나 어려운 일이고, 그런 아이디어를...

4

온라인 데이터 사이언스 강의를 시작하면서

오프라인에서 강의를 시작한지 꼭 1년이 지났다. 운영상의 문제도 많이 있었지만, 역시 가장 큰 도전은 “잘못된 인식”과의 고단한 싸움이었다. 수십차례 봤던 개발자 면접에서 이걸 “코딩”으로 인식하고 “갖다 쓰면 된다”는 관점에서 벗어나서, “응용통계학”이고, 기본적인 수학과 통계학 지식이 갖춰져야한다는 사항을 인지하고 있는 경우는 매우매우 드물었다. 수업에 찾아왔던 개발자들 대부분도 이게 무슨 머신러닝 수업이냐, 수학 수업이지라고 불만을 터뜨리는 경우도 많았다. 블로그나 Github에서 코드 몇...

0

“인공지능”이라는 사기는 그만둡시다

지금 우리가 만나고 있는 “인공지능”은 사실 “지능”이 아니라, 데이터에서 뽑아낸 패턴들로 이뤄낸 고급 자동화라는 사실을 여러번 강조하고 있다. 이전에는 단순한 규칙만을 입력한 자동화였다가, 이제는 데이터에서 더 다양한 규칙들을 뽑아내서 자동화를 좀 더 복잡한 수준으로 할 수 있는 정도에 불과하니 이건 “지능”이 아니라 “규칙”을 “저장”하는 것에 불과하다고 했다. 수업 초반에 강조하듯이, 단순히 데이터의 용량이 커져서가 아니라, 예전 데이터는 랜덤 데이터였는데 반해,...