데이터 사이언스 괜찮은 강의들 리스트 1

데이터 사이언스는 데이터 분석도 아니고, 머신러닝도 아니고, 그렇다고 무턱대고 통계학도 아니다. 그럼 뭐냐고?

누가 필자에게 도대체 뭘 공부했길래 스스로를 데이터 사이언티스트라고 주장하냐고 물어보길래 반 페이지 남짓을 써 봤다가, 이건 너무 엉뚱한 소리인 것 같아서 부끄러운 마음에 글 전체를 쓱 지웠다. 데이터 사이언티스트가 뭘 하는지에 대한 이야기는 여러번 했는데, 그럼 뭘 배워야된다고 이야길 해야할까? 사실 여기에 대한 분명한 대답이 없기 때문에 우후죽순처럼 여러가지 강의가 돌아다니고 있기도 하고, 그 트렌드에 편승해 필자도 부족하나마 강의를 열어볼까 생각중이기도 하다. (필자의 강의 리스트, 당연하겠지만 여기에 소개하는 강의들보다 훨씬 더 좋다^^)

강의하겠다고 마음 먹기 전에 인터넷 여기저기에 널린 “데이터 사이언스” 오픈 강의들을 많이 들어봤는데 (진짜 정말 너무너무 많다), 마음에 드는 강의가 거의 없었다. 머신러닝 강의 소개글에서도 밝혔듯이, 대부분의 강의들이 이론 위주로 구성되어 있고, 그렇다고 박사들이 들어야되는 수학은 못 쓰는, 그야말로 어정쩡한 강의들이 너무 많았다. 데이터 사이언스 석사 프로그램 다니는 후배들한테 물어보니 자기네 수업 강의가 대부분 그렇게 흘러간단다. 숙제로 몇 문제 수학적인 Derivation을 하고, 교과서 예제같은 문제 몇 개 나와서 R이나 Python으로 돌려보다가 학기가 후딱 지나간다니까, 아마 필자가 예상했던 대로 교수들이 직장 경험이 별로 없다보니 뭐가 정말 필요한지 감을 잘 못 잡은 상태로 1년 반짜리 프로그램이 그렇게 흘러가는 듯.

 

몇 가지 알려진 강의들을 소개해보면

1. 데이터 사이언스 강의 총 모음집

일단 여기에 들어가면 정말 수십가지 온라인 강의 링크들을 찾을 수 있다.

  • R로 기초 통계 및 다른 데이터 사이언스 토픽들 훑는 강의 목록
  • 다른 소프트웨어들로 기초 통계학 공부하는 강의
  • 통계학 이론 수업

으로 그룹을 나눠놨는데, 특별히 어느 한 수업이 더 좋다고 이야기하기에는 수업들 수준이 다 고만고만한 것 같다. 그래도 학부 때 배운 통계학을 다시 Remind 하거나, R을 어떻게 쓰는건지 궁금한 초심자가 보기에는 참 좋은 강의들이 많은 것 같아서 먼저 소개해본다.

 

2. 데이터 사이언스 (스러운) 강의

Listen Data 라고 좀 알려진 웹사이트인데, 유료 온라인 강의로 돈을 벌고 기초적인 R 사용법들을 잘 정리해놓은 페이지가 있다. R이 기존에는 통계학하던 사람이 쓰던 프로그램이다보니 데이터 베이스에 접근하기 위한 SQL을 쓸 수 있는 패키지도 없었고, 머신러닝에 쓰이는 GBM, SVM, Ensemble 같은 방법론을 쓸 수 있는 패키지도 없었다. 그러다 머신러닝에 대한 관심이 불면서 R에서도 그런 명령어들을 쓸 수 있도록 다양한 패키지들이 개발되었는데, 기존의 통계학, 시뮬레이션 같은 패키지와 더불어서 다양한 예제들을 100가지나 모아놓았다. 혼자서 R로 데이터 사이언스를 공부하겠다면 가장 좋은 Reference point가 되지 않을까 싶다.

단, 실제 사례를 이용한 예제는 없다. (그 부분은 아마 유료 강의에서 다뤄지지 않을까?)

 

3. (좀 더) 데이터 사이언스 (스러운) 강의

강의 소개: http://www.techleer.com/articles/83-learning-bayesian-models-with-r/

강의 페이지: https://www.packtpub.com/big-data-and-business-intelligence/learning-bayesian-models-r

그냥 단순한 통계, 머신러닝 지식만 가르치는 강의가 아니라, 베이지안 통계학 모델을 가르쳐주는 좀 고급스러운 강의다. 베이지안 통계학을 굳이 배워야하냐고 묻는 분께 필자가 말씀드릴 수 있는 점은 딱 한 가지 밖에 없다. 새로운 데이터가 들어오면 기존 모델이 맞는지 틀린지만 따지는게 일반적인 통계학 (and 머신러닝) 모델이고, 그 데이터로 기존 모델을 업데이트 시키는 아이디어가 베이지안 모델이다. 일반적으로 동적(Dynamic) 업데이트를 한다는 모델들은 다들 베이지안 클래스 안에 들어간다고 생각하면 된다. 계속 새로운 국수와 바둑을 둬서 데이터가 추가되어야 실력이 는다는 알파고의 “학습”이 기억나시는가? 모두 베이지안에서 시작한다.

 

4. (매우) 데이터 사이언스 (스러운) 강의

강의 페이지: https://www.deeplearningtrack.com/courses

8주 강의 안에 빠듯하게 가르칠려고 하다보니 많은 내용을 몰아넣은 것 같은데, 그래도 필요한 통계학, 회귀분석, 분류, 신경망, 시계열 등등의 이론들을 다 커버하고 있다. 필자가 이 강의를 제일 마음에 들어하는 이유는 필요한 예제들을 잘 선택했기 때문이다. 가르치는 분의 영어도 깔끔하다. 유일한 단점이 있다면 가격이다. $540. 싼 가격은 아닌데, 퀄리티를 보면 저 위에 써 놓은 다른 어떤 강의도 압살할 수 있을 것 같다. 데이터만 좀 좋은거 써서 강의하면 좋겠는데, 그 부분에 대해서 언급이 없어서 쪼끔 아쉽다. 아래는 강의 계획서 스크랩이다.

Week Topics Content
1 Python Programming Includes basics as well as advanced topics on user defined functions, visualizations. Hands-on sessions with financial transaction dataset
2 Statistics Statistical modelling including data preparation, model building, evaluation and advanced topics on distributions and hypothesis testing
3 Regression Techniques like Linear, Logistic and generalized regression. Work on Kaggle data-sets and business case studies like customer contact rate forecast
4 Classification Techniques Decision Trees, Ensemble methods like bagging(Random Forest), boosting (adaboost,GBM) while solving assignments on product classification and predicting customer default
5 Neural networks Introduction to learning algorithms, Network architectures including concepts like feedforward nets, backpropagation
6 Unsupervised learning Clustering – K means, PCA, Factor analysis; Recommender systems – Collaborative filtering, Matrix factorization. Assignments include claim, movie rating prediction
7 Time-series Analysis Decomposing time series data, ARIMA models for forecasting problems like tourism, solar energy consumption
8 Natural Language Processing Text pre-processing and sentiment analysis for product reviews. Model development for unstructured data with assignments on search relevance
Guest Speaker Session Quick overview of various other case studies applied in industry by industry practitioners

 

5. R로 데이터 마이닝하는 자료 정리된 곳

글 링크: https://medium.com/towards-data-science/examples-of-data-science-with-r-789c6996435

동영상 강의는 없지만 자료와 예시가 참 잘 정리되어 있는 Medium 블로그 글이다. 예제 중에 몇 가지 흥미로운 부분은 한국말로 번역해서 필자의 블로그에도 공개해 보고 싶다

 

6. R로 자기가 한 분석 올리는 곳

페이지 링크: http://rpubs.com/

R로 이런 저런 분석해서 R Markdown Document로 바꾸는 방법이 있다. 필자가 박사 재학시절 R로 코드 짜서 숙제하거나 수업 교재의 답안지 만들고 난 다음에, 이걸 다시 PDF로 만들려고 Latex 들어가던 귀차니즘을 일거에 해소시켜줬던 방법이다. 일반 대중에게는 코드 작업 후에 문서로 설명하는 글 쓰기가 번거로운 경우가 많을텐데 (ex. 코드를 긁어서 붙여보니 모양이 이상하게 나온다던가…) 그런 부분에서 생기는 귀차니즘을 말씀하게 해결해주는 방법이라고 생각하면 된다.

그런데 그렇게 정리된 문서들이 여기에 다 올라와 있다. 보통은 스샷 안 뜨는데, 오늘은 한국 분이 조선시대 세금, 인구구조 같은 데이터를 분석해놓으신 포스팅이 올라와서 특별히 스샷을 남겨본다.

You may also like...

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다