Category: 모델링

데이터 사이언스 모델링은 빅데이터를 가공, 처리하는 과정에서 수학적, 통계학적 테크닉과 머신러닝 방법론, 그리고 도메인 지식을 결합하는 과정을 말합니다

1

데이터 전처리란?

개발자 면접을 보다보면, 파비의 사업모델은 뭐냐, 기술 역량은 얼마나 뛰어나냐,  비지니스 철학은 뭐냐 같은 종류의 질문을 받는 경우가 있다. (더불어서 돈 많냐, 월급 떼어먹는거 아니냐 등등의 스타트업이 으레 받을법한 부끄러운 질문도 가끔 받는다ㅋㅋ 우리 돈 많다ㅋㅋ) 보안 이슈 때문에 이미 회사 홈피나 다른 블로그 글에 다 공개되어 있는 부분 이상으로 딱히 더 설명해 줄 부분은 없는데, 그래도 좋은 인재를 잡고...

38

의학계와 데이터 사이언스

얼마전 의학 연구직으로 있는 학창 시절 친구를 만났다. 자기네가 데이터 작업을 하고 있는데, 여기에 머신러닝인지 인공지능인지라는걸 쓰면 뭔가 좀 더 획기적인 정보를 찾아낼 수 있냐고 묻더라. 논문을 한 번 읽고, 두 번 읽고, 세 번 읽고, 아무리 생각해봐도 별 대단할게 없는 사회학자들 데이터 리서치하는 수준의 정보들인데, 여기에 머신러닝을 어떻게 써보겠다는건지 잘 이해가 안 되더라. Pabii 수업 시간에 계속 주장하는대로, 데이터에...

3

여성차별하는 AI….일까?

아마존(Amazon.com)이 인공지능 인력 채용 프로그램을 폐기했다는 신문 기사가 떴다. 짜놓은 알고리즘을 따라가면 여성 지원자들을 안 뽑는 방식으로 결론이 나온단다. (Source: Reuters) 저 프로세스에 대한 기술적인 평가나 도덕적인 판단을 내리기 전에, 일반적인 서류 선별 (Resume screening) 작업을 한번 생각해보자. 대학 졸업반 시절에 B 모 전략컨설팅 회사에서 잠깐 인턴을 했던 적이 있다. 그만 둘 날짜가 며칠 안 남은 상황이었는데, 우리 팀 Associate...

10

타겟 마케팅 – 2.사기 클릭(Fraud Click) 찾아내기

Telltale이라는 영어단어가 있다. 남기고 간 흔적이 다 이야기해 준다는 뜻을 가진 단어다. 추리소설에서 자주 볼 수 있는 단어다. 그리고 빅데이터에 인공지능을 적용한다…. 는 비지니스에서 자주 등장해야하는 단어이기도 하다. (불행히도 많은 사람들이 “신경망 모델이라는거에 넣으면 그냥 척척 가르쳐주는거 아니야?”에 머물러 있긴 하지만) 비슷한 예시로, 주가 대폭락을 예측한다는 “인공지능” 모델이라는 것도 결국에는 특이하게 움직이는 변수 k개의 특정 조합을 보고 대폭락이 있을 것이라고...

37

데이터 분석? 데이터 과학?

첫 직장인 D모 투자은행의 Investment Banking Division (IBD, 속칭 i-Banking) 사람들이 가장 싫어하는 단어가 “컨설팅”이었다. i-Banking 업무 자체가 기업을 사고 파는 업무(M&A)를 “컨설팅”해주는 업무임에도 불구하고, 전략 컨설팅 회사들 (McKinsey, Bain & Compnay, Boston Consulting Group 등)이 “컨설팅”이라는 단어를 선점한 상태인데다,  i-Banker들은 컨설턴트들이 숫자 읽을 줄 모르고 그림만 그린다면서 매우 깔보고 무시했기 때문이다. (뭐… 무시해야할 이유가 그것뿐인건 아니지만…) 무시하는 사람들과 같은...

10

Data Scientist 면접 질문들

오랜만에 WorkingUS.com을 들어가봤다. 미국에서 일하는 한인들의 모임인데, 가끔은 Data Science 관련 분야에 대한 질문 & 답변도 올라오고, 한국 상황이 아니라 미국 상황에 맞는 답변이 많기 때문에 필요하신 분은 참고하시면 좋겠다. 링크의 어느 댓글을 보다가 필자기 2016년에 받았던 여러가지 질문들이 생각나서 한번 정리해본다. 참고로 링크를 보면 느끼게 되겠지만, 한국처럼 코딩을 얼마나 해 봤냐, C언어는 쓸 줄 아느냐, 알고리즘 한번 짜봐라 같은...

34

한국은 왜 2류일까 (2)

아래의 2개 예시는 판교의 어느 초일류 게임사에서 개발자로 밥벌이를 하는 친구의 질문에 대한 답변을 거의 그대로 옮겨 놓았다. (Source: Harnesslink)   1. Information equivalence “데이터의 해상도를 높이면 숨겨져 있는 데이터 속 패턴을 찾을 수 있다.” 와 같은 생각으로 요즘 회사 안에서 DB 기록 시간 단위를 좀 더 세분화하는, 이른바 “해상도를 높이는” 프로젝트를 진행 중이란다. 그러면서 정말 이게 효과가 있는거냐, 아무리...

15

Case study 좀 그만 찾으세요

학부시절 B모 전략 컨설팅 회사 인턴을 한 후, 평생 다시는 전략 컨설팅을 하지 않겠다고, 내가 그런 서비스를 쓰지도 않겠다고 결심했었다. 여기저기서 “사례”라는 걸 긁어 붙인 후, “분석”이랍시고 화려해보이는 그림 몇 개를 더 추가한 ppt 100장을 제공하는게 전략 컨설팅이라는 걸, 그런 풋내기 시절에 이미 보았기 때문이다. 나이를 먹고 점점 더 경험의 폭과 배움의 깊이가 깊어지면서, 요즘은 유명 전략 컨설팅 회사 출신이고...

2

한국에서 본 데이터 사이언티스트 채용 공고

얼마전에 우연히 국내 유명 IT회사의 데이터 사이언티스트 채용 공고를 봤다.   위의 내용은 어디서나 다 찾을 수 있을지 모르겠지만, 다음 중 하나의 논문을 읽고 설명할 수 있는 능력을 요구하는 부분에서 요구 수준이 얼마나 높은지 쉽게 확인할 수 있겠더라. 링크: 논문1, 논문2, 논문3, 논문4, 논문5, 논문6 참고로 위의 6개 논문 중 4번째 논문은 필자의 데이터 사이언스 기본 강좌 마지막 부분에서 짧게...

0

대답하고 싶은 질문들

메일 섹션을 홈페이지 하단에 넣고, 회사 전화번호를 등록했을때만해도 공부하다가 뭔가 잘 모르는 내용이 있는 사람들, 벽에 부딪혔는데 스스로의 힘으로 극복하기 좀 어려운 분들의 연락을 기대했었다. 수업을 하는 것도 같은 이유니까. 나도 공부할 때 힘들었는데, 누군가 조금만 더 도와줬으면 쉽게 극복했을텐데, 이제 쬐끔 더 알게되었으니 도와주겠다는 마음에서 넣어놓은 개인 연락 포인트건만, 거의 대부분의 연락은 포인트 못 잡는 비지니스 요청이나, 대학원가고 싶은데...