Category: 빅데이터

빅데이터란 데이터의 용량이 클 뿐만 아니라 데이터 속에서 두드러진 패턴이 다양하게 나타나는 데이터, 즉 랜덤이 아닌 데이터를 말합니다. 수많은 사람들의 행동을 추적한 데이터를 쌓아 특정 패턴을 찾아내고, 그에 맞춘 모델을 통해 유의미한 비지니스적인 성과를 얻어내는 작업을 빅데이터 분석, 빅데이터 모델링이라고 합니다

0

빅데이터를 이용한 비지니스 모델

빅데이터 “Integrated Intelligence”를 이용한 비지니스 모델 Pabii 블로그의 가장 큰 흐름을 2개만 잡으라면 하나는 수학과 통계학같은 기초학문이 탄탄해야 요즘 인공지능이라고 불리는 데이터 사이언스 작업을 이해할 수 있다는 포인트와, 빅데이터란 용량만 많은 데이터가 아니라 많은 사람들의 행동 패턴을 추적할 수 있는 데이터라는 포인트다. 그 중 빅데이터에 대한 관점을 좀 전문 용어를 빌려쓰면 집단지성 (Collective Intelligence)과 통합지성 (Integrated Intelligence)의 구분을 활용해볼 수 있을...

0

빅데이터 vs. 스몰데이터

언론사 기자 분이 취재 요청이 왔다. 요청 내용 중에 빅데이터 시대가 끝나고 스몰데이터 시대가 온다는 주장에 대한 코멘트를 해달라고 하시더라. 모르는건 모른다고 시원하게 지르고, 전화를 끊으면서 스몰데이터가 뭔지 구글링을 해 봤다. 이미 단순 대용량 데이터가 빅데이터가 아니라는 주장, 개인화 + 동적 데이터가 결합되어서 Multi-pattern을 추적할 수 있는 데이터일 때 “빅데이터”라는 Label을 붙일 수 있다는 주장을 했었던 만큼, 제대로 오지도 않았던...

0

Data Scientist 면접 질문들

오랜만에 WorkingUS.com을 들어가봤다. 미국에서 일하는 한인들의 모임인데, 가끔은 Data Science 관련 분야에 대한 질문 & 답변도 올라오고, 한국 상황이 아니라 미국 상황에 맞는 답변이 많기 때문에 필요하신 분은 참고하시면 좋겠다. 링크의 어느 댓글을 보다가 필자기 2016년에 받았던 여러가지 질문들이 생각나서 한번 정리해본다. 참고로 링크를 보면 느끼게 되겠지만, 한국처럼 코딩을 얼마나 해 봤냐, C언어는 쓸 줄 아느냐, 알고리즘 한번 짜봐라 같은...

0

국내 금융 산업에 Big Data Hub가 도입된다면?

사업하는 친구 하나가 그러더라. 보험 아줌마들을 대체할 수 있는 인공지능 서비스 만들어 볼 수 있지 않겠냐고. 필자의 반박 질문은 2가지였다. 개인 동의를 받아봐야 신용등급에 관련된 정보 밖에 긁어올 수가 없는데, 그 데이터로 맞춤형 보험 추천이 가능할까? 보험 아줌마들로 가입하는 채널이 전체 비중의 절반도 넘을텐데, 직접 찾아오는 사람들에게 정보 제공하는것만으로 세일즈가 가능할까? 첫번째 질문에 대한 대답은 빅데이터에 대한 정의를 “대용량”으로 볼...

0

제조업과 빅데이터

제조업체에 근무하시는 분들이 수업에 찾아오거나, 빅데이터 컨설팅을 의뢰하는 경우가 꽤나 있다. 수업에 오신 분들이 수업 막바지에 “그 동안 IT나 Finance쪽 예시는 여러번 들어주셨는데, 제조업에 쓸 부분은 없나요?” 라고 질문하시는 경우가 있는데, 솔직히 말해서 별로 쓸 구석을 많이 못 만났다. 제조업 공정에서 이미지 인식으로 불량을 찾아내는 부분, 설비 노화의 정도를 예측하는 부분 정도가 겪어본 프로젝트이기 때문에 얼핏 떠오르는데, 앞의 예제는 빅데이터...

0

블랙박스(Blackbox)라고?

소수 (Prime number)가 어떤 규칙을 가지는지, 가장 큰 소수는 얼마인지 등등에 대한 이론 연구를 하는 수학 전공이 있다. 정수론이라고 한다. 수학과 천재들 중에서도 최고들이 도전하는 분야다. 그런 정수론을 자기 평생의 연구 주제로 삼은 장이탕은 베이징대 수학과를 졸업하고, 나이 서른 여섯에 겨우겨우 퍼듀에서 수학 박사 학위 받고나서도 나이 50줄에 들어설 때까지 교수는 커녕 강사자리 하나 못 잡고 마트 캐셔로 살았었다. 그...

0

인공지능인가? 고급 자동화 기술인가?

블록체인 투자 전문이라는 VC를 한 분 만났다. 인공지능이 세상을 이끄는 시대가 왔고, 그런 기술을 블록체인에 접목시켜서 비지니스의 혁신이 계속 일어날 것이란다. 곧 특이점이 오고, 그 때부터는 인류가 뭔가를 개발하는게 아니라, 프로그램이 자체 개발을 다 해서 지금까지 인류가 수백만년에 걸쳐 쌓아온 노하우와는 비교도 안 되는 어마어마한 발전이 앞으로 10년안에 일어날 거란다. (푸흡~) VC와의 미팅은 언제나 둘 중 하나다. 필자의 블로그를 읽고,...

0

네트워크 이론 – 인스타그램의 알고리즘

Criteo라는 리타게팅 광고회사 (유저별 행동에 맞춰 쇼핑몰 노출 상품을 골라주는 광고 상품)에서 Senior Data Scientist로 재직하던 시절, 외부 접촉이 있을 때마다 항상 위에서 “절대로 회사 알고리즘을 상세하게 공개하면 안 된다”는 경고를 받았다. 굳이 공개해야할 때는 Top-line info만 공개해라고 여러번 주의를 들었는데, 회사 그만둔지 1년이 지난 요즘도 여전히 그 모델을 제대로 따라가는 경쟁자가 별로 없는 것과, 모델을 보면서 느꼈던 내공의 깊이(?)를...

0

커리어 쌓기 in Data Science

국내에서 데이터 사이언티스트로 성장하고 싶으면 어떤 커리어를 밟아야할까에 대한 질문을 많이 받는다. 개발자들이 Data Engineer쪽 커리어를 밟거나, BI들이 Data Analyst쪽 커리어로 나가는 건 이미 여러번 이야기를 했는데, 정작 Data Scientist로 성장하기 위해 한국에서 어떤 커리어를 밟아야할까에 대한 고민을 깊게 해 본적은 없었던 것 같다. Engineer나 Analyst는 학부 출신들이 전공만 맞다면 충분히 도전할 수 있는 영역이기 때문에 좀 더 쉽게 이야기할...

0

통계학자가 본 머신러닝

요즘 자주 듣는 표현 중에 필자의 귀를 매우 거스르는 표현들이 몇 가지 있다 빅데이터를 배운다 딥러닝을 배운다 빅데이터는 용량만 큰 데이터가 아니라 유저들의 행동을 초 단위로 추적한 데이터라고 이미 여러번 포스팅을 했다. 딥러닝도 머신러닝의 Neural net 모델 중 layer의 숫자가 좀 많은 모델들을 부르는 이름이라는 것도 같은 맥락에서 여러번 언급을 했었다. 말을 바꾸면 빅데이터와 딥러닝은 특정한 데이터나 모델인데 이걸 마치...