데이터 분석? 데이터 과학?

첫 직장인 D모 투자은행의 Investment Banking Division (IBD, 속칭 i-Banking) 사람들이 가장 싫어하는 단어가 “컨설팅”이었다. i-Banking 업무 자체가 기업을 사고 파는 업무(M&A)를 “컨설팅”해주는 업무임에도 불구하고, 전략 컨설팅 회사들 (McKinsey, Bain & Compnay, Boston Consulting Group 등)이 “컨설팅”이라는 단어를 선점한 상태인데다,  i-Banker들은 컨설턴트들이 숫자 읽을 줄 모르고 그림만 그린다면서 매우 깔보고 무시했기 때문이다. (뭐… 무시해야할 이유가 그것뿐인건 아니지만…) 무시하는 사람들과 같은 그룹으로 묶이게 되는 “컨설팅”이라는 단어에 거북해지는게 그들 입장에서는 당연하겠지만, i-Banking(아이뱅킹)이라는 용어를 잘 모르는 사람들이 많아 보통의 한국 사람들에게 업무를 설명하기 어려운 점이 적잖이 있었다. (덧붙여서, 일반 상업은행 – 국민,우리,신한,외환은행 등- 업무, 증권사의 투자 관련 업무랑 다르다고 자기들을 항상 “i-banker (아이뱅커)”라고 불렀다. 자부심 아주 쩐다ㅋㅋㅋ) 아무리 설명하기 어려워도 자존심에 끝까지 컨설팅이라는 이름을 쓰지 않았던 걸 생각해보면 ㅋㅋ

비슷한 맥락에서 요즘 “데이터 분석”이라는 단어를 들을 때 조심스러워진다. 보통 데이터에 “분석”이라는 용어를 붙이는 사람들이 가지는 관점이

  • 데이터로 작업하는데, 개발은 아닌 작업
  • 데이터로 작업하는데, 그래프 그려놓고 썰 푸는 작업
  • 데이터로 작업하는데, 데이터를 “잘 본다”고 주장하는 작업

이라고들 생각하는 경향이 짙다.

내 입장에선 그래프를 그린다는게 성장율 CAGR을 그린다거나하는 1차원 그래프가 아니라, 수학 모델을 만들어놓고 그 모델을 통해서 A 입력치가 변했을 때 B 결과가 어떻게 바뀌는지를 볼 수 있는, 추론의 결과를 가늠하는 시각 도구적인 관점이 강한데, 아무래도 보통 사람들이 그런 수학 모델을 만나는 일이 드물다보니 “분석”이라는 단어가 주는 뉘앙스가 내가 전달하고 싶지 않은 의미가 되어 버린 것 같다.

본의 아니게 “분석”이라는 단어를 회피하다보니 더더욱 Data “과학(Science)”이라는 표현을 더 쓸 수 밖에 없다. 위에 살짝 언급한 수학 모델 기반의 결과 시뮬레이션과 단순한 CAGR 그래프와는 급이 같은 업무는 아니라는 걸 강조하기에 달리 방법이 없어보인다.

 

Data Analysis vs. Data Science

용어가 혼선을 낳는 더 근본적인 이유는 역시 Data Science가 뭔지에 대한 제대로 된 관점이 잡혀있지 않기 때문이라고 생각한다. 우리는 계산통계학 (Computational Statistics)을 특정 업무 분야에 적용하는 사람들, 상황에 맞게 적절한 수(리통계)학 모델링을 하는 사람들인데, 외부인들에게는 아무래도 “데이터”가 더 크게 눈에 들어오지 “Science”가 더 크게 눈에 들어오지는 않는 것 같다.

얼마전 수업 시간에, 통계학에서 활용하는 Two Stage Least Square (2SLS, 회귀분석을 2단계로 돌리는 작업)을 선형대수학의 벡터 개념을 빌려서 설명한 적이 있다. 머신러닝 수업하는데 왜 이런 내용이 나오는지 의아한 분도 있겠지만, 여러개의 설명 변수(x값)들 중 일부의 효과를 배제한 상태에서 종속 변수(y값)을 설명하기에 굉장히 효율적인 계산법이다.

수업 중간에 이런 통계학의 회귀분석 내용을 왜 머신러닝 가르쳐 준다는 수업에서 배우고 있는지 의아한 분위기가 느껴지는 시점에

“이런 작업의 공식 명칭이 뭔 줄 아세요? ‘데이터 전처리’라고 하죠.”

라고 하니 정말 표정들이 일순간 강의실 전체가 충격의 도가니로 바뀌는 것을 느꼈다.

일전에 커닝 없이 시험 점수가 실력을 제대로 평가한 숫자인지를 확인하려는 예시에 관한 글을 쓸 때도 마찬가지고, 위의 2SLS 예시도 모두 수학적인 도구를 활용해 데이터 “분석”을 효과적으로 진행하기 위한 작업의 일환이다. 다만, 한국에서 일반적으로 “분석”이라는 단어를 쓰는 사람들이 2SLS를 쓸 줄 알기는 커녕, 들어본 적도 없는 사람들이 대부분이기 때문에, 어쩔 수 없이 저런 작업의 명칭을 “분석” 대신에 “고급 통계학” or 데이터 “Science” or 데이터 “모델링”이라는 표현을 쓰게될 수 밖에 없는 것이다.

 

의학계 vs. 금융권

예전에 Pabii 수업을 듣고 간 어느 산업공학과 학부생 하나가 대학원에 진학했는데, 의학 분야쪽에 머신러닝 적용한다는 교수님 연구실에 갔더니 기대한 것과 너무 다르다고 상담을 왔던 적이 있다. 자기가 원하는 지식이 뭔지 한참 설명을 듣고 나니, 어차피 한국의 어지간한 학교 대학원에서 원하는 걸 다 배우기는 어려워 보이고, 기술적으로 필요한 수학만이라도 챙겨주는 연구실을 찾아보라고 추천해 줄 수 밖에 없었다. 그렇게 고른 곳이 산업공학과에서 Finance 관련한 연구를 하고 계신 교수님의 연구실이더라.

필자가 Finance 출신이라서 편견이 있다고 볼 수도 있지만, 대체로 의학쪽 통계와 금융쪽 통계를 1:1로 비교해보면, 수학/통계학 필요 스킬 셋이 정말 하늘과 땅 차이로 큰 격차가 있다. 의학쪽 논문을 봐 달라는 요청이나, 필요한 코멘트를 해 주는 경우를 보면, 대부분 내가 연구하던 시절 사회학자라고 무시하고 폄하했던 친구들 수준의 통계 지식만을 갖고 논문을 써 놨다는 느낌이 든다. 반면, Finance 분야에서 그런 논문을 내면 학회에서 폭격을 맞기 전에, 동료 연구자들에게 먼저 비웃음을 산다.

Data “Analysis”와 Data “Science”의 차이점을 놓고 설명을 할 때 항상 마음 속에 떠오르는 것도 위의 두 분야에서 겪는 사건들이다. 의학쪽, 더 나아가 사회학적 통계 방법론을 쓰시는 분들이 아무리 노력해봐야 내 눈엔 “Analysis” 수준에 지나지 않는다. 이걸 “Science”의 영역으로 끌어들이려면 최소한 Toy model (단순한 모델을 학자들이 부르는 방식) 이라도 수학적인 모델을 갖고 입력값이 어떤 side effect과 함께 출력값을 내놓는지 확인할 수 있어야하지 않을까?

 

(데이터를 이용한) 모델링

Reinforcement Learning을 일반에서는 “인공지능”이라고 부른다. 바둑부터 다양한 종류의 게임을 풀어나가는 “지능”을 “학습”하는 것처럼 보이기 때문이다. 기존의 Reinforcement learning은 데이터 입력을 요구했는데, 이제는 기본 지식만 가르쳐주고나면 데이터 입력 없이도 알아서 척척척 Learning을 한다면서, 이제 “데이터”는 “인공지능”에 필요없다고 주장하는 댓글도 달린 걸 봤다.

이쪽 관련 모델링을 공부하신 분들은 알겠지만, State 1 -> State 2로 상태가 바뀌는 확률을 이용한 모델링 작업을 Markov Process라고 부르고, 이 때 참여자 (Agent)의 행동 (Action)이 확률이나 결과값에 영향을 줄 수 있으면 Markov Decision Process라고 부른다. 그 때 확률을 계산하는 방식이 기존의 Reinforcement learning에서는 과거 데이터를 활용했다면, 규칙만 알려주면 “데이터 없이” 스스로 Learning한다는 모델들은 데이터를 생성하는 시뮬레이션을 활용한다. 보통 주식 가격의 범위를 예측하는 (주식 가격을 예측하는게 아니다) 시뮬레이션 모델링을 할 때처럼 단순한 Factor (들)로 만든 모델도 시뮬레이션 필요 숫자가 10억개씩인 경우가 비일비재했었다. 근데, 스타크래프트 같은 게임으로 치면 가능성의 조합은 얼마나 많을까? 저 댓글을 잘 모르는 일반인이 썼다면 그러려니 했을텐데, 혹시나 싶어서 IP를 추적해보니 모교의 어느 연구실이더라. 이런 종류의 시뮬레이션에 필요한 Computational cost의 크기를 전혀 가늠하지 못하는 걸로 봐서 수학, 통계학, 물리학같은 자연대쪽이 아니라 공대쪽 석박 연구실 학생일 것 같은 느낌이 드는데, 이미 공대를 무시하고 폄하하는 글을 너무 많이 써 놨으니 여기까지만 쓴다.

기업들이 우리학교 이름만 보고 학교 연구실에 외주 프로젝트 주는 경우가 많을텐데…. 왜 Data Science 프로젝트들이 수(리통계)학 많이 쓰는 전공들로 가질 않고 공대쪽으로 가는지, 왜 우리나라만 요모양 요꼴인지…..

요즘 Reinforcement Learning을 연구하는 사람들의 숙제는 Game Theory를 어떻게 모델 내재화하느냐다. (애시당초 Game Theory를 이해할 수 있는 수준의 수학 모델링 공부를 하지 않는 공대생들 중심으로 돌아가는 한국의 Data Science 업계가 양적성장만 가능하고 질적성장이 불가능한 이유가 여기에 있다.) 시뮬레이션을 저렇게 무한대의 숫자로 다 하는 것은 아무리 Computing power가 좋아져도 한계가 있기 때문에, 필요한 최소한의 시뮬레이션을 하기 위해서 가능성이 있는 Path들만 뽑아내려는 작업을 한다는 뜻이다. 여태까지 Alpha-Go를 위시한 대부분의 “인공지능”들이 사실은 “컴퓨터 학대”였다는 사실을 인지하고, 이제 좀 더 복잡한 문제들을 풀기 위해서 컴퓨터를 효율적으로 쓸 수 있도록 인간이 문제를 효율적으로 Re-structuring해서 간략화한 계산을 컴퓨터에게 맡긴다고 생각하면 얼추 맞아들어갈 것 같다. (알파고 만들어서 큰 돈 벌었던 데미스 하사비스도 더 이상 꿈꾸는 소리는 못하겠는지 Reinforcement learning 방식으로 일반 인공지능을 만드는건 불가능하다고 인터뷰도 해 놨더라ㅋㅋ)

 

나가며 – Engineers and Analysts are Degrading Science

데이터의 종류마다 필요한 데이터 전처리가 다르고, 활용하는 모델도 달라진다는 이야기를 블로그에서도, 또 수업에서도 여러번 반복한다. 이미지, 자연어 등 데이터 자체가 특정한 체계를 갖추고 있는데, 그 구조가 계층적으로 복잡한 경우에 “딥러닝”이라는 모델이 잘 작동하고, 그 이외에는 괜히 계산 비용만 많이 들고 Overfitting이 생길 수 밖에 없다는 이야기를 여러번 한다. 어떤 모델도 모든 데이터 셋에서 항상 우월한 결과를 가질 수 없다는 머신러닝의 Fundamental theorem을 굳이 복잡한 수식을 이용해 증명하지 않더라도, 몇 번의 데이터 작업에서 “딥러닝”이 무조건적인 해결책이 아니라는 사실쯤은 한두번쯤 겪어 봤을 것이다.

이런 지식은 데이터 모델링을 공부한 사람들에게는 꽤나 상식적인 지식이다. 설령 자기 전공의 모델링에만 집중한 탓에 머신러닝이 적용되는 방식을 잘 몰랐다고해도, 간단한 설명만 들으면 충분히 이해하고 따라올 수 있을 것이다. 반대로, 모델링을 해 본적이 없었던 사람에게 이런 지식은 말 그대로 4차원의 지식일 수 밖에 없다.

앞으로 외부 미팅에서 “데이터 분석”과 (“데이터 엔지니어링”과) “데이터 과학”을 좀 명확하게 구분해주는 분들을 만날 수 있으면 좋겠다.

 


2019년 2월 3일 추가. 오랜만에 가까운 친구랑 연락하는데, “너네 연봉 엄청나게 주면서 ‘데이터 분석가’ 뽑더라?” 라고 하던데, 엄연히 데이터 “사이언티스트”라고 올려놨는데 그런 표현을 들으니 참 듣기가 거북하더라. 혹시나 우리회사 모시게 될 분들이 데이터 “분석가”라는 표현에 기분 안 나쁘셨으면 좋겠다. 워낙 모델러가 없는 시장, 석/박 교육 좀 받았다는 사람들이 할 수 있는 일이 겨우 “분석가” 밖에 안 되는 한국 시장의 현실이 좀 개탄스러울 뿐이다. 모델러를 흔히 만날 수 있는 시장, 그래서 친구들에게 “분석가 뽑더라?”는 질문을 안 받을 수 있는 시장은 언제쯤 만들 수 있을까?

You may also like...

37 Responses

  1. Myghal 댓글:

    chemist, physicist/화학자, 물리학자 처럼 data scientist라는 말 보다는 applied statistician/응용통계학자 같은 말을 사용하면 사람들의 인식이 더 바뀔 수 있지 않을까라는 생각이 듭니다.

    • Keith 댓글:

      Myghal님의 의견에 공감합니다만, 같은 맥락에서 Data를 다루는 가장 관련된 학문이 통계학이고, Data Science라는 이름 안에 Engineering이라는 단어가 하나도 없는데도 불구하고 이걸 공학으로 생각하는 사람들이 널리 퍼져있는 부분은 어떻게 설명할 수 있을까요? 분명히 예전에 우리가 알고 있던 통계학은 아닌데, 엄밀히 따지자면 계산통계학을 Multi-pattern data에 적용하는 통계학의 sub-field라고 지칭하는게 가장 맞을 것 같은데, 단순히 Applied Stat이라고 이름을 붙이는게 합당한지도 잘 모르겠습니다.

      • Myghal 댓글:

        제가 외국 사정은 잘 몰라서 한국에 한정해서 이야기를 하면
        아무래도 처음에 막 빅데이터 붐이 일었을 때 이쪽 분야에 있지 않은 사람들에게는 컴퓨터 코드를 쳐서 일을 하는게 제일 먼저 보이니까 그렇게 인식이 굳혀진게 아닐까 싶어요.
        그런 와중에 공대쪽 기반으로 있던 사람들이 마구잡이로 학원 수업, 책을 만드면서 ‘데이터 사이언스’라는 말을 일종의 마케팅 용어처럼 사용했고 요 몇년간 계속 유입되는 사람들은 그 사람들이 만든 수업과 책을 보면서 엔지니어링과 사이언스를 구분하지 못하게 되지 않았나…라고 생각합니다.

        Applied stat에 대한 생각은 전적으로 keith님이 옳다고 생각합니다. 너무 넓은 개념이죠 Applied stat은..

        • Keith 댓글:

          Applied Stat 부분에 대한 제 논리에 공감해주셔서 감사합니다.
          한국 사정을 듣고보니 참 어이가 없네요. 지난 1년 반동안 이쪽 분야 관계자(?)라고 주장하는 분들 만나면서 공대생 카르텔이 너무 심한 것 같다는 생각을 계속 했었는데, 연장선상에 있는 것 같습니다. 하루빨리 수리통계학 카르텔이 생겨서 공대생 카르텔을 몰아내거나, 최소한 공대생 카르텔이 정신차리고 교육이라도 되었으면 좋겠네요.

  2. ming 댓글:

    학부에서 생명공학이랑 통계학 전공하고 지금은 의학 공부를 하고 있는 학생입니다. 이전에 다니던 대학에서 연구실 인턴을 할 때 의학 쪽 교수님들이 머신러닝에 관심이 있다고 찾아오면 항상 ‘이 연구실에 이런 종류의 분석을 할 수 있다던데 어디 한번 우리 데이터를 그런 분석 방법으로 분석해서 뭔가 좀 찾아내달라’ 는 식으로 얘기를 하시더라고요. 근데 제가 인턴하던 교수님은 또 그런 식으로 하라고 지도하시고… 하다보니 전공수업에서 들은 것과는 괴리가 있고 논문을 위한 논문을 만드는 것 같아 때려치웠던 기억이 나네요. 의학을 공부하게 될 기회를 얻게 되었는데 이 블로그 글 보면서 그때 경험했던 의대 교수들처럼 되지는 말아야지라고 생각하며 혼자 공부하고 있습니다.

    • Keith 댓글:

      의대 교수님들 상당수가 여기와서 제 글을 보시는 걸 알아서 조심스럽기는 합니다만, 솔직히 몰라도 너무 모르고 이걸 공대애들처럼 쉽게 가볍게 보고 있다는 느낌을 너무 많이 받습니다 (의사들도 “의부심” 쩔던데, 왜 개발자나 의사나 자기 분야 아닌데서까지 부심이 쩌는지ㅋㅋㅋ)
      사회학과 애들 자꾸 욕하기 싫은데, 해석이랑 수리통계 들으면서 학부 3-4학년 때 죽을 것 같이 힘들 때 통계 어렵다고 그러면 “그게 왜?”라는 표정 짓던 그 모습이 너무 오버랩이 되네요. 경영통계가 통계의 전부인줄 아는 경영학과 애들도 마찬가지겠죠.
      ming님도 연구하시는데 고민이 많겠지만, 모쪼록 원하시는 Line으로 성과가 있었으면 좋겠습니다. 건투를 빕니다.

      • ming 댓글:

        사실 의대 커리큘럼이 너무 빡세서 ‘내 주제에 학교 공부하면서 통계학 독학은 또 어떻게 하나… 그냥 학교 공부만 집중할까’ 라는 생각도 자주 했는데요, 평소 굉장히 똑똑하다고 생각하고 있던 분께 응원의 말도 들으니 갑자기 신이 나요 ㅋㅋㅋ 감사합니다! keith님 같은 분들 입장에서도 말 좀 통하는 그런 의사가 되어 보겠습니다.

  3. 홍태화 댓글:

    미국 취업 사이트내 Job responsibilities, minimum requirement, preferred 만 보더라도 아래 3가지 직업에 대한 구분이 어느 정도 되는 것 같아요. Data Engineer같은 경우는 Data management 와 processing을 강조하는 직업이고, Data Analyst는 Keith 대표님께서 이전에 언급하셨던 것과 같이 인문학적 소양(보스 성격에 대한 이해ㅎ)을 갖추고 Reporting을 어떻게 효과적으로 할 것 인가에 중점을 두고 있죠. 그래서 Data Analyst에 관한 Job Description에서 Tableau, Power BI, 혹은 Looker같은 visualization tools을 얼마나 잘 다루어야 되는지 기술되어 있구요.

  4. 지나가는사람 댓글:

    요점이 뭐죠..?

  5. ted 댓글:

    의학계열 종사자로써 대표님 의견에 100% 공감합니다.
    지난 11월 데이터사이언스 메인강좌도 수강하였고, 그 이후로 많은 변화를 만들기 위해 노력 중에 있습니다.
    항상 따끔한 지적 감사합니다ㅎㅎ

  6. danny 댓글:

    안녕하세요 학부에서 통계를 전공하고 지금은 BI / Accounting Analyst로 7개월째 일하고있는 초짜 회사원입니다. 저는 학부때에 컴퓨터 사이언스를 부전공으로 하였고 사람들이 말로만하던 “데이터 사이언스”, “빅데이터”, 등등 관심이 많아 4학년때에 Data Analyst 나 Data Scientist로 커리어를 찾아보았지만 저의 노력과는 달리 대학원이상을 뽑는 회사가 많더라구요. 그래서 다행이도 그보다는 낮은 Accounting Analyst (B.I)쪽에서 accounting은 잘 모르지만 매일 간단한 SQL 이랑 Excel Cell 업데이트하면서 하루하루를 보냅니다.

    제가 학부였을때에는 Python 과 R 을 오고가면서 Modeling 하고, test/train을 돌렸었는데 지금은 예상과는 다르게 매일 지루한 돈관리/SQL에서 데이터 뽑기정도만 하고있어 제 성에 안차네요. 일하는 도중 어떻게 하다가 Keith님의 블로그를 접했는데 모든 article을 읽으면서저의 Data Scientist 와 Data Analyst 의 고정관념이 바꼈고 다시 공부하고싶은 마음이 생겨서 (돈도 더 벌고싶습니다ㅋㅋㅋ) Master in Computer Science – Data Science concentration 이라는 프로그램을 준비하고있습니다. 다행이도 여러 article을 읽어보면 통계의 중요성이나오는데 제가 학부때 배웠던게 나와서 (그래도 까먹었지만요) 조금은 위안이 되고 수(통계수리)학이 fundamental 이라는걸 remind 합니다.

    여기있는 여러 좋은글 참고하고 열심히 공부해서 대학원에서 데이터 사이언스의 현실을 한번 맛보고 싶네요 ㅎㅎ 항상 좋은글 감사하구요 앞으로도 많이 기대하겠습니다.

  7. 감사 댓글:

    인녕하세요. 최근에 keith 님 글 너무 재미잇게 보고있습니다. 다름이 이니라 저도 데이터 사이언스에 관심이 생겨서 이쪽으로 진로를 고민하는 학생입니다. 그런데 요지는 선생님이 중요시하는 수학과 통계학에대한 심오한 공부는 너무 힘들것 같고 공부에 그리 큰 흥미는 없기때문에 단순히 기술적인 부분만 배우고 회사에 들어가서 그저 그런 일을 하는게 목표있니다.(핳 전 큰사람이 되고싶지 읺습니다.) 그래서 어떻게 커리어를 쌓고 준비해야할까 고민하던중에 이번에 연세대에서 digital analytics 석사 과정을 개설했더라고요. 찾아보니 “인문사회학, 이학 및 공학 등 다양한 분야에서 대학을 졸업한 학생들에게 컴퓨터 프로그래밍 기초부터 최신 빅데이터/인공지능 분석기술에 대한 다양한 이론을 교육하고 실용적 능력을 배양하기 위해 집중화된 실습과 프로젝트 수행을 통해 예리한 통찰력과 풍부한 창의력을 겸비한 최고의 실무형 데이터 과학자를 양성한다” 라고 교육 목표를 쓰고 ‘데이터 마이닝’ ‘시각화’ ‘전처리’ ‘인공지능’ ‘딥러닝’ ‘자연어처리’ 등의 개설 강의가 있는데 …
    음 이 과정을 마치는 것이 제가 어떤 의미가 있을지 감이 인잡혀서 질문드립니다. 짧은 석사괴정만으로도 대기업에 들어가서 잘 살수 있을까요..?

  8. Jane 댓글:

    1. 저도 윗분이 말씀하신 digital analytics 대학원을 생각하고 있었는데 대표님 글을 읽어가면서 기초적인 통계나 수학을 pre-requirement 지원조건으로도 두지 않고 심지어 해당 과목을 개설하지 않은 전공에 가도되는걸까 싶어 회의가 많이 듭니다.

    저는 사실 인문학부에 재학중이고 수리도 통계도 해본적이 없어서 처음에는 그런 과목이 없는 해당 대학원이 너무 마음에 들었는데(배우기 싫은 게으름때문에..반성합니다)) data scientist를 꿈꾸며 pabii블로그를 보는 지금은 조금 망설여진달까요…

    2. 항상 왜 전공이름을 digital ‘science’가 아니라 ‘analysis’로 했을까 싶었는데 대표님 글을 읽고나니 왜그런지 알겠네요 그래도 교수님들께서 수리도 통계도 없는 과정에 양심상(?) Science를 붙이진 못하셨..던거 같네요…ㅎㅎㅎㅎ

    3. 그래도 대표님 덕에 기초통계학이랑 미적 공부하고 여름방학 내로 통계방법론 선대 회귀분석까지 수강하려합니다. 그리고 공부해서 잘 맞으면 남은 한학기 준비해서 해당 대학원 말고 아예 통계 쪽 대학원을 가든지 생각해보려구요.

    4. 이렇게 공부해보고 난 통계 or 수학머리가 없구나! 싶으면 데이터 분석가로 아예 꿈을 돌리고 디지털 애널리틱스 대학원을 가든지 해야겠습니다. 데이터 사이언티스트가 아니라요 ㅎㅎ

    항상 잘 읽고있습니다. 감사합니다.

  9. Phil 댓글:

    ㅋㅋㅋKeith님께서 꾸준한 블로그 활동을 통해서 일관된 어떠한 주장을 하고 있는데, 아직 일반인들은, 심지어는 이 글을 읽는 사람들까지도 캐치해내지 못한 것 같네요. 고생 많으십니다. 앞으로도 힘내주세요 재밌게 읽고 있습니다~

  10. RyanC 댓글:

    좋은 글 감사합니다. 제가 관심이 있어 말씀해주신 박사님의 논문을 결론만 읽어보았는데 아래 말이 직관적으로 이해가 안가서 글을 남겨봅니다.
    “In spite of the higher tail risk exposure, we find that benchmarking does not affect
    the long-term performance of our investors. All investors survive in the long run if at least one stock has positive expected dividend rate, and the most patient investor dominates in terms of relative wealth. Still, benchmarking is welfare reducing for the retail investor ex ante, and is only welfare increasing for the impatient institutional investor.” (The Systemic Effects of Benchmarking)
    그러니까 성급한 투자자들이 괜히 성과에 영향도 없는데 벤치마킹을 한다 뭐 이렇게 이해했습니다. 그런데 서술 중에 한 주라도 배당이 있으면 모든 투자자가 살아남는다고 되어있는데, 인플레이션율이나 (투자를 위해 자금조달한) 자본비용보다 배당수익률이 낮으면 굶어죽지 않을까 하는 생각이 듭니다. 잘못 이해했다면 송구합니다. 아 그리고, 저는 데이터로 실증적으로 검증이 되지 않은 수학적 모형을 푸는 것 자체가 어찌하여 좋은지 그 의문이 최근에 슬몃 들었습니다.
    이렇게 사업을 이끌어가신다는 것 정말 대단하시고 앞으로도 건승하시길 기원합니다.

    • Keith 댓글:

      답답한 마음에 뭐라고 한참 설명을 썼는데, 질문하시는 맥락을 보아하니 Portfolio Choice 관련된 Literature를 하나도 모르는 사람인거 같아서, General Equilibrium과 Dividend의 역할, Risk type 등등 이것저것 다 설명하려니 너무 초장문의 댓글이 될 것 같아서 그냥 무시하렵니다. 기분 나쁘다는거 충분히 이해하는데, 저도 Literature 하나도 모르는 사람이 제멋대로의 뜬금없는 해석으로 제 필생의 내공을 담은 논문에 왈가왈부하는거 굉장히 기분 나쁘고, 굳이 그런 분께 초장문으로 설명해야할 이유가 없다고 생각합니다.

      적어도 같은 문장에서 2008년 금융위기를 일으켰던 월스트릿의 일부 투자자 그룹이 사회악이라는 결론을 도출해낼 수 있는 내공을 갖췄다는 판단이 설 때 대화를 나누겠습니다.

      참고로, 그 논문은 보스턴의 이름있는 연구소에서 $47,800 지원금을 받았고, Finance와 Math쪽 Top 학회들에서 초청받은 논문이고, 나중에 백악관과 FRB가 금융규제 정책 결정하는데 White Paper 중 하나로 쓰였습니다. 당신이 가치를 못 알아본다는 말을 함부로 내뱉을 때는 자신의 지식 수준을 한번쯤은 돌이켜보실 것을 권유드립니다.

      • RyanC 댓글:

        좋은 지적 감사합니다.

        • emily26 댓글:

          세상에나.
          RyanC님, 젤 양반이세요.~~
          젠틀한 마무리 멘트에 참 감탄하고 갑니다.

          전 정말 어떤 댓글이 달릴지 참 기다렸는데 말이죠..
          보통인의 정서로는 참 읽히기 힘든 문자들이네요 🙂

          이번 댓글을 통해서 참 많은 것들을 느끼게 된 것 같습니다.
          지문보다 더 선명하고, 내뱉어진 말보다 더 또렷하게.
          너무 분명해서 소름돋을 정도에요.(잊지 말아야지!)

          똑똑한 분들에게는
          한 번 즈음은 타인의 여백을 이해하고, 공감해주는 것이
          참으로 어려운 일인가 봅니다. (from 논문읽던 ㅂㅅ emily)

      • 지나가던 1인 댓글:

        이거 뭐라고 답변 달릴지 엄청 궁금했는데, 대표님 정말 성깔(?)있는 아카데믹이셨겠구나 싶습니다 ㅋㅋㅋ

        2 risky 1 riskless assets + 2 agents economy로 financial mkt general equlibrium 찾으신거죠? 아마 기습 대폭락 잡아낼려고 jump diffusion을 상징하는 poisson 넣으신것 같네요. 자질구질한 셋팅은 저도 꼼꼼히 읽질 않아 잘 기억이 안 나지만, 어쨌건 general equilibrium을 continuous time 모델로 풀어내는 것도 쉽지 않고, 거기에 jump risk 넣는건 closed form 떨어지나요? discrete time은 봤어도 continuous time은 한번도 못 봤었는데 고민 많으셨겠어요. 억지로 general equilibrium으로 풀어내신건 welfare effect 설명해서 benchmarking 하는 risky 투자자가 personal welfare를 위해서 social welfare를 까먹는다는걸 보여주실려고 한거 맞나요? 저도 논문 읽다보니 critic이 되어서 ex-post welfare loss 못 잡아내신게 눈에 띕니다 ㅎㅎ

        암튼 이런 논문을 저런 ㅂㅅ들한테 평가받는다는게 어이가 없으시겠지만 그냥 웃어넘겨야될 것 같습니다.

        • Keith 댓글:

          부족함이 많은 논문에 핵심적인 지적까지 해주셔서 너무 감사드립니다.
          실제로 Closed form 안 떨어지는 부분이랑 ex-post로 welfare loss 못 잡아내는게 그 논문에서 제일 맘에 걸리는 지점들이었습니다.

          이렇게 내용을 제대로 이해하고 문제점도 정확하게 잡아내주시는 분께 제가 성깔(?)을 부릴 이유가 있겠습니까…
          그저 실력 있으신 분께서 이런 부족한 블로그에 찾아와주셔서 감사드릴 따름입니다.

      • Myghal 댓글:

        음… 물론 다른 분의 박사 논문을 아무 배경 지식이 없는 상태에서 그냥 묻는 거는 조금 당황스럽긴 한데(말씀하신 데로 어디서부터 설명해야 할지 감이 안 잡히니까요) 그런데 그게 ‘지식수준’에서부터 ‘ㅂㅅ’ 소리까지 들을만한 일인지 갸우뚱하네요.
        저 댓글 단 사람이 keith 님 논문에 대해서 무시하거나 비꼬거나 혹은 예의 없이 단 것처럼 보이지도 않는데 말이죠.

        제가 맥락 파악을 못하는 건지…

        • Myghal 댓글:

          혹시나 제말에 오해가 있을까봐 추가로 댓글을 답니다.
          저도 저 분이 저런식으로 맥락없이 댓글로 질문한 걸 잘했다고 생각하지 않습니다. Keith님이 말씀하신대로 저것을 처음부터 끝까지 다 설명할 필요도 절대 없다고 생각하고요.
          그런데 그 다음에 굳이 댓글 단 사람한테 ‘당신이 가치를 못 알아본다는 말을 함부로 내뱉을 때는 자신의 지식 수준을 한번쯤은 돌이켜보실 것을 권유드립니다.’ 이런 말을 하는거는 흠…

          • Keith 댓글:

            저 분께서 속어까지 쓰셔서 저도 좀 불편합니다만, 남의 논문을 실컷 황당한 맥락으로 이해해놓고 댓글 마무리가 “아, 그리고 저는, 실증적으로 검증되지 않은…”이라고 어깃장까지 놨으면 좀 꾸중들을 각오해야되지 않나요? 전반적인 맥락이 ‘니 논문 결론보니 세상에 하나도 도움 안 되는 내용을 수식만 끄적거려놨네?’ 정도 급으로 들리는데요? 저 위에 RyanC님 코멘트는, 본인의 의도가 어땠을지 모르지만 적어도 제 입장에서는, 채만식의 “치숙”에 비견될만한 코멘트라고 생각합니다. 지나가던 1인님 코멘트는, 적어도 제 입장에서는 큰 맥락을 잡는 해설에 감사한 마음이 더 큽니다.

        • emily26 댓글:

          저는 정말이지 myghal님과 같은 댓글을 하루종일 기다렸습니다.
          한 평생, 혹은 혼신을 다해 연구한 연구자에게 역린이 되는 부분은 있겠지만
          말씀 속에서 어떠한 비아냥도 읽을 수가 없었습니다.

          ‘ㅂㅅ’이라는 단어에 진심으로 분노합니다.
          ..이 블로그를 너무 애독했던 것 같습니다, 형부랑도 같이 공유하고 그랬는데. 이젠 좀 생각해봐야할 것 같아요, 여긴 빗장걸기 문화가 좀 강한 것 같습니다.

        • Traveler 댓글:

          제가 몇일전 회의를 하면서 프로젝트에 관련되서 방법론을 하나 제안했습니다. 그게 Image quality assement에 관련해서 Noise, blurring 그리고 light condition을 한꺼번에 quantify할 수 있는 방법이었는데, 개발자 출신인 테크 리드왈 “그건 너무 ambiguous하지 않냐.”라고 해서 “이 방법론은 내가 박사 논문 쓸때 이미 실험해서 저널 페이퍼로 냈는데.”라고 하니 “그럼 한번 해 보던가.”이러고 한발 물러서더군요. 테크 리드는 참고로 이미지나 머신 러닝에 대한 백그라운드가 전혀 없습니다. 제가 무슨 이야기를 하던 전혀 알아듣지를 못하거든요. 그런 사람이 제 방법론에 대해 ambiguous하다고 하면 저로선 더 이상 이야기 할 필요성을 못 느끼게 되죠.
          댓글들의 표현이 과격하긴 하지만 적어도 아카데믹 분야에서 타인의 성과물에 대한 질문이나 분석을 하고 싶으면 먼저 그에 맞는 지식을 갖춰야 하지 않나 싶네요. 저건 타인의 여백이나 공감과는 별 상관이 없는 부분입니다. 학술적 토론이나 Q&A는 결과물을 만들어낸 저자만큼이나 많은 시간을 들여 그 분야를 연구한 사람들 사이에서나 가능한 이야기죠.
          사실 저런 부분에서 분야 전문가들이 frustration을 많이 느낍니다. 일반인을 상대로 이론을 쉽게 잘 풀어내는 사람들이 소위 말하는 컨설팅을 잘하는 거겠죠.

          • Traveler 댓글:

            아 저도 댓글의 표현들이 적당하다고 생각하는건 아닙니다만, 저도 거의 매일 겪는 일이라 그전에 왜 저런식의 반응이 나오는지는 이해한다는 뜻으로 쓴겁니다.

          • Keith 댓글:

            먼저 감정을 못 추스린 제 탓입니다. 핵심을 잡는 경험담 공유해주셔서 정말 감사드립니다.
            물의를 일으킨 점 고개숙여 사과드립니다.

          • emily26 댓글:

            Traveler님 말씀에 저도 일부분 공감합니다.
            뛰어난 인재인 분들이, 일반인들의 반응 때문에 심적으로 힘드시고 어려움을 느끼시는 부분.(제가 아니라;; 저희 형부 케이스 보면서 많이 느껴요.저희 형부가…엘리트여서.ㅠ)

            하지만, 누군가가
            뭔가 화두를 던졌거나 질문을 했다는 것은,
            최소한 그에 대한 흥미나 호기심이 있다는 것일텐데
            내가 전혀 지식이 없다는 이유 하나만으로 원천봉쇄 + 그렇게 과격한 표현을 들어야만 할까? 라는 생각이 들더군요.
            보통은 지적호기심에서 공부도, 연구도 출발하지 않던가요?
            (저는 글 읽으면서 너무 미안해하면서, 이해하고 싶어하는 마음이 느껴졌었거든요. 그래서 저와 같은 마음인 분도 여기 또 계셨구나 했었습니다. 정말~ 댓글 기다렸습니다. 제가 이해 못 하는 부분이 많아서.)

            저도 Traveler님 말씀 하나하나 읽으며 반성합니다.
            아카데믹 분야에서 분석을 원한다면, 저 또한 기본 지식은 갖춰야하는 게 예의라는 말씀에 동의해요.
            아직은 나이만큼 경험과 배움이 깊지 못해 감정이 앞섰던 것 같습니다.
            Traveler님께 감사드립니다.

  11. 반쪽짜리경제학도 댓글:

    Myghal님이나 emily26님이 못 보고 있으신거 아닌가요? 제가 읽어봐도 keith님 논문 비웃는것 같은 댓글인데요?

    저도 저런 논문들이 무슨 이야기하는지 모르니까 내용은 모르겠습니다만, 지나가던 1인님 댓글을 보니 RyanC님이 일단 완전히 잘못 이해하신 건 알겠고, 근데 사족처럼 “아 그리고, 저는 데이터로 실증적으로 검증이 되지않은 수학적 모형을 푸는 것 자체가 어찌하여 좋은지~” 라고 말을 붙여놨는데, 저도 한국말 쓰는 화자입니다만 아무리봐도 놀리는 말이에요.

    Keith님 논문에서 나온 결론은 인플레이션이나 자본 비용을 하나도 고려하지 않은 수학식만 있는 탁상공론이라고 어그로 끌어놓은거 아닌가요?

    해설해놓으신거 보면 인플레랑 자본비용 같은게 나와야되는 논문도 아니고, 특정 투자자 집단이 사회악인 부분을 증명하려고 수학 모델링를 활용했다는게 학부 경제학만 한 제 눈에도 보이는데, 저런 평가에 어그로까지 끌리면 기분좋을 사람이 누가 있을까요?

    제가 다 기분이 나빠지는데, 의도를 곡해당하고 무시까지 당한 논문 저자가 감정이 안 상한다면 거짓말이겠죠.

    덧, 아무리 그래도 이런 진중한 블로그에서 ㅂㅅ은 좀 심한단어 같습니다

    • MJ 댓글:

      실증적으로 검정되지 않은 어쩌고라는 저 댓글이 작성자의 실제 의도는 모르겠지만 비아냥으로 보인다에 한 표 던지고 갑니다

      그 댓글에 불만 표현했다고 keith님 멍석말이 당하실뻔 했는데 찝어내고 반박해주신 분들께 감사드립니다. 잘 아는 분이 공격해도 날을 안 세우기 쉽잖은데 모르면서 그러는건 정말 보기 불편했습니다. 괜히 위축되지 마시고 앞으로도 좋은 글 쓰시라고 응원하는 마음을 담아 댓글 하나 남기고 갑니다

  12. 반쪽짜리경제학도 댓글:

    이게 keith님이 사과하실 내용인가요? 논문 소화할 능력도 안 되면서 자존심을 긁는 댓글달았던 RyanC라는 분과, 저 댓글에 담긴 맥락을 파악못한 Myghal님 emily26님이 평지풍파만 일으킨거 아닌가요? 굳이 사과를 해야한다면 논문의 의도를 파악 못한 분이나 댓글의 의도를 파악 못한 분들이 하셔야되는거 아닌가요?

    첨부터 RyanC라는 분 댓글을 무시했음 더 좋았겠지만, 어지간히 단순한 질문들 (교과서, 공부방향, 정보 어디있나 같은거요) 아니면 항상 친절하게 답변하시면서 블로그 운영하는 keith님 성향상 그냥 넘어가기는 어려웠을 것 같습니다. 더더군다나 본인 논문 이야기니까요. 저같음 저런 댓글은 삭제해버렸을 것 같은데, 순수한 격한 감정을 솔직하게 보여주시는 모습이 한편으론 존경스럽습니다. 그렇게 당당할 수 있는 모습이 멋있네요 ^___^

    전 데이터 사이언스 잘 모르지만 그래도 여기 글은 재밌게 보고 있습니다. 유시민 작가님 한겨레에 기고하시던 1990년대 후반의 날카로움이 느껴질만큼 멋진 글들이에요. 이런 사건 때문에 keith님 글의 날카로움에 손상을 받지 않았으면해서 따로 댓글 하나를 더 남깁니다.

    • 지나가던 1인 댓글:

      우선 과격한 단어를 사용해 물의를 일으킨 점 사과드립니다

      논문보고 사족을 좀 더 붙이면, 여기 대표님은 정상적인 경제학 박사 과정의 미시, 거시, 계량을 듣고 Financial Economics로 방향을 잡고 연구하셨던 분 같고 (저도 여기까지는 지식의 창을 공유합니다), 그 이후에 (잘못가셨다는 그 학교에서) 이쪽분야에서 주류 방법론은 아닌 Continuous Time Asset Pricing을 배우신 것 같습니다. Stochastic Calculus를 이용한 continuous time 논문이 나오기는 합니다만, financial econ에서 주류는 discrete time이라고 생각해요. 일단 여기서 경제학과 살짝 멀어져 있으신데, 거기다 jump diffusion이라는 정말 수학하는 애들이나 쓸법한 model variation이 추가됩니다. 아마 MIT나 U Chicago 의 Finance 교수님 일부가 저런 방법론을 쓰신적이 있을 겁니다. 근데, 저런 jump diffusion을 미분해서 elasticity를 구해놨네요. 이건 U Chicago에 노벨경제학상 받으신 Hansen 교수님이 수업시간에만 쓰시는 건 줄 알았습니다. jump는 미분 불가능점일텐데 그걸 어떻게 미분하는건지 항상 궁금했는데, 논문봐도 여전히 모르겠습니다ㅠㅠ 그런 elasticity만 구하는 것도 모자라서 그걸 general equilibrium이라는 경제학 틀에 맞춰넣으려면 도대체 수학과 경제학을 얼마나 깊게 이해하고 있으신 걸까요? discrete으로 partial equilibrium 논문하나 쓰기도 벅찬데..

      참고로 그 논문의 dividend는 정말 주식에서 배당이라고 보기보단, general equilibrium을 계산하는 도구적인 맥락이 더 강합니다. 이런걸 저같은 2류가 커멘트하는게 맞는지는 모르겠습니다만…

      쉽게 정리하면, 경제학했다던 사람이 참 상상도 못했던 수학들 다 배워서 자기 논문에 써 놨구나 싶어요. 거기다 결과값을 시뮬레이션하는 계산법이 또 저는 처음보는 거라서 뭔지 말을 못 하겠습니다. 아마 그런 계산법이 요새 머신러닝하시는데 일부 활용되고 있는 것 같네요.

      학창시절에 수학 공부 안 하셨다는데 아무리봐도 엄청난 수학을 어마어마하게 공부하신 분이에요. 이런 분이 쓰신 논문에 저런 조잡한 질문과 가치를 모르겠다는 투의 폄하하는 발언하시는 분께 제가 울컥하다보니 과격한 표현이 나왔다고 변명 남기고 갑니다.

      잘 모르면서 질문할 때는 최소한 질문하는 태도와 기초지식은 갖춰야하지 않을까 싶습니다. 대표님 왜 학자로 안 남으셨는지 모르겠습니다만, 정말 존경합니다.

      • Keith 댓글:

        Malliavin Calculus 찾아보시면 됩니다. Financial Math 하는 사람들 사이에서는 흔히 쓰는 도구에요. 경제학쪽 파이낸스에서 가르치는 분이 있는 줄은 처음 알았습니다.
        반쪽짜리경제학도 님과 더불어 제 감정을 대변하는 장문의 댓글을 달아주셔서 정말 감사합니다만, 수학적으로 딱히 Elegant한 논문이라고 생각하지 않으니 논문에 과도한 칭찬은 거둬주시면 좋겠습니다. 저처럼 Mathematical Finance 박사 전공을 하신 분들 눈엔 경제학적으로 General Equilibrium 풀어내는 부분을 제외하면 대수롭지 않은 논문일꺼라고 생각합니다.

        • 지나가던 1인 댓글:

          말씀주신 Malliavin calculus 뒤져보니 Quant 수학 주제네요. 문득 대표님 박사시절 전공이 Mathematical Finance였다는거와 그 학교 좀 특이(?)했던게 떠올라서 이것저것 뒤져봤습니다. 아마 박사 프로그램 잘못(?) 갔다고 하시는게 Financial econ하려는데 수학 저널이랑 공학 저널에 논문 내는 교수들 있는 과에 갔던 부분 말씀하시는 거 같은데 맞을까요? 왜 그런 처음보는 수학과 계산법이 들어간 논문을 쓰셨는지, 왜 학계에 안 남으셨는지, 왜 머신러닝을 이렇게 구체적으로 이해하고 있으신지 좀 이해가 될 것 같습니다. 전 그냥 제가 만지작거리고 있는 partial equilibrium이나 풀어야겠네요.

          • Keith 댓글:

            하하하 (Financial) Economist가 되려고 했었는데, 본의 아니게 Mathematician의 길을 걸어야했었습니다.

댓글 남기기