기본 콘텐츠로 건너뛰기

통계의 힘 - 빅데이터를 지배하는


나에게 이 책을 읽으라고 권고하는 데 거부할 힘이 없었다. 예전에도 이 책에 대한 리뷰를 읽고 기억은 했는데 잊고 있다 이번에 권고를 받아 무조건 읽었다. 내 경우에 누가 읽어보라고 하여 읽지는 않는다. 읽은 책인 경우도 많고 다른 책을 통해 충분히 비슷한 내용을 알고 있어 꼭 읽어야 필요성을 느끼지 못할 때도 있다. 그런데, '시장을 읽는 눈' 블로그를 운영하는 채훈아빠님이 내가 통계책을 읽는걸 보고 직접 추천하시니 즉시 읽게 되었다.

내가 믿고 추천받는 사람들이 몇 있다. 나보다 더 대단한 사람이 읽고 좋다고 한 책이라 어지간하면 기억했다가 읽도록 한다. 그만큼 다독을 통해 골르고 골라 좋다고 추천하는 것이라 후회한 적이 없다. 그런 책이 바로 <통계의 힘>이다. 통계는 예전부터 여러 책을 통해 접했다. 저자들이 직접 통계에 대한 자세한 설명을 한 것이 아니라 이미 통계낸 내용을 근거로 알려준 것이라 잘 받아먹기만 하면 되었다. 여러 용어들을 몰라도 읽고 이해하는데 지장은 없었다.

지금까지 직접 통계를 내고 데이터 분석을 한 적은 거의 없다. 한 때 엑셀을 갖고 숫자 만들고 그래프나 표를 만든 적도 있고 주식 투자를 위해 10년 치 데이터를 다 입력한 후 적정 주가를 산출한 적도 있는데 참고할 사항이지 중요한 것은 아니라는 것을 알고서는 소홀히 했다. 늘 직접 제가 데이터를 가공하고 싶다는 생각은 있었지만 남들이 올린 데이터나 보는데 만족했다. 여러 책을 읽으며 점점 빅 데이터를 통한 통계로 분석하는 것을 보며 조금씩 필요성을 느꼈다.

굳이 내가 분석할 필요는 없어도 시중에 나와 있는 데이터를 제대로 분석할 줄은 알아야 한다는 필요성을 느껴 통계관련 책을 읽고 있는 중이다. 역시나 용어가 낯설다. 분석하는 방법은 그동안 접한 것으로 대략은 알겠지만 보다 깊히 들어가니 모르는 내용이 더 많다. 엑셀이 최고라고 하는데 R이라는 프로그램도 있다는 것을 알고 서점에서 얼핏 봤지만 우선 통계에 대한 기본적인 정보부터 익히고 서서히 접근해야 할 듯 하다. 분석 툴을 할 줄도 모르고 분석방법만 알려고 한다는 것이 말이 안 될 수도 있다.

정말로 다행인 점은 <통계의 힘>은 어렵지 않다. 내가 원하는 분석하는 방법에 대해 알려주는 책이라 더욱 유용했다. 어떤 식으로 통계를 해석해야 하는지 통계의 역사를 통해 하나씩 하나씩 껍질 벗겨내듯이 알려준다. 테이터를 분석할 때는 다음 세 가지를 꼭 기억해야 한다.

1. 어떤 요인을 변화시켜야 이익이 향상될까?
2. 그런 변화를 일이키는 행동이 실제로 가능한가?
3. 그에 따르는 비용이 이익을 상회할까?

아무리 통계를 통해 무엇인가 의미를 찾을 수 있어도 투입 비용 대비 이익을 볼 수 없다면 쓸데없는 시간 낭비가 된다. 그런 점에서 세 가지를 기억하며 분석을 해야 한다. 아무리 빅데이터를 통해 무엇인가 자료가 나왔다고 해도 실제로는 아무런 의미가 없을 수 있다. 분석할 줄 모르니 의미가 없는데도 의미로 생각하고 실행하면 빅 데이터를 통한 분석후 실행을 해도 아무런 변화를 느끼지 못한다.
데이터를 다루는 법에서 가장 중요한 것이 '임의화 비교 실험'이다. 인간이 제어할 수 있는 그 무엇이라도 인과관계를 분석할 수 있기 때문에 중요하다. 이를 해낸 장본인은 로널드 A. 피셔다. 그는 어느 부인이 '홍차를 먼저 넣은 밀크티'인지 '밀크티를 먼저 넣은 홍차'인지 알 수 있다고 말하자 사실인지 여부를 과학적으로 밝혔다. 두 가지 방식의 밀크티를 임의(무작위)로 마시게 한 후 어느 정도 맞히는지 검증했다. 놀랍게도 부인은 모두 맞혔다. 10번 모두 맞혔다면 확률이 0.1%로 식별 능력이 검증된다.

A/B 테스트는 두 종류를 비교해서 어떤 쪽이 더 높거나 좋은지 실험하는 것이다. 좋은 쪽을 다시 또 A/B로 나눠 비교실험한다. 이런 실험으로 의미있는 분석과 결과가 도출된다. 임의라는 표현은 '적당히' '대충'이 아니라 무작위다. 인간의 의사가 포함되지 않도록 확률적으로 분석해야 한다. 엑셀 같은 경우 =rand( )처럼 말이다. 이 개념은 굳이 통계로 받아들이지 않아도 자신의 사업에 적용한다면 큰 효과를 볼 수 있다.

구할 수 있는 모든 데이터의 관련성을 분석하고 결과를 예측하는데 있어 다음 도표를 참고하면 된다.(다만 표 내용을 알아야 한다는 어려움이)


 분석측(설명변수)
 두 그룹간의 비교
다그룹 간의 비교 
연속값의 크기로 비교 
복수의 요인으로 동시에 비교
 비교하고 싶은 것
(반응변수)
연속값 
평균값의 차이를 t검정 
평균값의 차이를 분산분석 
회귀분석 
다중회귀분석 
있음/없음 등의 두 값 
 분할표의 기술과 카이제곱검정
로지스틱 회귀 

A 학교와 B학교 같은 학년 학생에게 똑같은 모의고사를 했다.
남학생끼리 비교하니 A학교의 평균점수가 B학교보다 5점 높다.
여학생끼리 비교하니 A학교의 평균점수가 B학교보다 5점 높다.

이를 근거로 A학교가 평균점수가 높다고 하면 오류다. A학교는 남학생 160명, 총 득점 9600점, 평균점수 60점이고 여학생 40명, 총득점 3000점, 평균점수 75점이다. B학교는 남학생 40명, 총득점 2200점, 평균점수 55점이고 여학생 160명, 총득점 11200점, 평균점수 70점이다. 이를 합치면 A학교는 200명, 총득점 12600점, 평균점수 63점이다. B학교는 200명, 총득점 13400점, 평균점수 67점이다. 합친 점수로 볼 때 A학교가 아닌 B학교가 성적이 좋았다. 통계는 여기서 끝나느 것이 아니라 왜 B학교가 더 성적이 좋은지에 대한 해부를 해야 한다. 여러 조건을 다시 설정해서 이유를 밝혀야 빅데이터를 쓰는 이유가 된다.

통계는 총 여섯가지 분야에서 활용할 수 있다.
1. 실태를 파악하는 사회조사법
2. 원인을 규명하는 역학,생물통계학
3. 추상적인 것을 측정하는 심리통계학
4. 기계적 분류를 위한 데이터마이닝
5. 자연언어 처리를 위한 텍스트마이닝
6. 연역에 관심을 두는 계량경제학

이 중에 최근에 알게된 베이즈파와 이 책을 통해 알게된 빈도론파에 대한 이야기가 끝이다. 확률을 미리 상정하는 빈도론파와 상정하지 않는 베이즈파다. 앞면과 뒷면이 반반으로 나올 확률인 진짜 동전과 앞면이 80%, 뒷면이 20% 나올 확률인 가짜 동전이 있다. 빈도론파는 수천 번을 던져 이를 확인하며 확률을 산정한다. 베이즈파는 사전확률을 임의로 구한다. 그 후에 진짜경우와 가짜경우 각각의 상황에 사전확률과 조건부확률의 곱한다. 이를 통해 사후 확률로 진짜 동전과 가짜 동전을 구별한다.

이런 이유로 사회조사, 역학, 생물통계학, 심리통계학 분야는 빈도파. 계량경제학자는 베이즈파가 증가한다. 대체적으로 통계를 이용하려는 사람이 경제와 투자쪽이라면 베이즈쪽에 대한 공부를 해야 한다. 우리는 증거로 통계를 설명해야 한다. 막연하 추측이나 경험에 따른 통밥이 아니라 통계 리터러시로 분석하고 구별할 줄 알아야 자신에게 다가온 통계를 정확하게 볼 수 있다. 아무리 누가 이렇다 저렇다 이야기해도 아무런 의미가 없다. 볼 줄 아는 눈이 없으면 떠 먹여주는 숟가락이 사라지면 어쩔 것인가.

직접 통계를 만들어 구축하고 제대로 된 숫자를 만들지 몰라도 수없이 많은 사람들과 기관에서 던져주는 통계중에 제대로 된 가치있는 신호를 제대로 받아들일줄 알아야 한다. 이를 위해 <통계의 힘>과 같은 책을 통해 최소한 구분할줄만 알아도 큰 힘이 된다. 이 책은 소장해서 몇 번은 다시 들쳐보며 완전히 내 것으로 만들어야 한다. 점점 빅 데이터를 통한 통계가 중요해진 시점에 필요충분이 아니라 무조건이다.


까칠한 핑크팬더의 한 마디 : 중반 이후에는 약간 이해가 어려웠다.
친절한 핑크팬더의 한 마디 : 이런 책은 구입해서 읽어야지.


함께 읽을 책
세상에서 가장 쉬운 통계학 입문 - 나에겐 어렵다
세상에서 가장 쉬운 통계학 입문 작가 고지마 히로유키 출판 지상사 발매 2009.12.17 리뷰보기 현대 사회가...
blog.naver.com
본문으로 이동
왜 전문가들은 금융위기를 몰랐나? - 신호와 소음
신호와 소음 작가 네이트 실버 출판 더퀘스트 발매 2014.07.11 리뷰보기 <신호와 소음>책의 리뷰...
blog.naver.com
본문으로 이동
돈 좀 굴려봅시다 - 인구구조를 통한 채찍효과로
돈 좀 굴려봅시다 작가 홍춘욱 출판 스마트북스 발매 2012.06.20 리뷰보기 경제에 대한 책이 참 많이 나와 있다. 투자에 관한 책...
blog.naver.com
본문으로 이동

댓글

이 블로그의 인기 게시물

하기 싫은 일을 하는 힘 - 받아들이기

하고 싶은 일만 하고 하기 싫은 일을 하지 않는 삶. 많은 사람들이 꿈꾸는 삶이다. 부자를 꿈꾸는 이유 중 하나도 하고 싶은 것만 할 수 있다는 착각때문이다. 성공한 사람은 자기가 좋아하는 일을 한 것이 아니다. 하는 일을 좋아했다. 어느 누가 하기 싫은 일을 하지 않으며 살 수 있을까. 그런 사람은 단 한 명도 없다. 어느 누구도 하기 싫은 일을 하지 않으며 살지 못한다. 하기 싫어도 억지로 해야 하는 것이 우리가 살아가는 인생이다. 숙명이다. 그게 인생이다. 성공한 사람들은 대체적으로 부지런하다. 성공이라는 단어에 대한 정의가 사람마다 다르겠지만 대다수 사람들이 떠올리는 성공한 사람의 공통점이다. 어떻게 보면 그와 나는 딱 하나의 차이가 있다. 그는 하기 싫어도 끝까지 해 냈고 난 그렇지 못했다. 하기 싫은 일을 하지 않는 삶은 없다. 하기 싫은 일을 어떻게 하느냐가 오히려 관건이다. 하기 싫다고 안 하면 당장은 편할지 몰라도 시간이 지나 나에게 더 큰 하기 싫은 일로 돌아온다. 심적으로, 육체적으로 같이. 아침에 일찍 일어나기 싫다. 지옥철을 타고 출근하기 싫다. 상사의 잔소리가 듣기 싫다. 억지로 어색한 모임에 참여하고 싶지 않다. 늘어지게 집에서 멍하니 시간이나 때우고 TV나 보며 보내고 싶다. 이런 것들은 전부 바램이다. 현실에서 그다지 실행 가능성이 적다. 어쩌다 잠깐 할 수 있다. 그렇기에 더욱 빛을 발한다. 하지 못한 것에 대한 동경을 직접 체험해 보니 더욱 그런 삶을 꿈꾼다. 막상 매일 같이 그런 삶을 살게되면 그마저도 새로운 하기 싫은 일이 된다. 매일같이 집에서 TV나 보며 빈둥거리면 행복할까. 어쩌다 하는 행동이 재미있고 좋은 것이지 반복되면 지루해진다. 놀랍게도 하기 싫은 일을 해 낼 때 대부분 성장한다. 습관적으로, 태생적으로 편한 걸 찾게 되고 회귀본능처럼 하게 된다. 정작 그걸 선호하더라도 불행히도 현대인에게 그럴 자유가 부족하다. 정확히 표현하면 도태된다. 꼭 성공해야 할 이유는 없어도 현대인으로 살...

이혼 보험 로코드라마

이혼 보험이라는 독특한 보험 상품이 등장했다니 놀랍습니다. 보험은 본래 예상치 못한 상황에 대비하기 위해 가입하는 상품입니다. 어떤 일이 발생했을 때 이를 미리 준비하기란 쉽지 않으므로, 평소에 조금씩 보험료를 납부하며 해결책을 마련하는 개념이죠. 이혼 보험은 이러한 기본 원리를 바탕으로 만들어진 참신한 아이디어라 할 수 있습니다.  한국은 외국에 비해 보험 상품의 다양성이 부족한 편으로 알려져 있습니다. 이혼 보험이라는 아이디어는 비록 드라마 속 설정이지만, 정말 신박하다는 느낌을 받았습니다. 특히 드라마에서 언급된 것처럼 이혼이 한 해 동안 상당히 많이 발생한다는 점을 고려하면, 충분히 상품으로서 가치가 있다는 생각이 들더군요. 보험은 필요에 따라 만들어지지만, 보험사 입장에서는 조금 다른 뉘앙스를 가집니다. 보험금을 지급하지 않는 것이 보험사에게는 가장 유리하죠. 즉, 보험료를 받고도 지급할 일이 없으면 수익이 극대화됩니다. 이러한 관점에서 보면, 이혼 보험 역시 팔기는 하지만 실제로 이혼이 발생하지 않도록 만드는 것이 보험사에게 최선의 결과일 것입니다. 드라마 이혼보험에서 묘사된 내용은 현실적인 면모를 갖추고 있었습니다. 사람들이 혹시나 모를 상황에 대비해 이혼 보험에 가입하게 되는데요. 반대로 보험사 입장에서는 가입자가 실제로 이혼하지 않도록 노력해야 하는 역설적인 상황이 펼쳐집니다. 이런 설정은 시청자들에게 흥미를 더해주는 요소로 작용했습니다. 드라마는 이혼보험을 설계하고 판매하는 과정을 중심으로 전개됩니다. 이동욱이 연기하는 노기준은 두 번의 이혼 경험을 가진 인물로 등장합니다. 첫 번째 이혼은 상대방의 비구니가 되려는 꿈을 존중하며 이루어졌고, 두 번째는 외국에서 온 상사와의 결혼 생활 중 바쁜 일상 때문에 결혼 신고조차 하지 못하고 끝난 사례였습니다. 이다희가 연기한 전나래는 노기준의 두 번째 아내였지만, 현재는 그의 파트너가 아닌 강한들(이주빈)이 주요 여성 캐릭터로 자리 잡고 있습니다. 강한들은 계리 업무를 담당하며 감성적인 성격을 ...

고객의 요트는 어디에 있는가

  다른 사람도 아닌 워런 버핏이 추천한 책이다. 내 고객의 요트는 어디에 있는가. 워런 버핏이 어떤 책을 추천하는 경우는 많지 않다. 엄청난 다독가면서도 추천한 책은 많지 않다. 다독가라고 하지만 살짝 개념은 다르다. 워런 버핏은 다독가라는 개념보다는 활자 중독자라는 표현이 좀 더 맞다. 기업과 관련된 온갖 정보를 다 읽는다. 잡지까지도 포함해서. 그러니 흔히 생각하는 책이라고 할 수는 없다. 일반인보다 많이 읽긴 하겠지만 책은 많이 읽지는 않는 듯하다. 그런 워런 버핏이 추천한 가장 유명한 책은 현명한 투자자다. 가치 투자자에게는 성경이라고 하는 벤자민 그레이엄의 책이다. 이런 책말고 이 책을 추천했으니 궁금하지 않을 수 없었다. 궁금했는데 한국에는 번역되지 않았다. 나중에 번역 된 걸 알긴 했으나 굳이 보려 하진 않았다. 그래도 좀 보는 게 어떨까하는 욕망(?)은 있었다. 다른 사람도 아닌 워런 버핏 추천아닌가. 결론부터 곧장 말하면 너무 늦게 내게 왔다. 책에 나온 내용은 뼈가 되고 살이 되는 내용은 맞다. 너무 잘 알고 있는 책이라는 점에서 늦었다고 표현했다. 이미 이런 종류 책을 많이 읽었다. 여기에 책이 출판된 게 1940년이다. 그 이후 개정판으로 내용이 좀 보강되긴 했지만 딱히 달라진 건 없는 듯하다. 그러니 올드하다. 올드할 뿐 책에서 알려주는 내용은 전부 거짓이 없다. 제목이 고객의 요트는 어디에 있는가는 여기서는 수수료를 말한다. 월스트리트는 수많은 사람이 돈을 벌기 위해 오는 곳이다. 자신이 직접 돈을 벌기 위해 오는 사람도 많이 있다. 그만큼 많이 차지하는 게 돈을 맡기로 오는 사람이다. 돈이 어느 정도 있는데 이걸 불리고 싶다. 내가 직접 주식 투자를 할 능력은 안 된다. 또는 사업 등으로 바뻐...