세상에서 가장 쉬운 통계학입문 - 나는 어렵다


현대 사회가 복자해졌다. 그 이유는 어떻게 보면 단순하다. 인간이 많아졌다. 딱 10명만 인류가 존재하면 데이터는 크게 필요없다. 보기만해도 충분히 예측할 수 있게 통계를 내지 않아도 판단내리기 쉽다. 점점 인류는 인구가 증가하며 예측할 수 없게 되었다. 큰 범위에서는 알 수도 있다. 페루에는 '나스카의 지상화'가 존재한다. 지상에서 아무리 보고 싶어도 나스카의 지상화를 제대로 감상할 수 없다. 워낙 거대한 그림이 연결되어 있어 연속성을 갖고 있는 그림의 일부라는 것을 모른다.

하지만, 하늘 위에서 전체 모습을 보게 되면 드디어 보이게 된다. 이처럼 통계는 개별 움직임은 무작위로 보이며 어떤 패턴도 알기 힘들지만 이들을 묶고 합치고 나누다보면 특정 패턴을 볼 수 있다. 인간들은 자신은 의식하지 못하지만 특정한 행동을 반복적으로 하는 경우가 많다. 개별적으로 움직임을 주체적으로 한다고 생각했지만 그런 사람들끼리 모으고 그들의 공통점을 뽑아내면 패턴이 보인다. 이런 역할을 통계는 한다.

인간이 지금까지 발전할 수 있었던 것은 별 것 아닌 것에서 패턴을 발견하고 이를 적용한 결과다. 역으로 이런 패턴으로 무엇이든 적용하려는 행동이 멍청한 행동을 초래하거나 무작위인데도 특정 패턴으로 억지로 꿰어맞춰 실패한 사례도 많다. 통계가 많은 것을 보여주지만 만능은 아니라는 것이다. 더욱 재미있는 현상은 통계를 만들어 자신만 알고 있다고 얼마 지나지 않아 여러 사람이 알고 적용하며 패턴이 무의미하게 변하기도 한다.

점점 빅데이터가 중요해지고 있다. 과거와 딱히 달라 진 것이 없는데 이런 현상이 발생한 것은 기술의 발달이다. 통계를 내기위해서는 기초 데이터가 많을수록 좋다. 자연스럽게 소음이 섞이기도 하지만. 아주 적은 데이터를 갖고 통계를 낼 수밖에 없는 과거에 비해 이제는 수많은 사람들이 자발적으로 자신의 데이터를 남기고 있다. 국가에서도 관리차원에서 수없이 많은 데이터를 남겼다. 이런 데이터들이 쌓이고 쌓여 빅데이터 시대가 되었다.

어느 날 갑자기 빅데이터의 시대가 온 것은 아니지만 나도 모르는 내 행동마저도 빅 데이터로 알아낼 수 있다고 한다. 가면 갈수록 통계가 중요해지고 있다. 주식시장에서 특정 이론이 나오면 얼마 지나지 않아 그 이론만으로 투자하는 것은 무의미해진다. 무조건 적용하려고 하기 보다는 최소한 통계를 제대로 볼줄 아는 눈을 갖고 있는 것이 가장 중요하고 이를 직접 만드는 것도 중요하다. 자신이 원하는 궁금증을 해소하기 위해 직접 만는는 것만 좋은 것은 없다.
지금까지도 거의 그러지 않았지만 앞으로도 그럴 줄은 모르겠다. 대부분 내가 직접 만들기보다 남들이 만든 데이터를 읽기만 했다. 완벽하고 직접적인 데이터를 만들 능력이 없었기에 그랬고 귀찮아서 남들이 만든 데이터를 읽으며 유추하거나 사람들이 만든 더 다양한 데이터를 읽는 것으로 보완했다. 그래도 어느 정도 기본은 만들줄 알거나 해석해야 한다는 생각에 <세상에서 가장 쉬운 통계학입문>을 읽었다.

중학교 수학이면 충분히 3주 만에 끝낸다고 하니 도전해 볼 만한 욕심이 생겼다. 초반에는 다소 쉬웠다. 도수분포표를 만들어 키의 등급을 만들고 인원수(도수)를 묶고 그에 따른 상대도수로 백분율을 하고 누적도수로 구분한다. 여기까지는 계산도 필요없이 읽기만 해도 충분히 쫓아 갈 수 있었다. 그 후에 히스토그램을 만들어 보기 편하게 만들지 않았지만 그거야 엑셀로 하는 것이 어렵지 않다. 그런후 평균을 구한다. 산술평균을 대체로 구한다.

이제 편차가 나온다. 버스가 도착하는 시간은 중앙값이 있지만 정확하지 않다. 각자 도착하는 시간을 구한 후 어느 정도 편차가 나오는지 표준적인 편차를 구한다. 이제 버스가 정각에 어느 정도 오차범위 내에서 도착할 수 있다는 사실을 알게 된다. 95% 신뢰도가 무엇을 의미하는지 말한다. 동전 던지기에서 앞면이 10개 나왔다면 몇 번 던졌을까에 대한 예측을 할 수 있다. 최대에서 최소까지 범위를 대략적으로 구한다. 여기까지는 잘 쫓아갔다.

모집단의 의미까지는 이해했는데 그 다음부터는 솔직히 정신줄을 놔버렸다. 내가 중학교 몇 학년때 수학을 포기했는지 모르겠는데 그 이유가 아닐까한다. 어느 정도 통계를 읽을 때 필요한 의미정도를 알게 되었다는 데 만족해야 할 듯 하다. 지금까지도 솔직히 이 책을 읽지 않아도 통계까지는 아니라도 어느정도 발표된 자료를 이해는 했는데 직접 만들기도 해 볼까하는 마음도 있어 읽었는데 엑셀에 이런 계산이 이미 포함되어 이해만 해도 될 듯도 하다.

나온지 꽤 된 책인데 오래도록 사랑을 받고 있는 걸 보면 이쪽분야에 좋은 책이 드물다는 이야긴지, <세상에서 가장 쉬운 통계학입문>이 워낙 좋은 책인지 모르겠다. 책의 중간정도까지는 흥미롭고 읽고 후반부는 절망적으로 대강 넘겨 읽었다. 정말 오랫만에 읽었으되 읽었다고 하기 힘든 책을 만났다. 워낙 이 분야를 모르고 내가 포기한 수학도 고등(?)수학이라 앞으로도 입문으로 끝내지 않을까도 싶다. 쫓아가는 게 참 버겁다. 그래도 어쩌랴..

까칠한 핑크팬더의 한 마디 : 중학교때 난 수학을 포기했다.
친절한 핑크팬더의 한 다미 : 통계의 의미와 이해는 할 수 있다.

함께 읽을 책
왜 전문가들은 금융위기를 몰랐나? - 신호와 소음
신호와 소음 작가 네이트 실버 출판 더퀘스트 발매 2014.07.11 리뷰보기 <신호와 소음>책의 리뷰...
blog.naver.com
본문으로 이동
원화의 미래 - 놀라운 예측력
원화의 미래 작가 홍춘욱 출판 에이지21 발매 2009.11.30 리뷰보기 홍춘욱씨를 처...
blog.naver.com
본문으로 이동
넘버스, 숫자가 당신을 지배한다 - 공인된 거짓말 통계
넘버스 숫자가 당신을 지배한다 작가 카이저 펑 출판 타임북스 발매 2011.03.10 리뷰보기 헤밍웨이가 일찌기 '세상에는 세 가지 거...
blog.naver.com
본문으로 이동

댓글

이 블로그의 인기 게시물

하기 싫은 일을 하는 힘 - 받아들이기

배당주로 월 500만 원 따박따박 받는 법

20년 차 신 부장의 경제지표 이야기