최근에 나는 데이터분석 준전문가(ASdP), SQL개발자(Sqld) 자격증 시험을 치룬 상태이다. 나에게 있어서 한의학이외의 관심은 이러한 분야들이다. 특히, 빅데이터에 관심이 있고, 통계가 서툰 상태에서 간단한 교양수준의 통계책을 읽고 싶었는데 마침 독후감 과제도 있었기 때문에 이 책을 감상하는 시간을 가졌다. 저자 니시우치 히로무는 최대한 실무에 활용할 수 있는 간단한 예제와 수식을 제외한 교양 이론으로 읽는 사람으로 하여금 통찰력을 가질 수 있게 해준 것 같다. 책에서 서술한 모든 통계정보를 A4 1장으로 요약하기엔 무리가 있으니, 기존 지식을 새롭게 이해한 내용 위주로 감상을 적으려고 한다.
먼저, 통찰의 통계학에 필요한 세가지 지식을 소개한다.

  1. 평균과 비율의 본질적 의미

    • 숫자로 표현되는 양적변수는 평균으로, 문자로 표현되는 질적변수는 비율로 정리하자.
  2. 데이터를 구간으로 이해하기

    • 평균과 비율로 정의되는 하나의 점만 생각하지말고, 그것들을 떠받히는 구간을 파악해서 어느정도까지 범위에 속해있는지를 항상 생각하자.
  3. 값을 어떻게 정리해야하는지에 대한 지혜

    • 평균과 비율을 이용하여 최종적으로 조절하고 싶은 결과인 아웃컴(성과지표)를 결정하고, 그 아웃컴에 영향을 미치거나 차이를 설명하는 요인인 설명변수를 설정해서 인과관계를 이용해 값을 정리하자.
      비지니스에서 가치있는 데이터분석은 최대화하거나 최소화해야하는 항목이 무엇인지 알아내는 것이라고 한다. 그것이 바로 아웃컴이고 이 아웃컴을 좌웅하는 원인 제공의 대상자인 설명변수는 큰 의미를 가지게 된다. 이러한 설명변수를 설정하는 데 있어서 우선순위도 필요하다.
    1. 인과관계가 너무 당연한 것은 배제할 것 -> 당연해서 시간 들일 필요가 없다
    2. 아웃컴에 영향을 명백히 미치더라도 조절이 가능한 변수여야한다
    3. 분석된 적이 별로 없는 변수여야한다.

이렇게 전반적인 통계에 대한 통찰을 설명해주고, 대표값들(평균, 표준편차) 및 가설검정, 회귀분석의 종류, 결과값이 없는 상태에서 특징을 가지고 분류할 수 있는 인자분석과 군집분석, 마지막에는 총정리를 해주었다. 또한 수학적으로 궁금한 부분은 따로 부록으로 싣어놓아서 필요하면 찾아볼 수 있게 해주었다.
특히나 기억에 남는 서술을 골라서 기술해보면, 제 1종 오류(귀무가설이 옳은데, 대립가설을 채택한 경우)를 덜렁이라 표현하며 제 2종 오류(귀무가설이 틀린데, 귀무가설을 기각하지 않은 경우)를 멍청이라고 표현하였다. 사실 덜렁이는 유의미한 차이가 없는데도 있다고 우기는 경우라고 할 수 있는데, 가설검정의 p-value값이 0.05이하가 나왔다면 덜렁이가 되지 않는다. 이러한 경계선을 유의수준이라고 하며, 제 1종 오류를 범하더라도 인정해주는 최대 한계선이기 때문이다. 즉, p-value 0.05는 덜렁이가 되지 확률 95%를 의미하는 것이기도 하다. 반대로 멍청이는 유의미한 차이가 있는데도 놓치는 경우인데, 제 1종 오류(덜렁이)보다 덜 중요한 문제로서, 멍청이가 되는 경우의 수는 적다고 한다. 다음으로, 회귀분석에 대한 서술이다. 그 중에서도 단일회귀분석에 대한 설명이 참 재미있었다. 만약 어떤 아웃컴을 설명하는 변수가 1개만 있다고 가정하였을 때, 중학수학으로도 회귀식을 표현할 수 있다. 그러나 그 이전에 설명변수를 x축에, 아웃컴을 y축에 놓고 점을 찍는 산포도를 관찰할 수 있는데, 이것은 경향성(상관관계)를 볼 수 있지만, 인과관계는 성립될 수 없다고 하였다. 왜냐하면, 설명변수는 1개라고 설정해놓았을지라도 미처 발견하지 못한 설명변수들이 여러개가 있을 수 있고, 그것들이 통제되지 않는 이상 인과관계는 성립하지 않기 때문이다.
이러한 산포도 위에는 회귀식을 그을 수 있는데 Y= b0 + aX로서, 중학교 직선의 식에 해당한다. 그리고 기울기 a를 해석하는 방법인 "a가 한단위 증가함에 따라 Y가 얼마나 증가하는지"를 관찰하면 된다. 이렇게 단일회귀분석은 간단한 것이었다. 이것 이외에도 다양한 분포와 가정들을 설명해놓았지만, 정보의 양이 너무 많아서 수식과 함께 공부하는 시간은 따로 가지려고 한다.
만약, 내가 한의사가 되고 논문을 쓰거나 사업을 하려면 통계는 필수덕목일 것이다. 요즘같은 빅데이터 시대에서 의학통계에 대한 전공수업이나 교양수업이 부실하다는 것은 너무 안타깝다. 개인적이라도 이러한 분야에 관심을 가지고, 교양으로서 통계를 친숙하게 만들 필요성을 절실하게 느끼는 본과 4학년이다.

+ Recent posts