통계를 배우는 이유

  • 통계 : 실험으로 발견한 차이가 우연에 의한 것이 아니다(우연에 의하여 예측된 차이보다 크다)를 밝힘(증명)
    - 앞뒤가 동일한 동전을 100번 던져, 48:52 49:51은 우연일 수 있지만, 40:60쯤 되면 우연에 의한 것이 아니라는 것을 의심
    - 인터넷광고로 판매량이 늘어날까요? => 차이를 우연에 의한것 인지/아닌지를 통계로 밝힌다(평균차이 T-test)
    - 인터넷광고 하고/안하고가 차이
    가 있을까요? => 차이를 우연에 의한 것인지/아닌지를 통계로 밝힌다.
    - 쌓여있는 데이터가 너무 없어서 근거가 부족할 것 같아요. 어떻게 해야하죠?=> *근거가 부족할 시 비모수 검정
    - 추천 강의 : K-MOOC 류\
    *
    **

전통적인 통계학 vs 현대의 통계학

  • 전통적인 통계학은
  1. n수가 작았다.
  2. 농업 분야의 데이터가 실험계획법이 많았다.
  3. 수식적인 증명과 수리적인 알고리즘으로 소통
  • 현대의 통계학
  1. 빅데이터( n수가 많다 )
  2. Location(위도, 경도), TimeStamp(mm-dd-yyyy hh:MM:ss) 등의 데이터가 많음.
  3. 통계 Tool이 많다.

데이터 분석시 고려해야할 4가지

  1. 보정 : Expect(기대되는 차이)가 target변수 때문에 생긴 것인지 알기 위해서, 다른 변수들을 control(통제)
  2. Faceting : 전체(수술)을 더 쪼개서 (성형수술/외과수술)나누어 보면, 다른 insight가 있을 수 있다.
  3. 아웃라이어와 지대값 : y의 값(outlier)와 x의 값(지대값)이 평균에 너무 떨어져 있어서 -> 평균이나 회귀계수에 영향을 준다.
    - cf) 영향점 : 회귀에서 결정계수를 낮추진 않지만, 회귀 직선의 기울기에 영향을 주는 것
  4. 결측치(NA) : R에서는 하나의 NA가 있더라도, 기초통계량을 NA로 반환하므로 없애야한다.
    - R에서는 기초통계함수()의 인자로 na.rm=TRUE를 줘야한다.

통계학의 영역 : 기술통계와 추론통계

  • 기술 통계(Descriptive Statistics) : 평균, 분산 등의 숫자와 그래픽으로 기술
  1. Numerically
  • Centering(중심) 척도 : 평균 / 중앙값, 절삭평균 / 최빈값
    - 자유도 1일 때, 데이터를 가장 잘 나타내는 것
    - 중앙값(median) : Outlier에 의해 극값을 가질 수 있는 평균의 현상을 막기 위한 것
    - Outlier가 있는 경우 쓰는 중심척도
    1) 중앙값(Median) : 데이터를 크기순으로 정렬한 후 가운데 값 (홀수개면 가운데, 짝수개면 가운데2개의 평균)
    2) 절삭평균(Truncated mean) : 10% truncated mean이라면, 양 끝값 10%제거 후 가운데 80%로 평균
    cf) 가중 평균 : 각 요소별로 가중치를 곱해서 구하는 평균 ex> 수능 점수 -> 대학별 유리하게 반영
  • Spread 척도 : 분산 / 표준편차 / IQR
    - 자유도 2일 때, 중심척도(자유도 1)만으로 부족한 내용을 설명하는 것
    - 분산 : <평균으로 부터> 얼마나 떨어졌는지를 ( 실제값 - 평균) 제곱의 평균
  • 그외 : 왜도 / 첨도
    - 왜도(Skewness) : 치우친 정도 자료의 대칭성을 알아보는 척도,
    - 분포 그래프에서 좌우대칭에 비해 꼬리가 긴쪽이 해당 skewed
    - 첨도(kurtosis) : 정규분포에서 그래프이 봉우리가 뾰족한 정도
  1. Graphically : 그래프
  • 추론 통계(Inference Statistics) : 알 수 없는 모집단을 잘 대표할 수 있는 sample(표본)을 뽑고 -> 그것으로 모집단 추정
    - 1) 모집단을 잘 대표할 수 있는 데이터를 sampling 하고
    - 2) 수집한 데이터(표본, sample)을 가지고 모집단(Population)을 추정하는 것
    -3) 추정시에는 항상 얼마나 믿음직한지 신뢰구간도 같이 제시한다.
  1. 다양한 표본 추출 방법들 ( sampling의 단계 )

  2. Proportional to Population Size(PPS) : 가장 많이 이용되는 샘플링
    - 모집단 속 여러 집단들(서울대병원, 연세대병원, ... , 서울성모병원) 중 Size큰 곳에 높은 확률 배정해서 샘플링

  3. 층화 : 모집단 속 여러집단들(남자, 여자)에서 몇번 뽑을 것인지 미리 할당하고 샘플링

  4. Simple Random Sampling(SRS) : 무작위로 뽑는 것

  5. 집락 : 층화와 비슷

  6. 계통 : k계통법이라고 하여, k= 5 지나가는 사람들 중 5번째만 뽑음. k=1 전수조사

  • 보통 sampling의 단계 : PPS -> 층화 -> SRS
  1. sample로 모집단을 추정하는 2가지 방법
  • 점 추정 : 170 or 170 이하 or 170 이상 ( 특정 점 or 이상 or 이하)
  • 구간 추정 : 160 ~ 180 사이 ( 특정 구간 사이)
  1. 추정시 제시하는 신뢰구간은 좁을수록 명사수

코딩시 참고 프로그램

  • 여러 line을 동시에 작업할 때 [ Alt + 여러줄 드래그 ] 후 작성
    imageimage

+ Recent posts