확률변수와 확률분포

  1. 확률변수(Random Variable) : 일정한 확률값이 고정적으로 부여된 변수 X

    • 예를 들면, 주사위가 한개를 던질 때, 눈금 1이 나올 확률은 고정적으로 1/6이 부여되어있고, 이 때 X1을 확률변수라 한다.
    • 이 확률변수가 이산 확률변수연속 확률변수로 나뉜다.
  2. 확률분포(Probability Distribution) : 확률변수들이나 확률변수들의 조합으로 인해 생기는 확률값의 분포를 그래프로 나타낸 것.

    • 예를 들면, 주사위 2개를 던졌을 때, 눈금의 합은 2 부터 12까지, 각 눈금들의 조합으로 이루어지며, 각각은 확률변수로서 고정된 확률값을 가지므로 눈금의 합(여기서의 확률변수) 또한 일정한 패턴을 가지는 분포가 나타난다.

확률분포의 종류

  1. 이산 확률분포(discrete) : 정수처럼 딱 떨어져 셀수 있는 확률변수(이산확률변수)와 확률값의 분포 ex> 주사위 눈금
    • 이산확률분포의 종류 : 이항분포(베르누이분포), 포아송분포, 초기하분포, 기하분포
    • 이산확률분포의 함수 : 확률 질량 함수
  1. 연속 확률분포(continuous) : 소수점을 포함하는 실수처럼 연속하여 셀 수 없는 확률변수(연속확률변수)와 확률값의 분포 ex> 키, 몸무게
    • 셀 수 없기 때문에 구간을 정해놓고 이 구간에 속한 표본의 수로 나타낸다.
    • 연속확률분포의 종류 : 정규분포(가우시안 분포), 표준정규분포, t분포, F분포, 카이제곱분포
    • 연속확률분포의 함수 : 확률 밀도 함수

대표적 확률분포

  1. 정규 분포(Normal distribution; Gaussian distribution)
    • 연속확률분포, 종 모양의 분포로서 가장 많이 사용되는 분포
    • 완벽한 좌우대칭
    • 정규분포의 모수는 2개 : 1) 평균(location) 2) 분산(scale parameter)
    • 평균 : 종 모양 정규분포의 location을 결정한다
    • 분산 : 종 모양 정규분포의 평균에서 떨어진 정도(벌어진 정도)를 결정한다.
  1. 이항 분포(Binomail distribution; Bernoulli distribution)
    • 이상확률분포, 결과가 0/1 2개에(실패/성공, 사망/생존) 해당
    • 단 한번의 실험이 아니라 실험 수(n)가 복원추출로 여러번 시도한다.
    • 만약, n수가 충분히 많아지면, p = 1/2 + 분포는 좌우대칭의 정규분포에 가까워진다


  1. 포아송 분포(Poisson Distribution)
    • 결과가 단위 시간/공간안에서 발생하는 건수(Count)에 대한 분포
    • but 제약조건이 존재!! : 평균과 분산이 동일하다는 가정이 있어야한다. 대부분은 분산이 크고 평균이 작다고 한다.
    • ex1> 1시간동안 / 걸려오는 전화의
    • ex1> 1시간동안 / 발생하는 사고의
    • ex1> 1km 동안 / 발생하는 자동차 사고의

그외 자주 등장하는 분포들

  1. 초기하 분포 : 이항분포처럼 결과가 0/1 2가지 이나, 유한한 모집단에서 비복원추출
    • ex> S보험사 전체인원은 10명이고, 그중 여자가 6명이다. 이중 7명을 연속으로 뽑았을때, 4명이 여자일 확률
  1. t분포 : 정규분포와 유사하나, 표본의 크기가 작을 경우(n<30)에 사용되는 분포
  1. F분포 : 3개 이상 집단에 대한 비교를 위해, 분산에 대한 분석을 한다.

  2. 카이제곱 분포 : 2개의 범주형 변수의 빈도를 보고 연관성/독립성을 판단한다.

+ Recent posts