1. 통계 - 기술통계와 추론통계 , 표본추출방법들
2019. 1. 19. 09:00
통계를 배우는 이유
- 통계 : 실험으로 발견한 차이가 우연에 의한 것이 아니다(우연에 의하여 예측된 차이보다 크다)를 밝힘(증명)
- 앞뒤가 동일한 동전을 100번 던져, 48:52 49:51은 우연일 수 있지만, 40:60쯤 되면 우연에 의한 것이 아니라는 것을 의심
- 인터넷광고로 판매량이 늘어날까요? => 차이를 우연에 의한것 인지/아닌지를 통계로 밝힌다(평균차이 T-test)
- 인터넷광고 하고/안하고가 차이가 있을까요? => 차이를 우연에 의한 것인지/아닌지를 통계로 밝힌다.
- 쌓여있는 데이터가 너무 없어서 근거가 부족할 것 같아요. 어떻게 해야하죠?=> *근거가 부족할 시 비모수 검정
- 추천 강의 : K-MOOC 류\*
**
전통적인 통계학 vs 현대의 통계학
- 전통적인 통계학은
- n수가 작았다.
- 농업 분야의 데이터가 실험계획법이 많았다.
- 수식적인 증명과 수리적인 알고리즘으로 소통
- 현대의 통계학
- 빅데이터( n수가 많다 )
- Location(위도, 경도), TimeStamp(mm-dd-yyyy hh:MM:ss) 등의 데이터가 많음.
- 통계 Tool이 많다.
데이터 분석시 고려해야할 4가지
- 보정 : Expect(기대되는 차이)가 target변수 때문에 생긴 것인지 알기 위해서, 다른 변수들을 control(통제)
- Faceting : 전체(수술)을 더 쪼개서 (성형수술/외과수술)나누어 보면, 다른 insight가 있을 수 있다.
- 아웃라이어와 지대값 : y의 값(outlier)와 x의 값(지대값)이 평균에 너무 떨어져 있어서 -> 평균이나 회귀계수에 영향을 준다.
- cf) 영향점 : 회귀에서 결정계수를 낮추진 않지만, 회귀 직선의 기울기에 영향을 주는 것 - 결측치(NA) : R에서는 하나의 NA가 있더라도, 기초통계량을 NA로 반환하므로 없애야한다.
- R에서는 기초통계함수()의 인자로 na.rm=TRUE를 줘야한다.
통계학의 영역 : 기술통계와 추론통계
- 기술 통계(Descriptive Statistics) : 평균, 분산 등의 숫자와 그래픽으로 기술
- Numerically
- Centering(중심) 척도 : 평균 / 중앙값, 절삭평균 / 최빈값
- 자유도 1일 때, 데이터를 가장 잘 나타내는 것
- 중앙값(median) : Outlier에 의해 극값을 가질 수 있는 평균의 현상을 막기 위한 것
- Outlier가 있는 경우 쓰는 중심척도
1) 중앙값(Median) : 데이터를 크기순으로 정렬한 후 가운데 값 (홀수개면 가운데, 짝수개면 가운데2개의 평균)
2) 절삭평균(Truncated mean) : 10% truncated mean이라면, 양 끝값 10%제거 후 가운데 80%로 평균
cf) 가중 평균 : 각 요소별로 가중치를 곱해서 구하는 평균 ex> 수능 점수 -> 대학별 유리하게 반영
- Spread 척도 : 분산 / 표준편차 / IQR
- 자유도 2일 때, 중심척도(자유도 1)만으로 부족한 내용을 설명하는 것
- 분산 : <평균으로 부터> 얼마나 떨어졌는지를 ( 실제값 - 평균) 제곱의 평균
- 그외 : 왜도 / 첨도
- 왜도(Skewness) : 치우친 정도 자료의 대칭성을 알아보는 척도,
- 분포 그래프에서 좌우대칭에 비해 꼬리가 긴쪽이 해당 skewed
- 첨도(kurtosis) : 정규분포에서 그래프이 봉우리가 뾰족한 정도
- Graphically : 그래프
- 추론 통계(Inference Statistics) : 알 수 없는 모집단을 잘 대표할 수 있는 sample(표본)을 뽑고 -> 그것으로 모집단 추정
- 1) 모집단을 잘 대표할 수 있는 데이터를 sampling 하고
- 2) 수집한 데이터(표본, sample)을 가지고 모집단(Population)을 추정하는 것
-3) 추정시에는 항상 얼마나 믿음직한지 신뢰구간도 같이 제시한다.
다양한 표본 추출 방법들 ( sampling의 단계 )
Proportional to Population Size(PPS) : 가장 많이 이용되는 샘플링
- 모집단 속 여러 집단들(서울대병원, 연세대병원, ... , 서울성모병원) 중 Size큰 곳에 높은 확률 배정해서 샘플링층화 : 모집단 속 여러집단들(남자, 여자)에서 몇번 뽑을 것인지 미리 할당하고 샘플링
Simple Random Sampling(SRS) : 무작위로 뽑는 것
집락 : 층화와 비슷
계통 : k계통법이라고 하여, k= 5 지나가는 사람들 중 5번째만 뽑음. k=1 전수조사
- 보통 sampling의 단계 : PPS -> 층화 -> SRS
- sample로 모집단을 추정하는 2가지 방법
- 점 추정 : 170 or 170 이하 or 170 이상 ( 특정 점 or 이상 or 이하)
- 구간 추정 : 160 ~ 180 사이 ( 특정 구간 사이)
- 추정시 제시하는 신뢰구간은 좁을수록 명사수
코딩시 참고 프로그램
'한의대 생활 > └ 통계에 대한 나의 정리' 카테고리의 다른 글
2-2 R markdown ggplot2 ( plotly 올릴시 에러 ) (0) | 2019.02.01 |
---|---|
2. R markdown( 변수별 EDA 및 abline 2가지 사용) (0) | 2019.02.01 |
2. 전처리시 체크2가지 및 EDA시 변수의 성격에 따른 분류 (0) | 2019.01.25 |
1. R markdown(데이터경로, 불러오기, 5가지확인, summarizeColumns, mytable, mycsv) (0) | 2019.01.25 |
R 검정 방법에 대한 나의 정리 (0) | 2019.01.03 |