참고 : 실전 데이터분석 1~7 요약
2018. 3. 13. 08:32
groupby() )
(1) 기준열로 그룹화한 결과물로 - > 그룹화기준 딕셔너리를 만들어 -> 키값대입으로 1개의 그룹화결과물을 구하고
(2) 그룹화결과물마다, 통계함수가 아닌 , 따로 적용할 어떠한 def 함수가 존재할 때,
(3) 그룹화결과물 .apply(def함수) 로 계산한다.
pivot_table )
(1) 추출열 / index로 가져올 기준열1/ columns로 가져올 기준열2/ 통계함수 가 명확하고 한방에 그룹화할 때
데이터분석 해석)
(1) 각 ~별 => 기준열
(2) ~의 합/평균/비중 계산하기 => 기준열
(2) A+B열 중 A만 or B만 언급 => 기준열로 간주하고, 나중에 열인덱싱 ( ex> 남아의 출생횟수 ==> 성별을 기준열로 하고 남자열만 인덱싱 )
(3) 전체A 중 B를 가진 => A열을 기준열로 간주하고, 나중에 B열 인덱싱
(4) 특정 ~를 가진 => 그룹화후 인덱싱 & 만약 행인덱싱이 필요하다면 sum()함수의 총합이 달라지므로, 미리 비중계산후 행인덱싱
상위 TOP100 / 상위 ~% 구하기 )
(1) groupby()로 그룹화기준 딕셔너리를 통한 1개 그룹화결과물로 착안하여 , sort_values로 내림차순 + iloc로 정수 행인덱싱 [ :100]의 사용자함수 정의
(2) groupby().apply( 사용자정의함수 ) 적용 : 강제로 그룹화시켰야만, 상위100개가 노출됨
(3) pivot_table로 손쉽게 그룹화시켜서 각 그룹당 상위100 확인
'빅데이터 관련 프로그래밍 > Python - bigdata(pandas 기초)' 카테고리의 다른 글
24. 실전 데이터분석(1~6) - pivot_table / groupby (0) | 2018.03.12 |
---|---|
참고 : pandas 추가 - 데이터분석3 요약 정리 (0) | 2018.03.11 |
23. pandas 추가 – 데이터 분석 by 그룹화 +피벗 테이블(pivot_table) (0) | 2018.03.06 |
22. pandas 추가 – 데이터 그룹화 함수 이해하기 (0) | 2018.03.05 |
21. pandas 추가 – DataFrame 데이터 변형(중복행 제거/ 매핑/ 치환/ 카테고리 자료형) (1) | 2018.03.03 |