groupby() )
(1) 기준열로 그룹화한 결과물로 - > 그룹화기준 딕셔너리를 만들어 -> 키값대입으로 1개의 그룹화결과물을 구하고
(2) 그룹화결과물마다, 통계함수가 아닌 , 따로 적용할 어떠한 def 함수가 존재할 때,
(3) 그룹화결과물 .apply(def함수) 로 계산한다.

pivot_table ) 
(1) 추출열 / index로 가져올 기준열1/ columns로 가져올 기준열2/ 통계함수 가 명확하고 한방에 그룹화할 때

데이터분석 해석)
(1) 각 ~별 => 기준열
(2) ~의 합/평균/비중 계산하기  => 기준열
(2) A+B열 중 A만 or B만 언급 => 기준열로 간주하고, 나중에 열인덱싱 ( ex> 남아의 출생횟수 ==> 성별을 기준열로 하고 남자열만 인덱싱 )
(3) 전체A 중 B를 가진 => A열을 기준열로 간주하고, 나중에 B열 인덱싱
(4) 특정 ~를 가진 => 그룹화후 인덱싱 & 만약 행인덱싱이 필요하다면 sum()함수의 총합이 달라지므로, 미리 비중계산후 행인덱싱

상위 TOP100 / 상위 ~% 구하기 )
(1) groupby()로 그룹화기준 딕셔너리를 통한 1개 그룹화결과물로 착안하여 , sort_values로 내림차순 + iloc로 정수 행인덱싱 [ :100]의 사용자함수 정의
(2) groupby().apply( 사용자정의함수 ) 적용 : 강제로 그룹화시켰야만, 상위100개가 노출됨
(3) pivot_table로 손쉽게 그룹화시켜서 각 그룹당 상위100 확인



+ Recent posts