14. 파이참에서 pandas 설치 및 기본 사용해보기
2018. 7. 9. 21:18
Pandas
엑셀로 다 할 수 있겠지만, 파이썬 & pandas를 사용하면 반복되는 업무와 큰 데이터를 쉽게 다룰 수 있다.
판다스 공식 홈페이지
사용해보기
새로운 프로젝트를 만들어보자. (studying_pandas)
새로운 파이썬 파일을 만들자.(pandas_basic.py)
- 먼저, 판다스 모듈을 설치해야한다. pip로 하는 방법도 있겠지만,
File> Settings [ Ctrl+ Alt +S ] > Project : ~ > Project Interpreter > + > pandas를 검색해서 설치한다.
- pandas를 설치하면, Numpy 와 matplotlib을 함께 설치하므로 많은 시간이 걸린다. - pandas_basic.py에서 import pandas를 하자.
Numpy에서 array를 주로 사용했다면,
pandas에서는 DataFrame을 가장 많이 사용한다.
인자로는 df= pandas.DataFrame( [ [1,2,3], [4,5,6] ]) 와 같이, 리스트안에 리스트가 들어가는 것이 DataFrame이다.
- 출력해보면, 행렬처럼, 엑셀형태처럼 나온다. - 칼럼즈에 대해서 먼저 print를 해보자.
- df.columns 를 print해보면, 0부터 3전 까지, 스텝은 1씩 올라간다
df.columns = [리스트] 형식으로 칼럼명을 대입해보자.
- 칼럼명이 바뀐다. - 인덱스도 마찬가지로 리스트형식으로 대입해준다.
- df.index = [ 리스트 ] - DataFrame 선언과 동시에 columns와 index를 지정해줘도 된다.
- pandas를 import할 때, pd로 줄여서 입력시킬 수 있다.
- import pandas as pd - 새로운 칼럼즈을 추가해보자.
추가는 그냥 DataFrame[ '칼럼명' ] 만 해주면 새로 생성된다. 여기에 a열과 b열을 뺀 값을 넣어보자.
- df['d'] = df['a'] - df['b'] - 인덱스(행)를 추가할 때는, 기존 df에다가 새로운 것을 대입하는 방식으로 하는데,
df = df.append()로 추가하는데, 기존인덱스를 무시해야지만 추가 할 수있다.
만약, 각 열의 합을 요소로 가지는 행을 추가한다면, 인자로 df.sum()를 해주면 된다.
- df = df.append( df.sum(), ignore_index=True)
*만약 행 추가시, ignore_index 옵션을 안주면 에러난다.
무시되어, 0부터 차례되로 출력되는 index는 다시 df.index = [리스트]로 index값을 넣어주면된다.
'빅데이터 관련 프로그래밍 > Python3 기초 및 업무자동화' 카테고리의 다른 글
16. pandas를 이용해 차트그리기 (1) | 2018.07.11 |
---|---|
15. pandas로 excel파일 읽고 / 쓰기 (0) | 2018.07.09 |
업무 자동화 최종정리 : CSV모듈로 CSV읽고 -> 클래스모듈화를 통한 인스턴스생성 및 계산 칼럼추가 -> CSV 쓰기 + MS WORD 문서화까지(.docx) (0) | 2018.07.07 |
13. 기존 프로젝트를 python-docx로 문서화해보기 (0) | 2018.07.07 |
12. Python-docx 사용해보기 (0) | 2018.07.07 |