pandas_basic.py

Pandas

엑셀로 다 할 수 있겠지만, 파이썬 & pandas를 사용하면 반복되는 업무 큰 데이터를 쉽게 다룰 수 있다.
판다스 공식 홈페이지

사용해보기

새로운 프로젝트를 만들어보자. (studying_pandas)
새로운 파이썬 파일을 만들자.(pandas_basic.py)


  1. 먼저, 판다스 모듈을 설치해야한다. pip로 하는 방법도 있겠지만,
    File> Settings [ Ctrl+ Alt +S ] > Project : ~ > Project Interpreter > + > pandas를 검색해서 설치한다.
    - pandas를 설치하면, Numpy 와 matplotlib을 함께 설치하므로 많은 시간이 걸린다.
    image

  2. pandas_basic.py에서 import pandas를 하자.
    Numpy에서 array를 주로 사용했다면,
    pandas에서는 DataFrame을 가장 많이 사용한다.
    인자로는 df= pandas.DataFrame( [    [1,2,3], [4,5,6]   ]) 와 같이, 리스트안에 리스트가 들어가는 것이 DataFrame이다.
    - 출력해보면, 행렬처럼, 엑셀형태처럼 나온다.
    image


  3. 칼럼즈에 대해서 먼저 print를 해보자.
    - df.columns 를 print해보면, 0부터 3 까지, 스텝은 1씩 올라간다
    df.columns =  [리스트] 형식으로 칼럼명을 대입해보자.
    - 칼럼명이 바뀐다.
    imageimage

  4. 인덱스도 마찬가지로 리스트형식으로 대입해준다.
    - df.index = [ 리스트 ]
    image

  5. DataFrame 선언과 동시에 columnsindex를 지정해줘도 된다.
    image


  6. pandas를 import할 때, pd로 줄여서 입력시킬 수 있다.
    - import pandas as pd
    image


  7. 새로운 칼럼즈을 추가해보자.
    추가는 그냥 DataFrame[ '칼럼명' ] 만 해주면 새로 생성된다. 여기에 a열과 b열을 뺀 값을 넣어보자.
    - df['d'] = df['a'] - df['b']
    image


  8. 인덱스(행)를 추가할 때는, 기존 df에다가 새로운 것을 대입하는 방식으로 하는데,
     df = df.append()로 추가하는데, 기존인덱스를 무시해야지만 추가 할 수있다.
    만약, 각 열의 합을 요소로 가지는 행을 추가한다면, 인자로 df.sum()를 해주면 된다.
    - df = df.append( df.sum(), ignore_index=True)
      *만약 행 추가시, ignore_index 옵션을 안주면 에러난다.
    image

    무시되어, 0부터 차례되로 출력되는 index는 다시 df.index = [리스트]로 index값을 넣어주면된다.
    image

+ Recent posts