IPython Notebook

Python에서는 Python shell이라는 기본적인 대화식 프로그래밍 툴을 제공하는데, IPython은 이 기본 툴에 몇 가지 강력한 기능을 덧붙인 툴이라고 할 수 있다.

IPython Notebook은, IPython의 대화식 프로그래밍 방식을 기본적으로 제공하면서, 여러분이 데이터 분석을 하는 과정을 노트 형식으로 보기 쉽게 기록하고 정리해 놓을 수 있도록 도와주는 강력한 툴이다.


참고 사이트


파이썬 데이터분석 라이브러리

Scipy(싸이파이)에서 제공하는 라이브러리들로  수학, 과학 분야를 분석하는데 특화된 에코시스템이다.

  • 넘파이(NumPy) : 벡터 및 행렬계산에 엄청난 편의를 제공하는 라이브러리로, 앞으로 사용할 pandas, matplotlib의 기본 베이스가 되는 라이브러리
  • 판다스(pandas) : 가장 많이 사용하게 될 라이브러리로, 고유하게 정의된 자료구조를 활용해서 빅데이터를 분석해준다. 기존 엑셀로 하던 모든 분석을 높은 수준으로 스켈과 속도가 커진다.
  • 맷플롯립(matplotlib) : numpy와 pandas를 통해 얻은 데이터 분석결과를 시각화 해주는 라이브러리


어떠한 데이터를 다룰까?

  • 인터넷 주소를 줄여주는 bit.ly은 json(키-벨류)형식의 인터넷 트래픽 dataset을 분석해서 정부에 제공했다.
  • MovieLens는 인터넷 고객의 영화평점을 분석해서 예상평점이 높은 영화를 추천하는 시스템을 공개했다. 사용자별로 id와 영화별id, 평점, 날짜를 분석했다.
  • kaggle은 US Baby Names(1880 ~ 2014)의 dataset을 분석했다. 미국의 사회보장국에서 얻은 정보 행의 값인 id, Name, Year, Gender, 총 출생수Count로 분석했다. 그외 대선득표율, 대출상태 관련 데이터셋도 제공했다.

+ Recent posts