2. IPython, IPython Notebook 그리고 Library
2018. 2. 22. 04:18
IPython Notebook
Python에서는 Python shell이라는 기본적인 대화식 프로그래밍 툴을 제공하는데, IPython은 이 기본 툴에 몇 가지 강력한 기능을 덧붙인 툴이라고 할 수 있다.
IPython Notebook은, IPython의 대화식 프로그래밍 방식을 기본적으로 제공하면서, 여러분이 데이터 분석을 하는 과정을 노트 형식으로 보기 쉽게 기록하고 정리해 놓을 수 있도록 도와주는 강력한 툴이다.
참고 사이트
- https://www.codecademy.com/learn/python
- https://www.codeschool.com/learn/python
- http://learnpythonthehardway.org
파이썬 데이터분석 라이브러리
Scipy(싸이파이)에서 제공하는 라이브러리들로 수학, 과학 분야를 분석하는데 특화된 에코시스템이다.
- 넘파이(NumPy) : 벡터 및 행렬계산에 엄청난 편의를 제공하는 라이브러리로, 앞으로 사용할 pandas, matplotlib의 기본 베이스가 되는 라이브러리
- 판다스(pandas) : 가장 많이 사용하게 될 라이브러리로, 고유하게 정의된 자료구조를 활용해서 빅데이터를 분석해준다. 기존 엑셀로 하던 모든 분석을 높은 수준으로 스켈과 속도가 커진다.
- 맷플롯립(matplotlib) : numpy와 pandas를 통해 얻은 데이터 분석결과를 시각화 해주는 라이브러리
어떠한 데이터를 다룰까?
- 인터넷 주소를 줄여주는 bit.ly은 json(키-벨류)형식의 인터넷 트래픽 dataset을 분석해서 정부에 제공했다.
- MovieLens는 인터넷 고객의 영화평점을 분석해서 예상평점이 높은 영화를 추천하는 시스템을 공개했다. 사용자별로 id와 영화별id, 평점, 날짜를 분석했다.
- kaggle은 US Baby Names(1880 ~ 2014)의 dataset을 분석했다. 미국의 사회보장국에서 얻은 정보 행의 값인 id, Name, Year, Gender, 총 출생수Count로 분석했다. 그외 대선득표율, 대출상태 관련 데이터셋도 제공했다.
'빅데이터 관련 프로그래밍 > Python - bigdata(pandas 기초)' 카테고리의 다른 글
6. 기초 라이브러리 Numpy(넘파이) 사용하기 (import, 데이터형, array연산) (0) | 2018.02.22 |
---|---|
5. iPhython Notebook 살펴보기 (1) | 2018.02.22 |
4. iPython 살펴보기 (0) | 2018.02.22 |
3. 윈도우에서 파이썬(python) 및 파이썬 라이브러리(numpy, pandas, matplotlib, jupyter) 설치 (0) | 2018.02.22 |
1. 빅데이터 분석과 파이썬(Python) (0) | 2018.02.22 |