3. 웹 크롤링 개발환경 만들기(VirtualBox /Ubuntu16.04/가상환경/python/BeautifulSoup4 설치)
2018. 3. 16. 00:47
VirtualBox 와 Ubuntu16.04 설치
- VirtualBox를 다운로드 해서 설치하고, 아래주소에서 우분투 16버전의 iso를 다운받는다.
- VirtualBox의 새로만들기 > 종류[Linux] , 버전 [ Ubuntu64-bit ]를 지정해준다.
- 각종 옵션은 기본으로 준다.
우분투에서 가상환경 -> 파이썬 -> BeautifulSoup4 외 각종 라이브러리들 설치
- 우분투 설치가 완료되면 terminal을 띄운다. [ctrl + alt+ t]
- 우분투가 설치되면 필요한 패키지들을 설치하기전에, 우분투의 [패키지매니져를 업데이트] 해야한다.
sudo는 관리자권한 / apt-get는 패키지 매니져를 의미한다.
sudo apt-get update - [build-essential] 이라는 패키지를 설치한다. 컴파일러 gcc++ 등 라이브러리들을 설치하게 된다.
sudo apt-get install build-essential - 파이썬은 기본적으로 설치가 되어있다. 버전을 확인하는 방법은
python -V - 파이썬 콘솔로 들어가는 방법은 python을 치면 된다. 나가는 방법은 Ctrl+d
- [ pip파이썬 패키지매니져 ]를 설치하자. 파이썬 라이브러리(패키지)를 쉽게 관리해준다.
sudo apt-get install python-pip - [파이썬 가상환경 - 버츄얼env ]를 사용하자. 사용하던 가상환경을 서버환경으로 캡슐화하여 그대로 옮길 수 있다.
버추얼env를 편하게 사용하게 해주는 패키지인 [ virtualenvwrapper ]도 같이 설치하자. wrapper명령어를 사용할 수 있게 된다.
sudo pip install virtualenv virtualenvwrapper - 버추얼env세팅을 위해, vi루트를 이용해서 프로파일 설정 파일인 [bashrc]를 호출하자.
vi .bashrc
제일 밑으로가서 [ vitualenv에서 사용하는 홈디렉토리를 설정 ]해줘야한다. 변수명은 WORKON_HOME / 디렉토리명은 .virtualenvs 으로 지정한다.
진입시 e를 눌러서 에디터한다고 명시하고, 이 때, i를 눌러서 [insert모드]가 되어야한다.
export WORKON_HOME=$HOME/.virtualenvs
source /usr/local/bin/virtualenvwrapper.sh - esc를 누른뒤, :wq! 명령어를 통해서 저장하고 나온다.
- 터미널로 나와서 설정한 프로파일 설정을 적용시키자.
source .bashrc - 이제 가상환경의 이름을 적용해서 만들어보자. mk + virtualenv 가상환경이름
mkvirtualenv is2js - 가상환경을 빠져나오는 명령어
deactivate - 가상환경을 들어가는 명령어
workon is2js - 가상환경 (is2js)에서, 이제 본격적으로 beautifulsoup4을 설치하기에 앞서,
필요한 패지키 중 하나인 html코드를 분석해주는 [ lxml 이라는 파서] 설치해야한다.
sudo apt-get install libxml2-dev libxslt-dev python-dev zlib1g-dev - (sudo를 가지고 설치하는 것은 가상환경과 상관없이 리눅스 우분투 전체에 설치하는 것)
- 파이썬용 lxml을 설치시켜주자. (위에 설치할 때, 파이썬에서도 자동 설치해주므로 설치된 것으로 뜬다)
sudo apt-get install python-lxml - 파이썬pip패키지매니져를 이용해서[ 파이썬 환경에서 lxml 과 beautifulsoup4 ]을 설치하자.
pip install lxml
pip install beautifulsoup4 - scrapy 설치를 위한 추가 라이브러리를 미리 설치한다.
sudo apt-get install libffi-dev libssl-dev - pip매니져를 통해서 파이썬에 scrapy를 설치한다.
pip install Scrapy
설치한 가상환경 및 폴더들 확인하기
- 가상환경 홈디렉토리 가는 방법 : cd .virtualenvs/
- ls 명령어로 가상환경 확인
- cd 가상환경명 으로 진입
- ls로 bin/include/lib/local 등 확인할 수 있다. lib폴더에 각종 라이브러리들이 설치된다.
- cd lib로 라이브러리 폴더에 진입
- ls를 통해서 설치한 파이썬 확인후 진입
cd python2.7/ - ls를 통해서 각종 파일 확인
- cd명령어를 통해서 한번에 빠져나오기