2. scrapy 및 selenium 설치하기(Windows용)
scrapy사용을 위한 파이썬 2(2.7)버전 설치하기
scrapy는 파이썬3에서는 제공되지 않으므로, 웹 스크래핑 & 크롤링시에는 파이썬 2.7를 설치해서 사용해야한다.
1. Anaconda Prompt를 켜고, conda명령어로 가상의 파이썬툴 환경을 구성할 수 있다. 여기에 python 2.7을 설치해준다.
py27이라는 가상환경이 생성된다.
conda create –n py27 python=2.7
2. 만들어놓은, py27이라는 가상의 파이썬툴을 activate시켜야한다. 아래 명령어를 실행하면, (py27)환경에서 파이썬이 준비되어있게 된다.
activate py27
3. 파이썬 버전을 확인해보자.
python --version
4. 만약 웹스크롤링 & 스크래핑 작업이 끝났으면, deactivate 시켜서 다시 python3환경 (base)로 돌아와야한다.
deactivate
scrapy 설치를 위해, 추가 파이썬 라이브러리(lxml + pypiwin32 + c++compiler) 설치하기
1. https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 사이트에 들어간 뒤, cp27-cp27- 64비트를 찾아서 다운로드한다.
.whl 확장자는 수동설치 파일이다. 파이썬 2.7버전이기 때문에 cp2727을 받은 받는 것이다.
2. 다운받은 whl파일을, 설치시 편의를 위해, 홈폴더인C:\Users\cho 에 갖다놓는다.
3. 이제 Prompt에서, (py27)환경을 activate된 상태에서, pip install + 파일명을 통해 인스톨한다. 이때, tab을 이용해서 자동완성 시키자.
4. 윈도우에서 필요로하는, pypiwin32를 설치해야한다. 다운 받은 whl파일에 대한 라이브러리 설치를 한다.
pip install pypiwin32
5. Microsoft Visual C++ complier for python 2.7 를 다운받고 설치해주자.
http://www.microsoft.com/en-us/download/details.aspx?id=44266
Scrapy 설치
1. prompt에서 pip install Scrapy를 쳐서 설치한다.
Selenium 설치
1. prompt에서 pip install selenium 를 쳐서 설치한다.
2. selenium은 자동화 브라우저 라이브러리이다. 그 브라우저를 사용하기 위한 드라이버 프로그램이 필요로한다.
크롬에서 제공하는 크롬드라이버를 windows용 가장 최근버전을 다운 받자.
https://sites.google.com/a/chromium.org/chromedriver/downloads
압축을 풀고, 드라이버파일을, 홈폴더로 옴긴다.
Selenium을 사용할 때 마다, 드라이버 실행파일을 호출해야한다.
Scrapy 테스트하기
1. (py27)환경을 activate 한 상태에서, scrapy shell “웹사이트 주소” 형식으로 호출해보자.
scrapy shell https://www.flearning.net/courses/6
웹 페이지를 대상으로 scrapy에서 shell형태의 또다른 인터렉티브 프로그램을 제공한다.
2. shell에다가 response.text 명령어를 입력하면, html소스코드를 가져오는 것을 확인할 수 있다.
3. 확인이 끝나면 exit()명령어로 나오면 된다.
Selenium 테스트하기
1. 먼저 (py27)환경에서도 ipython을 새로 설치해야한다. (그렇지 않으면 2.7상태에서 ipython 치면 3.6버전으로 인식된다)
conda install notebook ipykernel
2.(py27)환경에서 ipython으로 진입한다
3. selenium이라는 모듈에서, webdriver를 import한다.
from selenium import webdriver
4. webdriver라이브러리를 이용해서, 크롬드라이버를 실행시키고, 그것을 변수 browser에 저장하자. 새로운 크롬 브라우저가 뜨는 것을 알 수 있다
browser = webdriver.Chrome("C:/Users/Cho/chromedriver.exe")
5. 자동화 브라우저를 이용해서, 웹페이지를 띄울 수 있다.
browser.get(http://asdfkakd.com)
6. 다 사용하고 나면 끌 수 있다.
browser.quit()
'빅데이터 관련 프로그래밍 > 웹 크롤링 - scrapy & selenium' 카테고리의 다른 글
참고 : 2가지 크롤링 요약 (0) | 2018.03.11 |
---|---|
5. 동적 웹페이지 웹 스크래핑하기(scrapy+selenium) + 파이썬3.6에 설치 (8) | 2018.03.11 |
4. 정적 웹페이지 웹크롤링 -> 웹 스크래핑 하기(scrapy) (4) | 2018.03.09 |
3. Scrapy 기본구조와 간단한 웹 스크래핑 (2) | 2018.03.08 |
1. 웹 크롤링(스크래핑)의개념과 Scrapy & Selenium (1) | 2018.03.06 |