scrapy

웹 크롤링 프레임워크. 더 많은 정보: https://scrapy.org.

  • 프로젝트 생성:

scrapy startproject 프로젝트_이름

  • 스파이더 생성 (프로젝트 디렉토리에서):

scrapy genspider 스파이더_이름 웹사이트_도메인

  • 스파이더 편집 (프로젝트 디렉토리에서):

scrapy edit 스파이더_이름

  • 스파이더 실행 (프로젝트 디렉토리에서):

scrapy crawl 스파이더_이름

  • Scrapy가 인식하는 방식으로 웹페이지를 가져와 stdout에 소스 출력:

scrapy fetch URL

  • Scrapy가 인식하는 방식으로 웹페이지를 기본 브라우저에서 열기 (더 정확하게 보려면 JavaScript 비활성화):

scrapy view URL

  • URL에 대한 Scrapy 셸 열기, 이 셸을 통해 Python 셸(IPython이 가능하다면)을 사용하여 페이지 소스와 상호작용 가능:

scrapy shell URL