scrapy

ウェブクローリングのフレームワークです。 もっと詳しく: https://scrapy.org

  • プロジェクトを作成する:

scrapy startproject プロジェクト名

  • スパイダーを作成する (プロジェクトのディレクトリ内での実行):

scrapy genspider スパイダー名 ウェブサイトのドメイン名

  • スパイダーを編集する (プロジェクトのディレクトリ内での実行):

scrapy edit スパイダー名

  • スパイダーを実行する (プロジェクトのディレクトリ内での実行):

scrapy crawl スパイダー名

  • Scrapyが見るようにWebページを取得しソースをstdout(標準出力)に表示する:

scrapy fetch url

  • Scrapyが見ているようにデフォルトブラウザ内でウェブページを開く(より応答に忠実であるようにするためにJavaScriptを無効化している):

scrapy view url

  • URL用のScrapyシェルを開き、Python(もしくは可能であればIPython)シェル内でページソースとの対話式でのやり取りを可能にする:

scrapy shell url