scrapy
ウェブクローリングのフレームワークです。 もっと詳しく: https://scrapy.org。
- プロジェクトを作成する:
scrapy startproject
プロジェクト名
- スパイダーを作成する (プロジェクトのディレクトリ内での実行):
scrapy genspider
スパイダー名
ウェブサイトのドメイン名
- スパイダーを編集する (プロジェクトのディレクトリ内での実行):
scrapy edit
スパイダー名
- スパイダーを実行する (プロジェクトのディレクトリ内での実行):
scrapy crawl
スパイダー名
- Scrapyが見るようにWebページを取得しソースを
stdout
(標準出力)に表示する:
scrapy fetch
url
- Scrapyが見ているようにデフォルトブラウザ内でウェブページを開く(より応答に忠実であるようにするためにJavaScriptを無効化している):
scrapy view
url
- URL用のScrapyシェルを開き、Python(もしくは可能であればIPython)シェル内でページソースとの対話式でのやり取りを可能にする:
scrapy shell
url