scrapy

ウェブクローリングのフレームワークです。もっと詳しく: https://scrapy.org。

プロジェクトを作成する:

scrapy startproject プロジェクト名

スパイダーを作成する (プロジェクトのディレクトリ内での実行):

scrapy genspider スパイダー名ウェブサイトのドメイン名

スパイダーを編集する (プロジェクトのディレクトリ内での実行):

scrapy edit スパイダー名

スパイダーを実行する (プロジェクトのディレクトリ内での実行):

scrapy crawl スパイダー名

Scrapyが見るようにWebページを取得しソースをstdout(標準出力)に表示する:

scrapy fetch url

Scrapyが見ているようにデフォルトブラウザ内でウェブページを開く(より応答に忠実であるようにするためにJavaScriptを無効化している):

scrapy view url

URL用のScrapyシェルを開き、Python(もしくは可能であればIPython)シェル内でページソースとの対話式でのやり取りを可能にする:

scrapy shell url

English version 한국어 version 中文 version

Report New Issue View Source