| モード | 用途 |
|---|---|
| URL指定 | 開始URLからリンクを辿ってサイト全体をクロール |
| URLリスト | 指定したURLのファイルを直接ダウンロード |
クロールジョブの作成(URL指定)
開始URLからリンクを辿り、同一ホスト(開始URLと同じホスト名)のページをクロールします。クロールジョブの作成(URLリスト)
ダウンロードしたいURLが決まっている場合は、URLリストモードを使用してファイルを直接ダウンロードできます。リンクを辿る必要がないため、異なるドメインのURLも混在させることができます。URLリストモードではリンクの探索を行わないため、パスフィルターや最大深度などのクロール設定は不要です。最大取得ファイル数はURL件数に自動で合わせられ、ダウンロード上限として適用されます。
クロール設定の詳細(URL指定モード)
以下の設定はURL指定モードでのみ使用できます。パスフィルター
特定のURLのパスのみを含めたい場合は、正規表現を使用することで辿るリンクを制限できます例
- URL: https://example.com/docs
- パスフィルター:
^/docs/
/docsから辿れる/docs/quickstart.html・/docs/introduction.html・/docs/example.htmlはクロールされます。/docsの上位のディレクトリはクロールされません。/docsから辿れない/docs/orphan.htmlはパスに/docsが含まれていたとしてもクロールされません。パスフィルターに含まれるのはあくまでクロール対象のURLのパスであり、クロール開始地点から辿れるURLに限定されます。
コンテンツパターン
リンクを辿った後に取り込むコンテンツを指定できます:パスフィルターは前処理的に、コンテンツパターンは後処理的に動作します。
HTMLファイルのみをダウンロード
HTMLファイルのみをダウンロードするオプションを有効にできます。ヘッドレスブラウザの使用
javascriptで動的に生成されるコンテンツを取得するためにヘッドレスブラウザを使用できます。ダウンロードするファイル拡張子
共通でサポートされているファイル形式に加えて、以下の拡張子のファイルがダウンロードされます。- bin
- css
- csv
- gif
- gz
- js
- json
- py
- svg
- xml
- zip




