クロールは同一ドメイン内のページのみを対象とします。外部ドメインへのリンクは追跡されません。
クロールジョブの作成
クロール設定の詳細
パスフィルター
特定のURLのパスのみを含めたい場合は、正規表現を使用することで辿るリンクを制限できます例
- URL: https://example.com/docs
- パスフィルター:
^/docs/
/docsから辿れる/docs/quickstart.html・/docs/introduction.html・/docs/example.htmlはクロールされます。/docsの上位のディレクトリはクロールされません。/docsから辿れない/docs/orphan.htmlはパスに/docsが含まれていたとしてもクロールされません。パスフィルターに含まれるのはあくまでクロール対象のURLのパスであり、クロール開始地点から辿れるURLに限定されます。
コンテンツパターン
リンクを辿った後に取り込むコンテンツを指定できます:パスフィルターは前処理的に、コンテンツパターンは後処理的に動作します。
HTMLファイルのみをダウンロード
HTMLファイルのみをダウンロードするオプションを有効にできます。ヘッドレスブラウザの使用
javascriptで動的に生成されるコンテンツを取得するためにヘッドレスブラウザを使用できます。ダウンロードするファイル拡張子
共通でサポートされているファイル形式に加えて、以下の拡張子のファイルがダウンロードされます。- bin
- css
- csv
- gif
- gz
- js
- json
- py
- svg
- xml
- zip



