Skip to main content
WebサイトのURLを指定してリンクを辿るクロールや、URLリストを指定した直接ダウンロードによって、コンテンツを収集します。 ジョブ作成時に「URL指定」と「URLリスト」の2つのモードを選択できます。
モード用途
URL指定開始URLからリンクを辿ってサイト全体をクロール
URLリスト指定したURLのファイルを直接ダウンロード

クロールジョブの作成(URL指定)

開始URLからリンクを辿り、同一ホスト(開始URLと同じホスト名)のページをクロールします。
1

ダッシュボードから「クロール」を選択

クロールのダッシュボード
2

「新規ジョブ作成」をクリック

クロールのジョブ作成モーダル
3

「URL指定」タブで必要な情報を入力

  • URL: クロール開始地点のURL
  • 最大深度: リンクを辿る階層数(デフォルト: 1)
  • 最大取得ファイル数: 取得するファイル数(デフォルト: 100)
取得でエラーが発生した場合は最大取得ファイル数より少ない数で終了することがあります。
クロールに時間がかかりすぎる場合はジョブが停止します。
必要に応じて最大深度か最大取得ファイル数を調整するか、パスフィルターを設定してください。

クロールジョブの作成(URLリスト)

ダウンロードしたいURLが決まっている場合は、URLリストモードを使用してファイルを直接ダウンロードできます。リンクを辿る必要がないため、異なるドメインのURLも混在させることができます。
1

ダッシュボードから「クロール」を選択

クロールのダッシュボード
2

「新規ジョブ作成」をクリック、「URLリスト」タブを選択

クロールのジョブ作成モーダル(URLリスト)
3

URLリストを入力

1行に1つのURLを入力します。# で始まる行はコメントとして無視されます。
https://example.com/docs/guide.pdf
https://example.com/docs/tutorial.pdf
# 以下はサンプルページ
https://example.com/samples/demo.html
URLリストモードではリンクの探索を行わないため、パスフィルターや最大深度などのクロール設定は不要です。最大取得ファイル数はURL件数に自動で合わせられ、ダウンロード上限として適用されます。

クロール設定の詳細(URL指定モード)

以下の設定はURL指定モードでのみ使用できます。

パスフィルター

特定のURLのパスのみを含めたい場合は、正規表現を使用することで辿るリンクを制限できます

  • /docs から辿れる /docs/quickstart.html/docs/introduction.html/docs/example.html はクロールされます。
  • /docs の上位のディレクトリはクロールされません。
  • /docs から辿れない /docs/orphan.html はパスに /docs が含まれていたとしてもクロールされません。パスフィルターに含まれるのはあくまでクロール対象のURLのパスであり、クロール開始地点から辿れるURLに限定されます。

コンテンツパターン

リンクを辿った後に取り込むコンテンツを指定できます:
.*\.(pdf|pptx)$          # pdfとpptxファイルのみを含める
.*\?utm_.*               # UTMパラメータ付きURLのみを含める
パスフィルターは前処理的に、コンテンツパターンは後処理的に動作します。

HTMLファイルのみをダウンロード

HTMLファイルのみをダウンロードするオプションを有効にできます。

ヘッドレスブラウザの使用

javascriptで動的に生成されるコンテンツを取得するためにヘッドレスブラウザを使用できます。
ヘッドレスブラウザはリソースを多く消費するため、使用する場合は最大深度か最大取得ファイル数を小さくすることをお勧めします。

ダウンロードするファイル拡張子

共通でサポートされているファイル形式に加えて、以下の拡張子のファイルがダウンロードされます。
  • bin
  • css
  • csv
  • gif
  • gz
  • js
  • json
  • py
  • svg
  • xml
  • zip