Skip to main content
URLを指定し、そこからリンクを辿ってWebサイト全体をクロールし、コンテンツを収集します。
クロールは同一ドメイン内のページのみを対象とします。外部ドメインへのリンクは追跡されません。

クロールジョブの作成

1

ダッシュボードから「クロール」を選択

クロールのダッシュボード
2

「新規ジョブ作成」をクリック

クロールのジョブ作成モーダル
3

必要な情報を入力

  • URL: クロール開始地点のURL
  • 最大深度: リンクを辿る階層数(デフォルト: 10)
クロールに時間がかかりすぎる場合はジョブが停止します。
必要に応じて最大深度を調整するか、パスフィルターを設定してください。

クロール設定の詳細

パスフィルター

特定のURLのパスのみを含めたい場合は、正規表現を使用することで辿るリンクを制限できます

  • /docs から辿れる /docs/quickstart.html/docs/introduction.html/docs/example.html はクロールされます。
  • /docs の上位のディレクトリはクロールされません。
  • /docs から辿れない /docs/orphan.html はパスに /docs が含まれていたとしてもクロールされません。パスフィルターに含まれるのはあくまでクロール対象のURLのパスであり、クロール開始地点から辿れるURLに限定されます。

コンテンツパターン

リンクを辿った後に取り込むコンテンツを指定できます:
.*\.(pdf|pptx)$          # pdfとpptxファイルのみを含める
.*\?utm_.*               # UTMパラメータ付きURLのみを含める
パスフィルターは前処理的に、コンテンツパターンは後処理的に動作します。

HTMLファイルのみをダウンロード

HTMLファイルのみをダウンロードするオプションを有効にできます。

ヘッドレスブラウザの使用

javascriptで動的に生成されるコンテンツを取得するためにヘッドレスブラウザを使用できます。
ヘッドレスブラウザはリソースを多く消費するため、使用する場合は最大深度を小さくすることをお勧めします。

ダウンロードするファイル拡張子

以下のファイル形式がダウンロードされます。
クロールされたファイルはジョブ詳細から確認できます。
  • html
  • gz
  • js
  • jpg
  • md
  • py
  • css
  • js
  • json
  • xml
  • txt
  • csv
  • jpg
  • png
  • gif
  • svg
  • pdf
  • zip
  • mp4
  • bin

検索可能なファイル拡張子

ダウンロードされたファイルの内、以下のファイル形式が検索・チャットの回答生成に使用されます。
  • html
  • pdf
  • ppt
  • pptx
  • pptm
  • doc
  • docx
  • docm
  • xls
  • xlsx
  • xlsm
  • md
  • txt