クロールは同一ドメイン内のページのみを対象とします。外部ドメインへのリンクは追跡されません。
クロールジョブの作成
1
ダッシュボードから「クロール」を選択

2
「新規ジョブ作成」をクリック

3
必要な情報を入力
- URL: クロール開始地点のURL
- 最大深度: リンクを辿る階層数(デフォルト: 10)
クロール設定の詳細
パスフィルター
特定のURLのパスのみを含めたい場合は、正規表現を使用することで辿るリンクを制限できます例
- URL: https://example.com/docs
- パスフィルター:
^/docs/
/docsから辿れる/docs/quickstart.html・/docs/introduction.html・/docs/example.htmlはクロールされます。/docsの上位のディレクトリはクロールされません。/docsから辿れない/docs/orphan.htmlはパスに/docsが含まれていたとしてもクロールされません。パスフィルターに含まれるのはあくまでクロール対象のURLのパスであり、クロール開始地点から辿れるURLに限定されます。
コンテンツパターン
リンクを辿った後に取り込むコンテンツを指定できます:パスフィルターは前処理的に、コンテンツパターンは後処理的に動作します。
HTMLファイルのみをダウンロード
HTMLファイルのみをダウンロードするオプションを有効にできます。ヘッドレスブラウザの使用
javascriptで動的に生成されるコンテンツを取得するためにヘッドレスブラウザを使用できます。ダウンロードするファイル拡張子
以下のファイル形式がダウンロードされます。クロールされたファイルはジョブ詳細から確認できます。
- html
- gz
- js
- jpg
- md
- py
- css
- js
- json
- xml
- txt
- csv
- jpg
- png
- gif
- svg
- zip
- mp4
- bin
検索可能なファイル拡張子
ダウンロードされたファイルの内、以下のファイル形式が検索・チャットの回答生成に使用されます。- html
- ppt
- pptx
- pptm
- doc
- docx
- docm
- xls
- xlsx
- xlsm
- md
- txt

