DuckDBとは
DuckDBは軽量かつ高速なインプロセス型分析用データベースです。ローカルでのデータ分析・ETL処理に適しています。 詳細な情報とインストール手順は公式ドキュメントを参照してください。エクスポート手順
- サイドバーから「DuckDBファイル」を選択
- 「新規ジョブ作成」または「DuckDBファイルの再作成」をクリック
- DuckDBファイルのダウンロードURLが発行されるので、そのURLにアクセスしてダウンロード
スキーマ
ダウンロードしたファイルはDuckDB形式で保存されており、以下3つのテーブルが含まれています。- chunks
- crawled_pages
- crawled_files
テーブル: chunks
検索・チャットで使用されるチャンクデータが格納されています。| Column | Type | Description |
|---|---|---|
| id | VARCHAR | チャンクのID |
| source_type | VARCHAR | ソースの種類 |
| source_id | VARCHAR | ソースのID (例:クロールではファイル毎に一意なID) |
| source_group_id | VARCHAR | ソースグループのID (例:クロールではジョブ毎に一意なID) |
| source_creation_time | TIMESTAMP | ソースの作成時間 |
| text | VARCHAR | チャンクのテキスト |
| index | INTEGER | チャンクの順番 |
| title | VARCHAR | チャンクのタイトル |
| url | VARCHAR | チャンクのURL |
| page | INTEGER | ページ番号 |
| content_type | VARCHAR | コンテンツタイプ |
| named_entities | VARCHAR[] | 形態素解析器によって抽出された名詞 |
テーブル: crawled_pages
クロールによってダウンロードしたHTMLのページ情報が格納されています。| Column | Type | Description |
|---|---|---|
| id | VARCHAR | ページのID |
| time | TIMESTAMP | 時間 |
| crawl_id | VARCHAR | クロールのID |
| url | VARCHAR | URL |
| title | VARCHAR | タイトル |
| language | VARCHAR | 言語 |
| charset | VARCHAR | 文字セット |
| metadata | MAP(VARCHAR, VARCHAR) | メタデータ |
| links | VARCHAR[] | ページに含まれるリンク |
| link_from | VARCHAR | クロール時に辿ったリンク元 |
| canonical_url | VARCHAR | 正規化URL |
| status | INTEGER | ステータス |
テーブル: crawled_files
クロールによってダウンロードしたファイル情報が格納されています。| Column | Type | Description |
|---|---|---|
| id | VARCHAR | ファイルのID |
| creation_time | TIMESTAMP | 作成時間 |
| crawl_id | VARCHAR | クロールのID |
| url | VARCHAR | URL |
| length | INTEGER | ファイルの長さ |
| ct_label | VARCHAR | コンテンツタイプ |

