DuckDBファイル

DuckDBとは

DuckDBは軽量かつ高速なインプロセス型分析用データベースです。ローカルでのデータ分析・ETL処理に適しています。詳細な情報とインストール手順は公式ドキュメントを参照してください。

ダウンロードしたファイルはDuckDB形式で保存されており、以下３つのテーブルが含まれています。

検索・チャットで使用されるチャンクデータが格納されています。

Column	Type	Description
id	`VARCHAR`	チャンクのID
source_type	`VARCHAR`	ソースの種類
source_id	`VARCHAR`	ソースのID （例：クロールではファイル毎に一意なID）
source_group_id	`VARCHAR`	ソースグループのID （例：クロールではジョブ毎に一意なID）
source_creation_time	`TIMESTAMP`	ソースの作成時間
text	`VARCHAR`	チャンクのテキスト
index	`INTEGER`	チャンクの順番
title	`VARCHAR`	チャンクのタイトル
url	`VARCHAR`	チャンクのURL
page	`INTEGER`	ページ番号
content_type	`VARCHAR`	コンテンツタイプ
named_entities	`VARCHAR[]`	形態素解析器によって抽出された名詞

クロールによってダウンロードしたHTMLのページ情報が格納されています。

クロールによってダウンロードしたファイル情報が格納されています。