Skip to main content

DuckDBとは

DuckDBは軽量かつ高速なインプロセス型分析用データベースです。ローカルでのデータ分析・ETL処理に適しています。 詳細な情報とインストール手順は公式ドキュメントを参照してください。

エクスポート手順

  1. サイドバーから「DuckDBファイル」を選択
  2. 「新規ジョブ作成」または「DuckDBファイルの再作成」をクリック
  3. DuckDBファイルのダウンロードURLが発行されるので、そのURLにアクセスしてダウンロード

スキーマ

ダウンロードしたファイルはDuckDB形式で保存されており、以下3つのテーブルが含まれています。
  • chunks
  • crawled_pages
  • crawled_files

テーブル: chunks

検索・チャットで使用されるチャンクデータが格納されています。
ColumnTypeDescription
idVARCHARチャンクのID
source_typeVARCHARソースの種類
source_idVARCHARソースのID
(例:クロールではファイル毎に一意なID)
source_group_idVARCHARソースグループのID
(例:クロールではジョブ毎に一意なID)
source_creation_timeTIMESTAMPソースの作成時間
textVARCHARチャンクのテキスト
indexINTEGERチャンクの順番
titleVARCHARチャンクのタイトル
urlVARCHARチャンクのURL
pageINTEGERページ番号
content_typeVARCHARコンテンツタイプ
named_entitiesVARCHAR[]形態素解析器によって抽出された名詞

テーブル: crawled_pages

クロールによってダウンロードしたHTMLのページ情報が格納されています。
ColumnTypeDescription
idVARCHARページのID
timeTIMESTAMP時間
crawl_idVARCHARクロールのID
urlVARCHARURL
titleVARCHARタイトル
languageVARCHAR言語
charsetVARCHAR文字セット
metadataMAP(VARCHAR, VARCHAR)メタデータ
linksVARCHAR[]ページに含まれるリンク
link_fromVARCHARクロール時に辿ったリンク元
canonical_urlVARCHAR正規化URL
statusINTEGERステータス

テーブル: crawled_files

クロールによってダウンロードしたファイル情報が格納されています。
ColumnTypeDescription
idVARCHARファイルのID
creation_timeTIMESTAMP作成時間
crawl_idVARCHARクロールのID
urlVARCHARURL
lengthINTEGERファイルの長さ
ct_labelVARCHARコンテンツタイプ