/mrsekut-p/転置インデックス

generated at 2/18/2025, 6:22:10 PM
転置インデックス
Inverted index
その単語がどのページで使われいるかを表す表
本の索引みたいなやつ

用語
文書
Document
インデックスを用いる際の単位
本ならページ、サイトなら1ページ、メールなら1通など
ドキュメントID
文書を一意に特定する情報
本ならページ、サイトならURLとか？、メールならメールID?とか
ポスティング
文書と文書IDを対応付ける情報
p.1とかp.2とか
ポスティングリスト
各単語におけるポスティングの集合
ここに含まれる全てのポスティングのドキュメント中にその単語が含まれている
「p.1, p.2」とか
転値リスト
ポスティングリストの集合
単語レベルの転値リスト
Word-level inverted list
その単語がどの文書に存在するかだけでなく、その中の場所の情報も含む転置リスト
「こんにちは」が何ページにあるかだけでなく、何ページの何文字目にあるかなどもわかる
利用用途
そのポジションの場所によって検索結果のスコアの優劣を付けたりして使ったり。
複数単語の検索のときに、フレーズを検索するときに使える
ポジションが隣り合っているかどうかを知るために使える
単に文書の中に「hello」と「world」があればよいでのはなく、「hello world」というフレーズを探したい

日本語の場合
各単語が空白で区切られていないので、以下のような手段を用いて単語ごとに区切る必要がある
形態素解析
N-gram



作り方
まず全文書を単語に分解する
各単語がどのページで使われいるかを表す表を作る
a私は元気 おにぎりですアンパンマンはすけるわっしょい
p.111100001
p.200011101
p.300000110
↑この表を転置した表を作る
この際にキーワードをあいうえお順、アルファベット順にソートする
bp.1p.2p.3
アンパンマン011
おにぎり010
元気100
私100
です010
は100
はすける001
わっしょい110
これこんな感じにする↓と完成
よく見る索引だ
cアンパンマンp.2, p.3
おにぎりp.2
元気p.1
私p.1
ですp.2
はp.1
はすけるp.3
わっしょいp.1, p.2

辞書の実装
二分探索木
メモリ上にあるか、二次記憶装置上にあるかで少し形を変える必要がある
 p.30
Trie
B+ Tree


転置リストの実装
各ポスティングリストを二次記憶装置の連続した領域に格納する
なんで？
 p.33



/mrsekut-book-4873115892/222
https://tech.retrieva.jp/entry/2021/07/19/100259
	私	は	元気	おにぎり	です	アンパンマン	はすける	わっしょい
p.1	1	1	1	0	0	0	0	1
p.2	0	0	0	1	1	1	0	1
p.3	0	0	0	0	0	1	1	0
アンパンマン	p.2, p.3
おにぎり	p.2
元気	p.1
私	p.1
です	p.2
は	p.1
はすける	p.3
わっしょい	p.1, p.2