generated at
検索エンジン
普通に検索アルゴリズムの話もあるので検索アルゴリズムとかにしたほうがいいかも?mrsekut
例えば意味解析の中で検索の話が一部出てくるが、検索エンジンとは違うので、関連させづらいmrsekut


構成
Index Manager
インデックスの構造を持つデータを管理する
インデックスはバイナリファイルで管理する
なので、二次記憶装置からの読み出し量をできるだけ減らしたい
Index Searcher
インデックスを用いて全文検索処理を行う
ユーザーから受け取った検索クエリに適合する結果を並び替えてその上位を返す
Indexer
インデックス構築をする
検索対象のテキスト文書からインデックスを作成する
テキスト文書を単語に分解して、インデックス構造に変換する
Document Manager
検索対象の文書を蓄えるDB
クエリに適合するものを取り出して返す
DBMSDBMが使われる

全文検索の方法
grepコマンドとかはこれ
KMP法BM法など
インデックスを用いる
事前にインデックスを作成しておく必要がある
どれぐらい時間かかるの #??
文書の量が増えても検索速度が落ちにくい




検索システム


検索エンジンを自作した人の記事
Python


検索エンジンの評価指標


自作する

参考
チューニング。機械学習の話
Pairs
論文集

検索エンジンのABテスト