/nota-private-sample/全文検索の盲点

generated at 2/16/2025, 2:18:07 PM
全文検索の盲点
 2018/4/6 13:52
全文検索が便利なのは確かなのだが足りないところも多い
ということに気付いてない人も多いのではなかろーか


問題点
みつかった情報の周辺情報がわからない
微妙に用語が違うとみつからない

この両方ともリンクで解決できるわけだから、リンクが沢山ある情報を全文検索するのが正しい
と思うのだけれど、これを説得力ある表現できるだろうか?
逆パターンだけど、リンク構造だけで見つかるの？って聞かれた時に、全文検索して見つけた近そうなページから最悪でも2,3クリックで見つかるよと言うと納得されますね
道のメタファーの話
 
そういう説明は良い気がする

検索結果は謎のスコアでソートされて出てくるが、順番に納得いかない場合も多い
javaだけ探したいのにjavascriptばかり出てくる
javascriptを除外すると、両方に言及してるページも除外されてしまう
リンク構造が無いドキュメント群を全文検索するのは、Google以前に戻るのと同じ
pagerankはリンク構造からスコアを算出する物だから、リンク構造が無いドキュメント群をただ全文検索するだけでは使い物にならない

一番の問題は、ソートだと思う
組織内の情報がtf-idfや日付順で並べられても欲しい情報に一ページ目ではたどり着けないことが多い。
すると更新できないので重複した似たようなページがますますたくさん作られてさらにゴミの山になる
「ページビュー」順にするのは一つありそうだが、一ページ目の上にくるものにpageviewが集まりそうなのでたぶん機能しない
あとは「いいね」等によるランキングだが、これもいまいちそう
↑のshokaiのいうようにGoogle以前に戻る

分散しがちな情報の管理にScrapboxを使う

#検索