全文検索の盲点

2018/4/6 13:52
ということに気付いてない人も多いのではなかろーか
問題点
みつかった情報の周辺情報がわからない
微妙に用語が違うとみつからない
この両方とも
リンクで解決できるわけだから、リンクが沢山ある情報を全文検索するのが正しい
と思うのだけれど、これを説得力ある表現できるだろうか?
逆パターンだけど、リンク構造だけで見つかるの?って聞かれた時に、全文検索して見つけた近そうなページから最悪でも2,3クリックで見つかるよと言うと納得されますね

そういう説明は良い気がする
検索結果は謎のスコアでソートされて出てくるが、順番に納得いかない場合も多い
javaだけ探したいのにjavascriptばかり出てくる
javascriptを除外すると、両方に言及してるページも除外されてしまう
pagerankはリンク構造からスコアを算出する物だから、リンク構造が無いドキュメント群をただ全文検索するだけでは使い物にならない
一番の問題は、ソートだと思う

組織内の情報が
tf-idfや日付順で並べられても欲しい情報に一ページ目ではたどり着けないことが多い。
すると更新できないので重複した似たようなページがますますたくさん作られてさらにゴミの山になる
「ページビュー」順にするのは一つありそうだが、一ページ目の上にくるものにpageviewが集まりそうなのでたぶん機能しない
あとは「いいね」等によるランキングだが、これもいまいちそう
↑のshokaiのいうようにGoogle以前に戻る