表記揺れ
送り仮名の違い、長音の有無、字種違い、などの同じ単語であっても異なる表記のこと。
表記ゆれ自体が表記ゆれしている・・
表記揺れを吸収するのではなく、消すというのはどうか?
正式な表記を1つ決めてそれ以外の表記をすると自動的に置換される
活用のある品詞(動詞・形容詞・形容動詞)をページ名に使うと送り仮名の違いで表記ゆれが起こるため
曖昧な表現を束ねて管理したい
意味にIDを振る?
複雑化しそう
デライトはがんばってこれを解決しようとしているが、お世辞にも使い勝手がいいとは言えない
それともUIの問題であり、サジェストが進化したら解決する?
cons: リンククリック数が増えるのが少々手間
言語系の機械学習やっている学会誌とか覗けば、意外と解決手法が載っていたりするかも
自然言語処理の研究室で研究しているものです。
学部生なんでしょぼいもんですが
現状として、教科書レベルの対応として以下が挙げられます
非常に現実的です!「2ちゃんねる」と「2ちゃんねる」ぐらいの表記揺れならなんとかなります
語の活用変化の修正
活用基本形への修正、語末の切断などの対応方法があります
実現にはちゃんとした知識が必要
外部ツールが使えるなら楽
mecabなど
sub-word特徴の利用
文字n-gram、Character Convolution など
大規模なデータ収集でまとめて学習しておくならUserScriptでも可能かも
機械学習(特にニューラルネットワークとか)
とてもじゃないがUserScriptのみでの対応は考えないほうがいい
外部通信前提
かなり柔軟な表記揺れ解消が望める
いや、推論器だけを載せるならいける。。。?
サクサク動くかとか色々考えることがある
でも、機械学習レベルにならないと、「SNS」と「 Social media」とかの、「表記が全然違うけど同じ意味」の吸収は地獄です
あ、wikipediaの記事とかから類似度計算する?
なんにせよめんどい
まぁ検索システムを扱うところは実際どこも真剣で
切実な問題でしょうね。。。