generated at
Elasticsearchでkangxi radicalsを正規化して検索する
見た目は同じだがcodepointが違う文字がある
kangxi radicalsと呼ばれる

食と⾷
金と⾦


CodePointを見る
給 32102
食 39135
給 32102
⾷ 12215
借 20511
金 37329
借 20511
⾦ 12198

原因
39135が普通の食
テキストをPDF化した時に、見た目が同じでよりcodepointが先に現れる12215の方になってしまうらしい

Scrapboxでの対応
Elasticsearchにindexする時に、Kangxi radicalsを普通の文字に変換してから書き込む
検索queryもKangxi radicalsを普通の文字に変換してから投げる
PDF に謎の漢字が含まれるとき · GitHubにある対応表を使わせてもらった


Chromeのページ内検索は両方を丸めて検索していて優秀