pEnglish2023-12-19
タイトル合流問題
ScrapboxのエクスポートJSONにおいてpagesがlistなのが問題
同一タイトルの衝突に気づかない
そこで一旦 {title: page}
にする
今の実装
jaアイコンがついてたら翻訳せずにスキップ
enアイコンがついてたら上書き
それで機能はするけど上書きで消える「翻訳する必要のないもの」を翻訳しちゃうね
正しくは?
まずアイコンの有無でページを分ける
どちらのアイコンもついていないページについて
タイトルが日本語ならタイトルだけ翻訳してみる
その結果、既存のページタイトルと一致したなら合流問題が発生している
タイトルが英語の場合は、翻訳で変換されず、自分自身と一致するが、これは問題ない
リンク構造だけ実験的に生成してみる
most linkedで見る
あ、バグってる、やり直し
大体できてる
pRegroupとかがないのはなぜだ?
ページ自体はある
あー、わかった
日本語のリンクタイトルについて英訳したマッピングデータを持っている
このマッピングに出現したものをリンクとして挿入している
なので
pRegroupなどのアルファベットのみのタイトルのページへのリンクが生成されてない
翻訳時に英語のリンクが壊れる可能性もあるわけだから英語のリンクも補完の対象であるべきか
タイトル合流のパターン
サピア=ウォーフ仮説
と サピア=ウォーフの仮説
両方 Sapir-Whorf Hypothesis
になる
これもか
"不毛な水掛け論": "Barren Debate",
"不毛な議論": "Barren Debate",
僕が区別してる概念をGPT3.5が同一視してるケース
"誤った二者択一": "False dichotomy",
"誤った二項対立": "False dichotomy",
"誤った真偽二分法": "False dichotomy",
本当にFalse dichotomyを指してるものだけなぜか間違ってる
"誤った二分法": "Incorrect Bisection Method",
こうした✅
"誤った二者択一": "False binary choice",
"誤った二項対立": "False binary opposition",
"誤った真偽二分法": "False True/False dichotomy",
"誤った二分法": "False dichotomy",
だいぶいい感じになった
多分一致はしない、翻訳によって概念が合流するから
翻訳による71件の衝突