generated at
pEnglish2023-12-13

英訳Quartz路線、一旦ペンディング
Quartzは無限にカスタマイズできるのでカスタマイズしたくなってしまってフォーカスがブレている

/nishio-gptとった
/nishio-enと並走して、こっちが良いと思ったらswapする


13379/17510 pages が日本語タイトル

2023-12-14
出現頻度トップ50件のページタイトルを見る
:
[(409728, 't'), (328529, 'a'), (264644, 's'), (40320, 'en'), (18467, 'shio'), (17684, 'nishio'), (15917, 'ing'), (5382, 'Scrapbox'), (5211, '言語'), (4129, 'Q')]
おかしなやつは数件だな

Scrapboxのリンク情報の調査
リンクの情報はエクスポートしたJSONには含まれていない
メタデータをtrueにしても含まれていない
linksに赤リンクも青リンクも含まれている
persistentでないページへのリンクはrelatedPages/links1hopに含まれない
これにはバックリンクが含まれる
persistentでないが、2hop linkがつながるので青いリンクはrelatedPages/links2hopに含まれる
linksLcだけしかない
linksは小文字化されてない
やっと青リンクと赤リンクの識別ができるようになった
External linksについて
projectLinksにはバックリンクが含まれない
relatedPages/projectLinks1hopにはバックリンクが含まれる
含まれない?
あー、わかった、これブラウザのログインユーザの情報によってAPIが返す情報が違うんだ
だからブラウザでAPIを叩いて観察した時には含まれてて、スクリプトから認証情報を積まずにAPIを叩いた時には含まれてないんだ
うえー、めんどくさー
保留!

何をしようとしていたかというと、翻訳によってリンクが切れないことを保証するためにリンクタイトルが常に安定した翻訳をされるようにする
blu3moは確かページタイトルを先に翻訳するアプローチをしてたと思ってて、僕もその実装をしてたんだけど「あれ?2ホップリンクでつながる場合はページが存在しないからページタイトルの翻訳だけでは切れるのでは?」と思った
そうですblu3mo
なので、確か全ページにある青リンク+赤リンクを取得して翻訳したはずblu3mo
なるほど、赤リンクも含めるとかなり量が増えると思ったが、それをやったのかnishio

他のページのタイトル文字列を含んでる個数ランキング
トップは書籍目次なので当然だな
勉強会とイベントの記録が多い
単純に分量が多いからかな
🌀や🤖が多いのは機械的に増やしてるのであまり重要ではない
やっぱ翻訳対象から外すかな
機械的ページを取り除くと、だいたい勉強会やイベントの長大な記事だ
これらは更新頻度が高くない
色々なページのタイトルを含んでいるということは、ここからいろんなページに飛べるということか
通常のシステムで翻訳できるかトライして、大きすぎてダメだったら手動で分割して翻訳するのでもいいかもね
タイトルの翻訳コスト


2023-12-17
>13379/17510 pages が日本語タイトル
ページのクロールデータを元にページタイトルになってないもの、赤リンクも含めたリンクタイトルを取得した
28178/33584が日本語タイトル
これも翻訳する

2023-12-18
すべてのリンクの翻訳、寝てる間に終わった