book_index の infobox についてどのような検討を行なったのかという記録
book_index の infobox 更新記録
思い起こせばもう7年くらい使っているわけで、このプロジェクトには相当数の書籍に関するページがあるけれど、
その時代、時代で使い方のスタイルが違うので貼られているフォーマットというか作法が違いすぎる
話の流れでページは作られるので、今日と明日でも違ってたりする
いまから改めて全てのページの形式を整えるなんてのは、めちゃくちゃ途方に暮れる
infobox は LLM が上手いことやってくれるので、すでに好き放題に作られている書籍のページに、このタグ book_index
を貼るだけで、そのページにこれらの項目が載っている "infobox" が表示される
そういう正規化が成されるというのはすごく良い
汚い amazon の url を正規化する
つまり、amazon の url をそのまま貼れる
いつも、手癖で( bookmarklet を使って)、正規化していた
それを端折ってもイイ。気にせずなんでも貼れば良い
hogeasin | ページに記載のある amazon.co.jp の url から抽出して |
a url | asin と https://www.amazon.co.jp/dp を合わせて url を生成して |
a url
とした理由は amazon url
としたらそのまま生の amazon の url を抽出してしまったから
true か false で回答
このプロジェクトの中にある本を探す = Amazon の URL が貼られているページを探す
100件しか表示されない
メチャ不便。でも誰も文句言ってない。そういう使い方しないのか
結局300ページ以上あった
infobox の定義のためには普通のキーワードと別に、それ用のタグを設定するべきだと思う
以前は book というタグを貼っていた
最近は貼っていなかった
なので、手間を減らすためにそれを book_index として再利用してみた
通常のページ(2 hop link がカード形式で表示されるページ)と infobox のページは、その性質が違いすぎる
だから別にするべきだと思う
LLM のサポートによる「お手軽さ」について
とりあえず Amazon の URL をタイトルつきで貼っておくと、作者、訳者、 asin または isbn は抽出できる
それから出版元の URL を貼っておくと、出版社は抽出できる
LLM に上手いこと処理してもらって
NDC に則った分類を表示してもらいたい
NDC の区分くらいは自動的に表示して欲しかったけどちょっと無理だったので、国会図書館サーチの検索ページのリンクを合成した
NDC を自分で貼るのは面倒くさい
bookmarklet.jswindow.open(
`https://ndlsearch.ndl.go.jp/search?cs=bib&display=panel&from=0&size=20&keyword=${encodeURIComponent(
title
)}&f-ht=ndl&f-ht=library&f-mt=dtbook`
Amazon の URL に移動して上のブックマークレットを使えば
国立国会図書館サーチのページに飛ぶのでそこの一覧から NDC を含めた書籍情報が取れる
asin から国立国会図書館サーチの検索ページへの url を生成するのは出来そうなので、ひとまずそれを infobox へ置くかー
おいた
fuga国会図書館サーチ | https://ndlsearch.ndl.go.jp/search?cs=bib&display=panel&from=0&size=20&f-ht=ndl&f-ht=library&f-mt=dtbook&keyword= と asin を合成して |
基本的なコトだったんだけど asin は本(紙)とキンドル(データ)で異なってて、キンドルの URL を貼ったページだと無効。残念
気が向いたら、本(紙)の方の URL も貼るようにする
よく考えたら当たり前なのかもしれないけど、洋書でも isbn が設定されていたりするっぽい
> ISBN(アイエスビーエヌ)は、International Standard Book Number の略称(頭字語)。図書(書籍)および資料の識別用に設けられた国際規格コード(番号システム)の一種。アラビア数字で表される。日本における漢訳名は「国際標準図書番号」。
> 開発されたのは1966年のイングランド、W・H・スミス社のプロジェクトによる。
ペーパーバックとハードカバーで別々の isbn が設定されているという問題
国会図書館サーチの書籍管理番号が ISBN で無い理由は、だぶん ISBN が付与されていない文書も管理しているから
書籍でも出版時期が古い書籍は ISBN がない
そういう書籍は国立国会図書館デジタルコレクションにアーカイブされているものもある