ScrapboxはLLMに食わせるデータ形式として適しているか?
ScrapboxはLLMに食わせるデータ形式として適しているか?
すでに活用されてる点
たくさんの話題が書かれた長いページではなく、一つの内容の短いページが推奨される
ChatGPTに与える時に500トークンに区切って与えているが、過半数のページが500トークン以内に収まっている
リンクによって文脈を表現できるので同じ説明を何度も書く必要がない
このことによっても各ページがコンパクトな表現になっている
LLMはリンクを理解してリンク先を参照できるんだろうか?

そもそも人間が文章を読むのとは全然違うやり方?なのでそういう話ではない?
リンクを見つけたらそれをkeyにしてリンク先にattentionするとかできるんかな
活用できそうだがまだされてない
箇条書き
箇条書きの構造を理解してチャンクにわけることができれば良いのではという話
むしろ長くなったら枝に名前をつけて切り出すことを示唆する設計
アウトライナーとしての機能が十分であっても、人間の脳の機能が不十分な気がする

チャンクに分けるところもLLMにやらせることはできる?

不可能ではないな

「下記の文章の重要な部分を500トークンで抜き出せ」的な方法
リンク
文中リンクには重要な意味がある
リンク先に別のページがあるケース
ないけど2ホップ先があるケース
強調としての意味
造語であることを表現する鉤括弧的な意味
現状は大部分無視されてしまう