Scrapboxの文章はLLMにも読みやすいのでは
色々な面において、↑が言えそう
>リンクのない長文のページはどこを注目すればいいかわかりにくい、リンクがあればAIにとって読みやすい
> Scrapboxのインデント形式に対応したTextSplitterを作ると役に立ちそう
> 既存のTextSplitterは、単純に分割しようとする
> 単純に文字数で分割したり、意味のまとまりで分割したり、色々ある
> けど、どれも文の順番は保ったまま一部を切り出してチャンクを生成している
> 箇条書きであれば、「長い文章のうちの3段目のインデントまでの内容を切り出す」みたいな感じで小さいチャンクを取り出すことが可能
> インデントの深さで意味を表しているからこそ、簡単な文字処理で、異なる粒度のチャンク抽出ができる
これ、Scrapboxを用いたChat Botが他のもの(普通のウェブサイト,
Mem, etc)と比べてめっちゃ良いものになる可能性があるのでは
(元々上で言いたかった話とは違うが、それもそう)
+1
機械がやるより人間がやった方が精度がいいうち(「
AGIまで」?)は、「
Web空間のデブリ」を掃除することが人間の仕事になると思う
>@0xtkgshn: ここで学んだSemantic Dataの難しいところは、データを生産する人たちのインセンティブがないところだと思っている。これは公共制度作業をする公務員という概念が存在しているのがだめ。彼らは綺麗にデータを入れるインセンティブがない。
↑は自分の見てる範囲なので「DAO」という言葉を使ったけど、別にScrapboxと考えられる
>各DAOがAIを所持するような未来ではみんなで育てる必要がある。そのための労働がSemantic Annotationなのではないか
なるほど、インセンティブ
機械が読みやすい形でデータを作れば機械が助けてくれる確率が上がる
自分に近い情報を入れれば入れるほど自分に近い価値が生み出される確率が上がる
最近描いたこれとも関連しそう
これ面白かった
ふと思い出したのだけど、なぜ僕が自分の学んだことや考えを公開の場に書いていくようになったかというと、大学生の頃にGoogle検索が現れて「公開の場に置いておくと『賢い検索』ができる」となったからなんだよなー
当時はまだ非公開のままでは賢い検索ができなかった
自分が過去にやったことを思い出すために記事を書き連ねていった
面白い
いま「人間が読む」想定で「なんとなく」作られているネットワーク構造だが、LLMが読むことを想定すると「こうすると良い」的な指針が立ったりするのかな
メッチャ気になる
インデントxLLMはどんな化学反応するのか全く予想がつかない
パラグラフだと、どの部分までが同じことに言及しているのか分解が難しい。(それを無理やり階層化しているのが
フラクタル要約という理解)
ただ、
箇条書きは文章の構造自体が意味を持っていることになる
言い換えると、Scrapboxの一番上の段落だけ読めばざっくり意味がわかるようになっている。