/villagepump/Scrapboxの文章はLLMにも読みやすいのでは

generated at 2/17/2025, 1:59:38 AM
Scrapboxの文章はLLMにも読みやすいのでは
色々な面において、↑が言えそう

2023/02/22 猫
>リンクのない長文のページはどこを注目すればいいかわかりにくい、リンクがあればAIにとって読みやすい

TextSplitter
> Scrapboxのインデント形式に対応したTextSplitterを作ると役に立ちそう
>  　例えばすごい長いページがあったとする
>  　既存のTextSplitterは、単純に分割しようとする
>  　　単純に文字数で分割したり、意味のまとまりで分割したり、色々ある
>  　　けど、どれも文の順番は保ったまま一部を切り出してチャンクを生成している
> 　　箇条書きであれば、「長い文章のうちの3段目のインデントまでの内容を切り出す」みたいな感じで小さいチャンクを取り出すことが可能
> 　　 インデントの深さで意味を表しているからこそ、簡単な文字処理で、異なる粒度のチャンク抽出ができる

これ、Scrapboxを用いたChat Botが他のもの（普通のウェブサイト, Mem, etc）と比べてめっちゃ良いものになる可能性があるのでは
ナレッジグラフがあるからか
（元々上で言いたかった話とは違うが、それもそう）
+1
やっとSemantic Webに近いてきた
機械がやるより人間がやった方が精度がいいうち（「AGIまで」？）は、「Web空間のデブリ」を掃除することが人間の仕事になると思う
Semantic Dataはデータ生成のインセンティブが提供者と受益者で合致しないというのが問題だと思っている
>@0xtkgshn: ここで学んだSemantic Dataの難しいところは、データを生産する人たちのインセンティブがないところだと思っている。これは公共制度作業をする公務員という概念が存在しているのがだめ。彼らは綺麗にデータを入れるインセンティブがない。

/tkgshn/ChatGPTのオープンソース版である「OpenAssistant」がプロンプトに対する回答の精度を向上させるためにアノテーションプラットフォーム使ってみんなで"AIを所持する未来"を作ってきた
↑は自分の見てる範囲なので「DAO」という言葉を使ったけど、別にScrapboxと考えられる
>各DAOがAIを所持するような未来ではみんなで育てる必要がある。そのための労働がSemantic Annotationなのではないか
> 標準モデルに対して、各DAOでファインチューニングする未来？
> そもそもなぜ機械モデルに対して、Semantic Annotationするかというと、回答の明瞭度が上がるため。
> Semantic Web Technologies for Explainable Machine Learning Models: A Literature Review
> 綺麗なナレッジグラフを作るための手段
ここにきて/tkgshn/APLLOとかの価値が上がるのかな

なるほど、インセンティブ
機械が読みやすい形でデータを作れば機械が助けてくれる確率が上がる
自分に近い情報を入れれば入れるほど自分に近い価値が生み出される確率が上がる
最近描いたこれとも関連しそう
/nishio/日本語言語モデルについて考えたこと
これ面白かった
ふと思い出したのだけど、なぜ僕が自分の学んだことや考えを公開の場に書いていくようになったかというと、大学生の頃にGoogle検索が現れて「公開の場に置いておくと『賢い検索』ができる」となったからなんだよなー
当時はまだ非公開のままでは賢い検索ができなかった
なるほど
自分が過去にやったことを思い出すために記事を書き連ねていった
面白い
いま「人間が読む」想定で「なんとなく」作られているネットワーク構造だが、LLMが読むことを想定すると「こうすると良い」的な指針が立ったりするのかな
メッチャ気になる
インデントxLLMはどんな化学反応するのか全く予想がつかない
/blu3mo/Fractal Summarizer とも相性が良さそう
パラグラフだと、どの部分までが同じことに言及しているのか分解が難しい。（それを無理やり階層化しているのがフラクタル要約という理解）
ただ、箇条書きは文章の構造自体が意味を持っていることになる
言い換えると、Scrapboxの一番上の段落だけ読めばざっくり意味がわかるようになっている。
ただ、どんなふうに相性がいいかはあんまり明確にはわかってないかもw

関連?: 箇条書きから文章になおす