generated at
さまざまな抽象度で問いを抽出
さまざまな抽象度で問いを抽出

blu3mo
文章から「その文章が答えられる質問」をさまざまな抽象度で抽出してデータベースを作ると便利なのでは、という仮説がある
prompt
「このページに出会うことで答えが見つかる具体的な質問」、「その質問を少し一般化した形で、専門的な用語を使わずに抱ける疑問」、「さらに抽象化して一般的な形で表現した問い」の3段階のセットを5つ作ってください。質問を一般化・抽象化する際にも、意義や意味が明瞭明確な問いを書いてください。
みたいなプロンプトでやっている

元々本でやろうと思っていたけど、ページ単体だけ切り出してもそれまでの文脈がなくて意味がわからないことが多い
なので、試しに/nishioの内容で試してみたい
オープン、単体で理解可能、適度な長さの面白知識の集合としてちょうどよい
https://github.com/takker99/scrapbox-backups とかを使うとデータを持ってこれるのかな
収集できたblu3mo
/nishioに関してなら本人に聞いてexportしたJSONをもらうとかもできそうinajob
https://github.com/nishio/etude-github-actions ここにそれっぽいものがあるように見える
キモいデータをお求めなら僕のもおすすめsta
ワロタはるひ
ドラえもんのどら焼き屋さん物語やってる間になんか実装が進んでたwnishio
すごい面白い
特に自分の思考の最先端では「他人視点でわかるようにすること」を放棄して速度を出しているので、いいタイトルをつけてなかったりしてログの再利用の問題があるが、下記のサンプルだけ見ても再利用に関する有用な発展がありそうと感じる
とりあえず5000ページやったデータをもらえるならそれにかかる費用は僕が払うよw
20000ページ全部4o-miniでできないかなbsahd
それもあり、3万円くらいかな?nishio
5000ページで4o-miniなら数百円と書かれているので最大4000円?bsahd
その直前に4oなら数千円と書いてあるのに最大を計算するのに安い方を使うの意味不明nishio

作業ログ
/nishioから500~1500文字の記事を抜き出した
合計5000ページ
モデルをどうしよう
4oと4o-miniを比べていると、やっぱり4oの方が問いを抽象化する能力が高い
4o-miniは、絶妙に的外れな抽象化をしてくる
5000ページ全部処理すると、4oなら数千円、4o-miniなら数百円
4oで500ページだけやるかblu3mo
結構良いのではblu3moblu3moblu3mo
嬉しさ
このデータがあれば、RAGにおいて抽象的な質問から具体的な知識を引き出すことができる
従来のRAGは単に質問と文書の距離を取っていたので、抽象的な質問に対して適切な具体的情報は帰ってこないことが多かった
これは事前に抽象化のプロセスをLLMにやらせているので、抽象的な質問から具体的な知識を引き出すことができそう
おもしろいcak
人間は、具体的に本文の内容や文脈を理解していなくても、抽象的な質問なら生み出せるし理解できる
例えばKJ法のことを知らないと「KJ法をデジタルツールで行うために具体的にどのようなツールがあるのか?」という問いは生まれないし理解もできない
が、「情報を整理するのにどのような方法が有効か?」という問いは生まれるし理解できる
人が使うことを想定した時に、「生み出せる」だけでなく「理解できる」という部分が重要な気がしている
補足:具体 vs 抽象は、文脈依存度が高い vs 文脈依存度が低い とも言える
例えば、龍樹の本の具体問いと抽象問い:
>"concrete_question": "有部における「三世実有法体恒有」とは何を意味し、それはどのように証明されるのですか?",
なにを言ってるのか分からない。有部って誰blu3mo
> "general_question": "過去・現在・未来にわたって存在するものの本質は何か、どのようにして存在を確認できるのか?",
「存在」「本質」「過去」とか未定義の単語が増えてきて議論としては曖昧/抽象的になるが、理解はできるblu3mo
> "abstract_question": "存在とは何か?それは時間を超えてどのように定義されるべきか?"
曖昧さが高まったが、open-endedな問いとしてざっくり何の話をしているのか理解できるblu3mo
ひらたくいうと具体的すぎる=専門用語すぎるみたいな理解でいいのかなはるひ
文脈依存というのもある意味では狭い専門用語か
抽象と具体を行き来する思考を支援する上で色々な使い道がある気がしている
物理本でもやりたいblu3moblu3mo
適切にコンテクストを補完する方法を考えたい
一万冊の興味ある本を全部処理してこの「抽象的な質問」のデータベースを構築すると、すごいことが起きる予感がしているblu3mo
「本Aのページ234」と「本Bのページ51」は抽象的には同じ問いに対して異なる見解を示している、みたいなことが見出せる
あるいは「今悩んでいる問題X」を抽象化すると、「本Cのページ49」の記述が役にたつ、みたいなことが見出せる
一般に読解みたいなやつは抽象化(と具体の行き来)といえるような気がしてきたはるひ
+1blu3mo
本当か?はるひ
あくまで読み解きの一種な気がする
質問リストがあるのと単にChatGPTにわかりやすく説明してねというのと何がちがうのか
自分の中でも整理中なのでツッコミ助かりますblu3moblu3moblu3mo
仮の回答を書いてみる:
上の龍樹の例でいえば、龍樹のことを知らずに「有部における「三世実有法体恒有」ってなんだろう..?」という疑問を抱くことはできない
が、「過去・現在・未来にわたって存在するものの本質ってなんだろう」という抽象的な問いは抱くことができる
(AIの支援を受けながら別の具体的な問いを抽象化してこれにたどり着く、とかでも良い)
「質問リスト」があれば、抽象的問いをクエリにして具体的知識を検索したり、抽象的問いの世界を可視化できる blu3mo
脱線するが、ここの抽象と具体の行き来をフラクタル要約的インターフェースでできると嬉しそうblu3mo
(↓Cosenseの近い点を見比べた例を見て)単に一冊読むだけでも 本を読むときに離れた段落同士のつながりなどがCosense使ってアクティブ読書みたいなめんどいことしなくても出てくるのは役立ちそうはるひ

面白くはあるが、結局人間と「抽象的な質問のデータベース」のインターフェースをうまく設計しないとやりたいことが実現できない
肝心のところがまだ解決されていない
ここは一旦Talk to the Cityとかを使って雑に試してみたいblu3mo
目指したいところは「大量の本の知識を全部読まなくても活用できる仕組み」


2024/9/15
 
/nishioのうち500ページから抽出した「抽象的な問い」2500個でTTTCをやってみた
具体では全然違う話をしているけど、抽象的には近い話をしているページ同士が近い場所に配置される
実証のために、目でみて適当に近い点を二つ選んでページを貼ってみる
例1:
公平性を欠く状況によって、参加者の多様性が失われるプロセスはどのような要因によって加速されるのか?
社会の中で公平さを感じられる仕組みを作るにはどうすればよいか?
これ面白いなblu3moblu3moblu3mo
「人狼マッチにおける男女」と「シルバー民主主義における若者高齢者」の間にアナロジーがひける
それはそれとして、「アナロジーが引けて嬉しい!」の先に行きたいblu3mo
なるほど、面白いこと言うblu3mo
例2:
コミュニティで知識を共有する価値はどこにあるのか?
学びを最大化するためのプロジェクト間の知識共有戦略はどのように設計されるべきか?
二つのページとその問いをOpusに渡す
例3:
創造的思考はどのようにして実現するのか?
創造的な思考を引き出すためには何が必要か?
さらに、LLMによる抽象化のステップを参照することで、ページと抽象的な問いのつながりが理解できる
例えば、/nishio/人狼マッチというページと、 公平性を欠く状況によって、参加者の多様性が失われるプロセスはどのような要因によって加速されるのか? という問いのつながりが理解できなかった場合でも、以下の流れを辿ればつながりが理解できる
抽象レベル3 公平性を欠く状況によって、参加者の多様性が失われるプロセスはどのような要因によって加速されるのか?
-> 抽象レベル2 ゲーム環境や社会体制において、特定のグループが不当に不利となってしまう原因は何か?
-> 抽象レベル1 このアプリのシステムでは、女性プレイヤーが不当に排除される可能性があるのか?
ここの「抽象的な質問」はもう少し型を作ってあげると良い気がする
どんな問いが良い問いなのかを言語化したい

2024/9/15
たった500ページ分の/nishioの文章だけでもここまで面白いので、結構テンションが上がっている
500ページだから理解できているだけで、5000ページ放り込むとノイズが増えすぎて訳が分からなくなる可能性もある
ただ、今の所人力でノイズを排除しているつもりはないので、スケーラブルな気もする
ここに他の本も放り込んでいって、どんなことが起きるか試したい
とりあえず手元にある龍樹の本を入れてみる
作ったblu3mo

「要約する」のではなく、「抽象化して文脈依存性を下げる」ことをやっている
従来の「要約することで本の内容理解を手助けする」みたいなアプローチとは違うパラダイムにいる感覚があるblu3moblu3mo
なるほど!はるひ
それで一万冊やりたいみたいなことかー
抽象化の重い計算を事前にやっておいて辞書を作っておくと、そこからできることがたくさんありそうblu3mo

Helpfeelの完全自動生成みたいなイメージでいるbsahd
yesblu3mo

教科書からテスト問題作るのに使えそう(ありきたりな発想)yosider
抽象化のところを使えてないか
抽象化した質問だと小論文的な感じ?

「その文章が答えられそうで答えられない質問」とかも面白そうyosider
確かにblu3mo
質問の集合を丁寧に絞り込むことができそうblu3mo

なんで質問という形を取るんだろうyosider
「その文章から言えること」とその抽象化を作ってもいい気がする
人が情報を探すときは疑問の形で考えているはずだからそのほうが探しやすいということだろうか
nishio
連想って人間の思考の流れとしては(1)だけど、givenなコンテンツがAになるようなQという人間の思考の流れの逆向きの思考をLLMにやらせているのが面白いところだと思う
LLMによるワンステップ分の思考をkey-valueペアとして残すことで、そのワンステップを必要な時に参照できる、みたいなイメージblu3mo
連想のストックのより詳細に言語化されたバージョンだ

レファレンスサービスに役立ちそうな感じがするseibe
+1blu3mo

脳内にやっていることを表現する図があるが、いまiPadを持っていないのでとりあえず文章で書く
レイヤー1 抽象問い
レイヤー2 具体問い
レイヤー3 知識
一つのレイヤー1のノードから、複数のレイヤー2のノードに線が伸びている
抽象問いを具体化した具体問い
一つのレイヤー2のノードから、複数のレイヤー3のノードに線が伸びている
具体問いに答える複数の知識
複数のレイヤー2のノードから、一つのレイヤー3のノードに線が伸びている
複数の具体問いに答える知識
レイヤー3のノードから、レイヤー2のノードに線が伸びている
知識から生まれる新たな具体問い
「グラフ」と表現したが、それぞれのレイヤーは高次元空間
なのでその空間における距離も活用できる
この多層的グラフネットワークを構築すると、抽象と具体を行き来する思考が機械的にできそうblu3moblu3mo

/sta/地上と地下モデルみたいなイメージblu3mo


2024/9/18
/nishioの5200ページを処理してみた
費用は$50程度
だいぶ面白いblu3moblu3moblu3mo


infoboxっぽい?miyamonz