/villagepump/さまざまな抽象度で問いを抽出

generated at 2/17/2025, 5:17:07 AM
さまざまな抽象度で問いを抽出
from 2024/09/14
さまざまな抽象度で問いを抽出

文章から「その文章が答えられる質問」をさまざまな抽象度で抽出してデータベースを作ると便利なのでは、という仮説がある
prompt「このページに出会うことで答えが見つかる具体的な質問」、「その質問を少し一般化した形で、専門的な用語を使わずに抱ける疑問」、「さらに抽象化して一般的な形で表現した問い」の3段階のセットを5つ作ってください。質問を一般化・抽象化する際にも、意義や意味が明瞭明確な問いを書いてください。
みたいなプロンプトでやっている

元々本でやろうと思っていたけど、ページ単体だけ切り出してもそれまでの文脈がなくて意味がわからないことが多い
なので、試しに/nishioの内容で試してみたい
オープン、単体で理解可能、適度な長さの面白知識の集合としてちょうどよい
https://github.com/takker99/scrapbox-backups とかを使うとデータを持ってこれるのかな
https://github.com/meganii/sandbox-github-actions-scheduler/blob/main/index.ts これかな
収集できた
私は/takker/scrapbox-external-backup@0.2.0でexportした
/nishioに関してなら本人に聞いてexportしたJSONをもらうとかもできそう
https://github.com/nishio/etude-github-actions ここにそれっぽいものがあるように見える
キモいデータをお求めなら僕のもおすすめ
https://github.com/stakiran/sta.json
ワロタ
ドラえもんのどら焼き屋さん物語やってる間になんか実装が進んでたw
すごい面白い
特に自分の思考の最先端では「他人視点でわかるようにすること」を放棄して速度を出しているので、いいタイトルをつけてなかったりしてログの再利用の問題があるが、下記のサンプルだけ見ても再利用に関する有用な発展がありそうと感じる
とりあえず5000ページやったデータをもらえるならそれにかかる費用は僕が払うよw
20000ページ全部4o-miniでできないかな
それもあり、3万円くらいかな？
5000ページで4o-miniなら数百円と書かれているので最大4000円？
その直前に4oなら数千円と書いてあるのに最大を計算するのに安い方を使うの意味不明

作業ログ
/nishioから500~1500文字の記事を抜き出した
合計5000ページ
モデルをどうしよう
4oと4o-miniを比べていると、やっぱり4oの方が問いを抽象化する能力が高い
4o-miniは、絶妙に的外れな抽象化をしてくる
5000ページ全部処理すると、4oなら数千円、4o-miniなら数百円
4oで500ページだけやるか
output_questions.json
結構良いのでは
嬉しさ
このデータがあれば、RAGにおいて抽象的な質問から具体的な知識を引き出すことができる
従来のRAGは単に質問と文書の距離を取っていたので、抽象的な質問に対して適切な具体的情報は帰ってこないことが多かった
これは事前に抽象化のプロセスをLLMにやらせているので、抽象的な質問から具体的な知識を引き出すことができそう
おもしろい
人間は、具体的に本文の内容や文脈を理解していなくても、抽象的な質問なら生み出せるし理解できる
例えばKJ法のことを知らないと「KJ法をデジタルツールで行うために具体的にどのようなツールがあるのか？」という問いは生まれないし理解もできない
が、「情報を整理するのにどのような方法が有効か？」という問いは生まれるし理解できる
人が使うことを想定した時に、「生み出せる」だけでなく「理解できる」という部分が重要な気がしている
補足：具体 vs 抽象は、文脈依存度が高い vs 文脈依存度が低い とも言える
例えば、龍樹の本の具体問いと抽象問い：
>"concrete_question": "有部における「三世実有法体恒有」とは何を意味し、それはどのように証明されるのですか？",
なにを言ってるのか分からない。有部って誰
> "general_question": "過去・現在・未来にわたって存在するものの本質は何か、どのようにして存在を確認できるのか？",
「存在」「本質」「過去」とか未定義の単語が増えてきて議論としては曖昧/抽象的になるが、理解はできる
> "abstract_question": "存在とは何か？それは時間を超えてどのように定義されるべきか？"
曖昧さが高まったが、open-endedな問いとしてざっくり何の話をしているのか理解できる
ひらたくいうと具体的すぎる=専門用語すぎるみたいな理解でいいのかな
文脈依存というのもある意味では狭い専門用語か
抽象と具体を行き来する思考を支援する上で色々な使い道がある気がしている
物理本でもやりたい
適切にコンテクストを補完する方法を考えたい
一万冊の興味ある本を全部処理してこの「抽象的な質問」のデータベースを構築すると、すごいことが起きる予感がしている
「本Aのページ234」と「本Bのページ51」は抽象的には同じ問いに対して異なる見解を示している、みたいなことが見出せる
あるいは「今悩んでいる問題X」を抽象化すると、「本Cのページ49」の記述が役にたつ、みたいなことが見出せる
一般に読解みたいなやつは抽象化(と具体の行き来)といえるような気がしてきた
+1
本当か？
あくまで読み解きの一種な気がする
質問リストがあるのと単にChatGPTにわかりやすく説明してねというのと何がちがうのか
自分の中でも整理中なのでツッコミ助かります
仮の回答を書いてみる：
上の龍樹の例でいえば、龍樹のことを知らずに「有部における「三世実有法体恒有」ってなんだろう..?」という疑問を抱くことはできない
が、「過去・現在・未来にわたって存在するものの本質ってなんだろう」という抽象的な問いは抱くことができる
（AIの支援を受けながら別の具体的な問いを抽象化してこれにたどり着く、とかでも良い）
「質問リスト」があれば、抽象的問いをクエリにして具体的知識を検索したり、抽象的問いの世界を可視化できる 
脱線するが、ここの抽象と具体の行き来をフラクタル要約的インターフェースでできると嬉しそう
(↓Cosenseの近い点を見比べた例を見て)単に一冊読むだけでも 本を読むときに離れた段落同士のつながりなどがCosense使ってアクティブ読書みたいなめんどいことしなくても出てくるのは役立ちそう

面白くはあるが、結局人間と「抽象的な質問のデータベース」のインターフェースをうまく設計しないとやりたいことが実現できない
肝心のところがまだ解決されていない
ここは一旦Talk to the Cityとかを使って雑に試してみたい
目指したいところは「大量の本の知識を全部読まなくても活用できる仕組み」


2024/9/15
　
/nishioのうち500ページから抽出した「抽象的な問い」2500個でTTTCをやってみた
具体では全然違う話をしているけど、抽象的には近い話をしているページ同士が近い場所に配置される
実証のために、目でみて適当に近い点を二つ選んでページを貼ってみる
例1: 
 公平性を欠く状況によって、参加者の多様性が失われるプロセスはどのような要因によって加速されるのか？ 
--> /nishio/人狼マッチ
 社会の中で公平さを感じられる仕組みを作るにはどうすればよいか？ 
--> /nishio/シルバー民主主義
これ面白いな
「人狼マッチにおける男女」と「シルバー民主主義における若者高齢者」の間にアナロジーがひける
それはそれとして、「アナロジーが引けて嬉しい！」の先に行きたい
なるほど、面白いこと言う
例2: 
 コミュニティで知識を共有する価値はどこにあるのか？ 
→ /nishio/1つでなければいけないのか？
 学びを最大化するためのプロジェクト間の知識共有戦略はどのように設計されるべきか？ 
→/nishio/AIの住んでるScrapbox
二つのページとその問いをOpusに渡す
例3:
 創造的思考はどのようにして実現するのか？ 
→ /nishio/Kozanebaと「ねりねり」の探求
 創造的な思考を引き出すためには何が必要か？ 
→ /nishio/新規性・解決力・全体性
さらに、LLMによる抽象化のステップを参照することで、ページと抽象的な問いのつながりが理解できる
例えば、/nishio/人狼マッチというページと、 公平性を欠く状況によって、参加者の多様性が失われるプロセスはどのような要因によって加速されるのか？ という問いのつながりが理解できなかった場合でも、以下の流れを辿ればつながりが理解できる
抽象レベル3  公平性を欠く状況によって、参加者の多様性が失われるプロセスはどのような要因によって加速されるのか？ 
-> 抽象レベル2 ゲーム環境や社会体制において、特定のグループが不当に不利となってしまう原因は何か？ 
-> 抽象レベル1 このアプリのシステムでは、女性プレイヤーが不当に排除される可能性があるのか？ 
-> /nishio/人狼マッチ
ここの「抽象的な質問」はもう少し型を作ってあげると良い気がする
どんな問いが良い問いなのかを言語化したい

2024/9/15
たった500ページ分の/nishioの文章だけでもここまで面白いので、結構テンションが上がっている
500ページだから理解できているだけで、5000ページ放り込むとノイズが増えすぎて訳が分からなくなる可能性もある
ただ、今の所人力でノイズを排除しているつもりはないので、スケーラブルな気もする
ここに他の本も放り込んでいって、どんなことが起きるか試したい
とりあえず手元にある龍樹の本を入れてみる
output_questions_龍樹.json
作った

「要約する」のではなく、「抽象化して文脈依存性を下げる」ことをやっている
従来の「要約することで本の内容理解を手助けする」みたいなアプローチとは違うパラダイムにいる感覚がある
なるほど！
それで一万冊やりたいみたいなことかー
抽象化の重い計算を事前にやっておいて辞書を作っておくと、そこからできることがたくさんありそう

Helpfeelの完全自動生成みたいなイメージでいる
yes

教科書からテスト問題作るのに使えそう（ありきたりな発想）
抽象化のところを使えてないか
抽象化した質問だと小論文的な感じ？

「その文章が答えられそうで答えられない質問」とかも面白そう
確かに
質問の集合を丁寧に絞り込むことができそう

なんで質問という形を取るんだろう
「その文章から言えること」とその抽象化を作ってもいい気がする
人が情報を探すときは疑問の形で考えているはずだからそのほうが探しやすいということだろうか
連想って人間の思考の流れとしては(1)だけど、givenなコンテンツがAになるようなQという人間の思考の流れの逆向きの思考をLLMにやらせているのが面白いところだと思う
LLMによるワンステップ分の思考をkey-valueペアとして残すことで、そのワンステップを必要な時に参照できる、みたいなイメージ
ワンステップ分の思考をkey-valueペアとして残す面白い
連想のストックのより詳細に言語化されたバージョンだ

レファレンスサービスに役立ちそうな感じがする
+1

脳内にやっていることを表現する図があるが、いまiPadを持っていないのでとりあえず文章で書く
レイヤー１　抽象問い
レイヤー２　具体問い
レイヤー３　知識
一つのレイヤー１のノードから、複数のレイヤー２のノードに線が伸びている
抽象問いを具体化した具体問い
一つのレイヤー２のノードから、複数のレイヤー３のノードに線が伸びている
具体問いに答える複数の知識
複数のレイヤー２のノードから、一つのレイヤー３のノードに線が伸びている
複数の具体問いに答える知識
レイヤー３のノードから、レイヤー２のノードに線が伸びている
知識から生まれる新たな具体問い
「グラフ」と表現したが、それぞれのレイヤーは高次元空間
なのでその空間における距離も活用できる
この多層的グラフネットワークを構築すると、抽象と具体を行き来する思考が機械的にできそう

/sta/地上と地下モデルみたいなイメージ


2024/9/18 
/nishioの5200ページを処理してみた
費用は$50程度
だいぶ面白い
「さまざまな抽象度で問いを抽出」を/nishioでやったデモ


infoboxっぽい？