/villagepump/Cosenseの対話を階層スレッドJSONに変換するプログラムを書いてみる

generated at 2/16/2025, 1:47:39 PM
Cosenseの対話を階層スレッドJSONに変換するプログラムを書いてみる
Cosenseの対話的なリストを階層スレッドに変換するプログラムを書いてみる
たぶんLLMでできるけど節電ということで

入力
input.txtこんちは[user1.icon]
	ようこそ！
	どうも！[user2.icon]
		はじめまして[user1.icon]
出力
output.json[
	{
		"id": 1,
		"author": "user1",
		"content": "こんちは",
		"parent": null,
		"order": 1
	},
	{
		"id": 2,
	  "author": "user1",
 		"content": "ようこそ！",
 		"parent": 1,
 		"order": 1,
	},
	{
		"id": 3,
 	  "author": "user2",
 		"content": "どうも！",
 		"parent": 1,
 		"order": 2,
	},
	{
 		"id": 4,
 	  "author": "user1",
 		"content": "はじめまして",
 		"parent": 3,
 		"order": 1,
 	}
]
Claude 3.5 Sonnetを使ってみる
sonnet_1.tsinterface Message {
    id: number;
    author: string | null;
    content: string;
    parent: number | null;
    order: number;
}

function parseCosense(text: string): Message[] {
    const lines = text.trim().split('\n');
    const messages: Message[] = [];
    const stack: { indent: number; id: number }[] = [];
    let currentId = 1;

    lines.forEach((line) => {
        const indent = line.length - line.trimLeft().length;
        let content = line.trim();
        
        const authorMatch = content.match(/\[([^\]]+)\.icon\]/);
        const author = authorMatch ? authorMatch[1] : null;
        content = content.replace(/\[([^\]]+)\.icon\]/, '').trim();

        while (stack.length > 0 && stack[stack.length - 1].indent >= indent) {
            stack.pop();
        }

        const parent = stack.length > 0 ? stack[stack.length - 1].id : null;
        const order = messages.filter(m => m.parent === parent).length + 1;

        messages.push({
            id: currentId,
            author,
            content,
            parent,
            order
        });

        stack.push({ indent, id: currentId });
        currentId++;
    });

    return messages;
}

function convertCosenseToJson(input: string): string {
    const messages = parseCosense(input);
    return JSON.stringify(messages, null, 2);
}

// 使用例
const input = `
こんちは[user1.icon]
    ようこそ！
    どうも！[user2.icon]
        はじめまして[user1.icon]
`;

console.log(convertCosenseToJson(input));
動かしてみる
テストも書いてもらって通った
https://github.com/kawakamimoeki/cosense-to-conversation
とりあえずリリース
高齢者だとすぐにコンセントを抜きそう（偏見）のJSONは
高齢者だとすぐにコンセントを抜きそう（偏見）[
  {
    "id": 1,
    "author": null,
    "content": "高齢者だとすぐにコンセントを抜きそう（偏見）",
    "parent": null
  },
  {
    "id": 2,
    "author": "bsahd",
    "content": "高齢者はちゃんとシャットダウンせずにすぐに[コンセント]を抜きそう（偏見）",
    "parent": null
  },
  {
    "id": 3,
    "author": "suto3",
    "content": "「ちゃんとシャットダウンする」とは",
    "parent": 2
  },
  {
    "id": 4,
    "author": "suto3",
    "content": "OSの設計者はシャットダウンするという複雑な操作をエンドユーザーに押し付けていないか？",
    "parent": 3
  },
  {
    "id": 5,
    "author": "kawakami",
    "content": "押し付けてる。蓄電しとけばいいのに",
    "parent": 4
  },
  {
    "id": 6,
    "author": "bsahd",
    "content": "[UPS]として実現済み",
    "parent": 5
  },
  {
    "id": 7,
    "author": "bsahd",
    "content": "でかい[kawakami.icon*2]",
    "parent": 6
  },
  {
    "id": 8,
    "author": "bsahd",
    "content": "気にすんな[bsahd.icon*5]",
    "parent": 7
  },
  {
    "id": 9,
    "author": "bsahd",
    "content": "",
    "parent": null
  },
  {
    "id": 10,
    "author": "inajob",
    "content": "コンセントをいきなり抜いてはいけないというのも直感的では無い気がする",
    "parent": 9
  },
  {
    "id": 11,
    "author": "inajob",
    "content": "[Graceful shutdown]",
    "parent": 10
  },
  {
    "id": 12,
    "author": "inajob",
    "content": "USBメモリをいきなり抜いてはいけないのも関連項目でありそう",
    "parent": 10
  },
  {
    "id": 13,
    "author": "suto3",
    "content": "USBはもともと活線抜き差しできる仕様だったり",
    "parent": 12
  },
  {
    "id": 14,
    "author": "suto3",
    "content": "[USBメモリ]になるといきなり抜いてはいけなくなるの、おかしいと思う",
    "parent": 13
  },
  {
    "id": 15,
    "author": "suto3",
    "content": "だったら、物理的にロックがかかる仕様にしとけよ…",
    "parent": 14
  },
  {
    "id": 16,
    "author": "綾坂こと",
    "content": "「(PC)起動中に抜いてはいけない」と「通信中に抜いてはいけない」は別という認識",
    "parent": 14
  },
  {
    "id": 17,
    "author": "bsahd",
    "content": "最近のWindowsのデフォルト設定だといきなりUSBメモリを抜いても大体データを守るようにしてる",
    "parent": 12
  },
  {
    "id": 18,
    "author": "bsahd",
    "content": "その代償として書き込みが遅くなる",
    "parent": 17
  }
]
アイコンが複数つながってる場合にだめっぽい
直せた
に食わせたらプレーンテキストとだいぶ出力の性質がちがう
プレーンテキスト
>この文章では、Scrapboxというツールが、リンクやインデントを活用してテキストを構造化することで、LLM（大規模言語モデル）にとって読みやすい形式になるという議論がされています。また、Scrapboxを使ったチャットボットが他のツールと比較して有利になる可能性についても述べられています。
> 以下に、文章の要点と意見を述べます：
> ### 要点
> 1. **リンクとインデントの利点**:
>    - リンクがあることで、長文の中で重要な部分を見つけやすくなる。
>    - インデント形式に対応したTextSplitterを使えば、テキストを細かいチャンクに分割する際に意味を保ちやすくなる。
>    - インデントの深さに基づいて意味を表現することで、簡単な文字処理で異なる粒度のチャンクを抽出できる。
> 2. **Scrapboxを用いたチャットボットの可能性**:
>    - ナレッジグラフの存在により、他のツールよりも優れたチャットボットを作成できる可能性がある。
>    - Semantic Webの概念に近づきつつあり、人間がデータを整理して機械が読みやすくすることで、AIの助けを得やすくなる。
>    - 公共のデータを生成する際のインセンティブの問題があるが、Scrapboxのようなツールがこれを解決する手助けになる可能性がある。
> 3. **将来的な展望**:
>    - 各DAO（分散型自律組織）がAIを所持し、ファインチューニングする未来が考えられる。
>    - Semantic Annotationを通じて、回答の明瞭度を上げることが重要になる。
> ### 意見
> ScrapboxがLLMにも読みやすい理由として、リンクとインデントを使ったテキスト構造化の利点が挙げられます。リンクがあることで重要な情報を素早く把握でき、インデント形式がテキストの意味を保ちながら細分化する助けとなります。これにより、Scrapboxを用いたチャットボットは、他のツールと比べて優れた性能を発揮する可能性が高いです。
> さらに、ナレッジグラフの活用やSemantic Annotationの重要性が強調されており、これによりAIの性能が向上し、より明確で正確な回答が期待できます。しかし、公共データ生成のインセンティブ問題は依然として解決が必要であり、Scrapboxのようなツールがその解決策の一部となる可能性があります。
> 最終的に、Scrapboxの特性を活かし、LLMと連携することで、より優れた情報提供や問題解決が実現できると考えられます。
JSON
>このスレッドは、ScrapboxというツールがLLM（Large Language Model）に対して読みやすい形式で情報を提供できる可能性について議論しています。
> 1. **Scrapboxの文章はLLMにも読みやすいのでは**（投稿1）：
>    - Scrapboxのインデント形式やリンクのある構造が、LLMにとって理解しやすいとの指摘があります。
> 2. **リンクのある長文のページは注目しやすい**（投稿5）：
>    - リンクがあれば、LLMは注目すべき箇所を特定しやすいとの意見です。リンクがないと、どこを読むべきかが分かりにくくなるとしています。
> 3. **Scrapboxのインデント形式に対応したTextSplitterの提案**（投稿8-14）：
>    - Scrapboxのインデント形式を活かしたTextSplitterを作ることで、長い文章をより効果的に分割し、意味のまとまりを保持しながら小さなチャンクに分割できるとしています。
> 4. **Scrapboxを用いたChat Botの可能性**（投稿16）：
>    - Scrapboxを利用することで、他のツールと比べて優れたChat Botを作成できる可能性があるとしています。特にナレッジグラフの存在がその理由として挙げられています。
> 5. **Semantic Dataとデータ生成のインセンティブの問題**（投稿22-23）：
>    - Semantic Dataの生成にはインセンティブがないことが問題視されています。この問題を解決するためには、データを提供する側と受益者の間でインセンティブが一致する仕組みが必要だとしています。
> 6. **機械が読みやすいデータの作成**（投稿35-36）：
>    - 機械が読みやすい形でデータを作成することで、機械がより効果的に助けてくれる可能性が高まるとの意見です。
> 7. **インデントxLLMの化学反応**（投稿48）：
>    - インデント形式とLLMがどのような化学反応を起こすかは予測が難しいとされていますが、興味深い議論です。
> ### 意見
> Scrapboxのインデント形式やリンク構造がLLMに対して理解しやすいデータを提供するという指摘は非常に興味深いです。特に、情報の階層構造が明確になることで、LLMが効率的に情報を処理できる可能性が高まります。さらに、TextSplitterの改良により、意味のまとまりを保ちながらテキストを分割することが可能になれば、LLMの性能向上にも寄与するでしょう。
> ただし、Semantic Dataの生成に関するインセンティブの問題や、機械が読みやすいデータの作成の重要性も無視できない課題です。これらの問題に対処するためには、データ提供者に対する適切なインセンティブを設けることが重要です。
> 全体として、Scrapboxの特徴を活かしたLLMの活用は非常に有望ですが、技術的な改良とともに、データ生成の仕組みやインセンティブ設計にも注意を払う必要があります。
どんな返信をするか聞いてみたらこれもだいぶ違うな
プレーンテキスト
>以下の投稿に対して返信を考えます。
> ### 投稿1: TextSplitter
> **内容**: Scrapboxのインデント形式に対応したTextSplitterを作ると役に立ちそう。例えば、すごい長いページがあったとする。既存のTextSplitterは、単純に分割しようとするが、文の順番を保ったまま一部を切り出してチャンクを生成する。箇条書きであれば、インデントの深さで意味を表しているからこそ、簡単な文字処理で、異なる粒度のチャンク抽出ができる。
> **返信**:
> > 確かに、インデント形式に対応したTextSplitterは非常に有用だと思います。特に、長文の内容を分かりやすく構造化することで、LLMの理解が向上し、より精度の高い応答が期待できます。具体的には、インデントごとに異なる意味を持つ部分を抽出できるので、文脈を保ちながら効率的な情報抽出が可能になりますね。このアイデアをさらに発展させることで、Scrapboxを活用した新しいチャットボット機能が実現できるかもしれません。
> ### 投稿2: ナレッジグラフ
> **内容**: Scrapboxを用いたChat Botが他のもの（普通のウェブサイト, Mem, etc）と比べてめっちゃ良いものになる可能性があるのでは。ナレッジグラフがあるからか。
> **返信**:
> > ナレッジグラフがScrapboxを用いたチャットボットの強みになる点に完全に同意します。ナレッジグラフを使うことで、情報の関連性を明確にし、より正確で関連性の高い応答が可能になります。また、ユーザーが入力した内容に基づいて、関連する情報を迅速に引き出すことができるため、ユーザーエクスペリエンスも向上します。Scrapboxのリンクとインデント機能と組み合わせることで、より高度な知識ベースを持つチャットボットが実現できると思います。
> ### 投稿3: インセンティブ
> **内容**: Semantic Dataはデータ生成のインセンティブが提供者と受益者で合致しないというのが問題だと思っている。
> **返信**:
> > データ生成のインセンティブ問題は確かに大きな課題です。提供者がデータを整然と入力するモチベーションがないと、質の高いデータセットを維持するのは難しいです。この問題に対して、Scrapboxのようなツールを活用することで、データ入力のプロセスを簡素化し、提供者にとっての負担を軽減できるかもしれません。また、報酬制度やフィードバックシステムを導入することで、提供者のインセンティブを高める方法も考えられます。今後、この分野でのさらなるイノベーションが期待されます。
> ### 投稿4: Semantic Annotation
> **内容**: 標準モデルに対して、各DAOでファインチューニングする未来？そもそもなぜ機械モデルに対して、Semantic Annotationするかというと、回答の明瞭度が上がるため。
> **返信**:
> > 各DAOでファインチューニングする未来は非常に興味深いですね。Semantic Annotationを行うことで、回答の明瞭度が上がり、より具体的で役立つ応答が可能になります。これは特に専門性の高い分野で顕著です。例えば、医学や法学の分野では、専門的な知識を持つ人々がアノテーションを行うことで、AIが提供する情報の精度と信頼性が飛躍的に向上します。このアプローチを通じて、よりパーソナライズされた、質の高い情報提供が実現できると考えます。
> これらの返信を通じて、各投稿者の提案や意見に対して具体的なフィードバックや追加の視点を提供することができるでしょう。
JSON
>このスレッドの流れや内容に基づいて、以下のような返信を各投稿に対して行います。
> 1. **投稿1**
>    - **返信**：「Scrapboxのインデント形式やリンク構造がLLMにとって理解しやすいという視点は興味深いですね。具体的にどのような方法でLLMに有効だと考えていますか？」
> 2. **投稿5**
>    - **返信**：「リンクがあることで、LLMが注目すべき箇所を特定しやすいという点に同意します。リンクの配置や数に関して具体的な提案はありますか？」
> 3. **投稿8-14**
>    - **返信**：「Scrapboxのインデント形式に対応したTextSplitterの提案は素晴らしいですね。インデントの深さに基づいてチャンクを生成することで、どのような具体的なメリットが得られると考えていますか？」
> 4. **投稿16**
>    - **返信**：「Scrapboxを用いたChat Botの可能性について、ナレッジグラフの利点をもう少し詳しく教えていただけますか？他のツールと比べて具体的にどのように優れていると感じていますか？」
> 5. **投稿22-23**
>    - **返信**：「Semantic Dataの生成に関するインセンティブの問題は重要ですね。データ提供者に対するインセンティブをどのように設計すれば、より効果的なデータ生成が可能になると考えていますか？」
> 6. **投稿35-36**
>    - **返信**：「機械が読みやすいデータの作成が重要だという点に同意します。具体的にどのような形式や構造でデータを作成することが効果的だと考えていますか？」
> 7. **投稿48**
>    - **返信**：「インデント形式とLLMの化学反応についてのご意見、非常に興味深いです。具体的にどのような実験やテストを通じて、その効果を確認することができると考えていますか？」
> このような返信を通じて、議論を深めたり、具体的な提案や意見を引き出したりすることができます。それぞれの返信は、投稿者が持つ視点や提案をさらに詳しく掘り下げるための質問やコメントを含むようにしています。