GPTIndexにScrapboxの内容を突っ込んで遊ぶ
>I build a model that queries thousands of pages of my emails and personal notes. You can use it too at https://t.co/tSHSzWoM6q
>Here's what I learned... 🧵
このcolabを使えそう
data:image/s3,"s3://crabby-images/2bcfd/2bcfd0ca1259ad12d9136903ffe5d01b3798c3b9" alt="blu3mo blu3mo"
pyimport json
# open the json file
with open('scrapbox_export.json') as json_file:
data = json.load(json_file)
# iterate through the pages
for page in data['pages']:
title = page['title']
lines = page['lines']
# join the lines using newline character
content = "\n".join(lines)
title = title.replace("/", "-")
# print the title and content of each page
f = open("data/" + title + ".txt", "w+")
f.write(content)
とりあえずこれでjsonをtxtファイルに置き換えられる
その上で、Semantic SearchとかQ&Aができる
はずだが、Semantic Searchで有用なファイルを引っ張ってくる段階がうまくいっていないみたい
人間の目からみて、あまり関係ないファイルばかり引っ張られてくる
ソースが日本語なのが問題..?
EmbeddingとIndexingの仕組みを読まないと分からんな
data:image/s3,"s3://crabby-images/2bcfd/2bcfd0ca1259ad12d9136903ffe5d01b3798c3b9" alt="blu3mo blu3mo"
>@mutaguchi: あと日本語特有の問題として、インデックス化するときのembeddingは多分日本語だと厳しいので、英訳して突っ込む必要がありそうだし、合成プロンプトもデフォは英語だからLLMの回答に影響するはずで、プロンプトのカスタマイズも要りそう。
>@mutaguchi: 諸々考えると、GPT Indexをそのまま使うのは割とむずそうなんだよな。
+1
data:image/s3,"s3://crabby-images/2bcfd/2bcfd0ca1259ad12d9136903ffe5d01b3798c3b9" alt="blu3mo blu3mo"
そもそも文章をsplitする段階から英語前提なので、色々カスタマイズ必要そう
>スクラッチで書いた方がラクかもしれないなぁとも思える。