構想: PDFをGyazoにアップしたい
下記の内容を全面的にまとめなおした(2022/03/23)
PDFを画像に変換してアップする方法が確実
参考
local
の pdf
を github_pages
の pdf_to_scrapbox
で選択する
pdf_to_scrapbox
で pdf
を画像に変換して gyazo
にアップロードする
gyazo
にはアップロードされた画像が保存される
一定時間後、 gyazo
にocrされたテキストが登録される
pdf_to_scrapbox
には gyazo
のパーマリンクが返ってくる
gyazo
のパーマリンクは scrapbox
に書き込む
gyazo
のパーマリンクをテキスト形式で保存
テキストを makejson
に食わせてscrapbox用の json
を生成する
パーマリンクからocrテキストを取得
title
PDFのタイトル
ページ数?
lines
パーマリンク
ocrテキスト
前の画像、次の画像のリンク?
タグ?
アップロードしてパーマリンクを取得
テキストに保存(上から順番を保持している)
本のタイトル.txthttps://gyazo.com/aaabbb...ccc001
https://gyazo.com/aaabbb...ccc002
https://gyazo.com/aaabbb...ccc003
https://gyazo.com/aaabbb...ccc004
import用jsonに整形
順番を維持した本のタイトルページ
リンクに連番を振っておく
それぞれのページ
前のページと次のページへのリンク
画像本体
ocrテキスト
タグ
jqなどで抽出する用途
json{
"pages": [
{
"title": "本のタイトル",
"lines": [
{ "text": "本のタイトル" },
{ "text": "[001 本のタイトル]" },
{ "text": "[002 本のタイトル]" },
{ "text": "[003 本のタイトル]" },
{ "text": "[004 本のタイトル]" }
]
},
{
"title":"001: 本のタイトル",
"lines":[
{"text":"001: 本のタイトル1"},
{"text":"[本のタイトル]"},
{"text":"[最初] [002: 本のタイトル]"},
{"text":""},
{"text":"[[https://gyazo.com/aaabbb...ccc001]]"},
{"text":"code:aaabbb...ccc001"},
{"text":" ocr結果"},
{"text":"#本のタイトル #全部のPDFに共通なタグ"},
{"text":"[[https://gyazo.com/aaabbb...ccc002]]"}
]
},
{
"title":"002: 本のタイトル",
"lines":[
{"text":"002: 本のタイトル1"},
{"text":"[001: 本のタイトル] [003: 本のタイトル]"},
{"text":"[[https://gyazo.com/aaabbb...ccc002]]"},
{"text":"code:aaabbb...ccc002"},
{"text":" ocr結果"},
{"text":"#本のタイトル #全部のPDFに共通なタグ"},
{"text":"[[https://gyazo.com/aaabbb...ccc001]][[https://gyazo.com/aaabbb...ccc003]]"}
]
},
...(略)
]
}
プライベートプロジェクトから引用する場合
何の本かわからなくなる…
ㅤ[/quote/aaabbb...ccc003]
こうした
GyazoのIDをそのままタイトルにしたらダメだ
Publicに持って行ったらURLが漏れることになるじゃん
タイトルは変えよう
画像の読み込みに思ったより時間がかかる
同一ページに前後のページの画像も貼り付けるようにした(2022/01/05)
「全部のPDFに共通なタグ」
入れるか入れないかオプションで決めたい
PDFだけで完結するプロジェクトなら毛玉になるからいらない
混ぜるなら後から取り出す時に指定できるようにしておきたい
混ぜるときになったら考えれば良い?
jsonまで作成できたらScrapboxにインポートする
目次の補完とかできたら便利かも?
目次、索引を補完できるとうれしい
インポートに失敗したらどうする?
システム的な失敗じゃなくて、これインポートしなきゃよかったな~元に戻したい(undoしたい)な~という場合
まとめてページを消すことができないんだよな
PDFのページは多いので、インポート後に消すのは面倒くさい