generated at
構想: PDFをGyazoにアップしたい

下記の内容を全面的にまとめなおした(2022/03/23)

PDFGyazoにアップしたい
PDFを画像に変換してアップする方法が確実
iOSショートカット(iOSアプリ)で変換しようとしたけど、大変すぎたからやめた

参考

local pdf github_pages pdf_to_scrapbox で選択する
pdf_to_scrapbox pdf を画像に変換して gyazo にアップロードする
gyazo にはアップロードされた画像が保存される
一定時間後、 gyazo にocrされたテキストが登録される
pdf_to_scrapbox には gyazo のパーマリンクが返ってくる
gyazo のパーマリンクは scrapbox に書き込む

gyazo のパーマリンクをテキスト形式で保存
テキストを makejson に食わせてscrapbox用の json を生成する
パーマリンクからocrテキストを取得
title
PDFのタイトル
ページ数?
lines
パーマリンク
ocrテキスト
前の画像、次の画像のリンク?
タグ?

アップロードしてパーマリンクを取得
テキストに保存(上から順番を保持している)
本のタイトル.txt
https://gyazo.com/aaabbb...ccc001 https://gyazo.com/aaabbb...ccc002 https://gyazo.com/aaabbb...ccc003 https://gyazo.com/aaabbb...ccc004
import用jsonに整形
順番を維持した本のタイトルページ
リンクに連番を振っておく
それぞれのページ
前のページと次のページへのリンク
画像本体
ocrテキスト
タグ
jqなどで抽出する用途
json
{ "pages": [ { "title": "本のタイトル", "lines": [ { "text": "本のタイトル" }, { "text": "[001 本のタイトル]" }, { "text": "[002 本のタイトル]" }, { "text": "[003 本のタイトル]" }, { "text": "[004 本のタイトル]" } ] }, { "title":"001: 本のタイトル", "lines":[ {"text":"001: 本のタイトル1"}, {"text":"[本のタイトル]"}, {"text":"[最初] [002: 本のタイトル]"}, {"text":""}, {"text":"[[https://gyazo.com/aaabbb...ccc001]]"}, {"text":"code:aaabbb...ccc001"}, {"text":" ocr結果"}, {"text":"#本のタイトル #全部のPDFに共通なタグ"}, {"text":"[[https://gyazo.com/aaabbb...ccc002]]"} ] }, { "title":"002: 本のタイトル", "lines":[ {"text":"002: 本のタイトル1"}, {"text":"[001: 本のタイトル] [003: 本のタイトル]"}, {"text":"[[https://gyazo.com/aaabbb...ccc002]]"}, {"text":"code:aaabbb...ccc002"}, {"text":" ocr結果"}, {"text":"#本のタイトル #全部のPDFに共通なタグ"}, {"text":"[[https://gyazo.com/aaabbb...ccc001]][[https://gyazo.com/aaabbb...ccc003]]"} ] }, ...(略) ] }

プライベートプロジェクトから引用する場合
何の本かわからなくなる…
[/quote/aaabbb...ccc003]
こうした
[/quote/001: 本のタイトル]
GyazoのIDをそのままタイトルにしたらダメだ
Publicに持って行ったらURLが漏れることになるじゃん
タイトルは変えよう
画像の読み込みに思ったより時間がかかる
同一ページに前後のページの画像も貼り付けるようにした(2022/01/05)
「全部のPDFに共通なタグ」
入れるか入れないかオプションで決めたい
PDFだけで完結するプロジェクトなら毛玉になるからいらない
混ぜるなら後から取り出す時に指定できるようにしておきたい
混ぜるときになったら考えれば良い?

jsonまで作成できたらScrapboxにインポートする

目次の補完とかできたら便利かも?
目次、索引を補完できるとうれしい

インポートに失敗したらどうする?
システム的な失敗じゃなくて、これインポートしなきゃよかったな~元に戻したい(undoしたい)な~という場合
まとめてページを消すことができないんだよな
PDFのページは多いので、インポート後に消すのは面倒くさい