/villagepump/アクティブ読書用データの作り方

generated at 2/16/2025, 4:48:21 AM
アクティブ読書用データの作り方
from scrapboxでアクティブ読書するときのプロジェクトの分け方
アクティブ読書用データの作り方

方法
1. 画像データと文字データを取得する
kindle
KindleデータをテキストやPDFに変換する
kindleから文字列を取れれば、gyazoのOCRを経由する必要がなくなる
代わりに、ページ区切りに悩むことになったりする
(章|節)ごとに分けてる
一(章|節)につき1ページ
Epubor Ultimateでできそうなのだが、は面倒なのでpdf化して紙書籍と同じ方法でやってみた
後でもうちょっと調べよう
紙書籍
1. scanして画像データを得る
裁断
ScanSnapで全部scanしてpdfか画像にする
本を開いて写真を撮る
文字情報を得たいだけならこれが一番楽
pros
非破壊scanできる
スマホ以外に機材がいらない
文字認識精度も十分高い
cons
ScanSnapよりは遅い
図表が歪む
影が写る
指とか周囲のものが写る
2. 文字データを取得する
Gyazo ProのOCRやTesseract、ScanSnapの文字認識機能などのOCR機能を使って取得する
2. scrapbox json dataにする
ここをうまく作り込むとかなり楽
おすすめは
章・節ごとに1ページに事前にまとめる
章・節の目次情報と対応するページ範囲は予め作っておく
書籍は章・節が情報の塊の単位なので、その単位で予め作っておくとアクティブ読書しやすい
前後の章へのリンクを貼る
章ページには節へのリンクを書き並べておく
予めOCRテキストを整形しておく
句読点の統一
読点で改行させる
全角英数字の変換
etc.
アクティブ読書するときの労力が減る
Book2Scrapboxを使えば良い
takker/Scrapbox書籍を作るUserScript@0.2.0を使ってみる