著作権・版権切れの本を書き起こそう
青空文庫などで文字データ化されているものもありますが、多くは画像のままです。
そこで、テキストに書き起こしてみようという計画です。

1. 見開き一枚ごとに分割。
2. OCRで粗く読み込む。
Scrapboxに貼り付けた画像がGyazoに入る設定ならGyazo側でOCRまで掛けてくれるからScrapboxに画像を貼っていくと一石二鳥な気がします

3. 手動で修正。
1. 国立国会図書館デジタルコレクションで書き起こしたい書物を探す
2. 画像にしたいページまで移動して、上部のJPEG表示アイコンをクリック
3. 倍率を100%にして「表示」をクリック
4. 画像化されたページが出て来るので、右クリック→画像をコピーを選択
5. gyazoと連携済みの任意のScrapboxプロジェクトで、新規ページを開き、適当なタイトルをつくる
6. 新たに作ったページで Ctrl+V
を押して画像を貼り付ける
7. 貼り付けた画像をクリックしてgyazoに移動する
8. proプランまたはお試し体験中にしていると、ocrで文章が読み込まれる
9. 読み込まれた文章をコピペして、画像の下に置く
10. コピペした文章と画像(デジタルコレクションでもページに貼った画像でも好きなほう)を比較して修正していく。
11. 行程2~10を繰返す
メリット
過去の著作に触れられる。
多くの人が古典の名作などを手軽に読めるようになる。
黙々とする作業が楽しい。
多人数で協力すれば効率が上がる。
デメリット
手間がかかる。
報酬は達成感のみ。
絶賛募集中
つまり画像情報を文字入力すればいいってことですか?そうです!

皆さんもぜひ挙げてみてください。すでにテキストデータが無料公開されていたりしたら教えてください。
ゴンチャロフ『オブローモフ』山内封介訳

セルバンテス『ドン・キホーテ』島村抱月・片上伸共訳

(改訳・編集版が
古典教養文庫から有料でkindleにあり)
ドストエフスキー『悪霊』森田草平訳

ニーチェ全集5巻(ツァラトゥストラ)生田長江訳


バルザック『セラフィタ』新城和一訳

ゲーテ『ヴィルヘルム・マイスター』森田草平訳

『荘子』吉田義成訳
