generated at
著作権・版権切れの本を書き起こそう
/prarpla/書き起こし隊で目下進行中2022/03/26アープラノートに移行

>青空文庫にない?それなら自分たちでつくってしまおう!
国立国会図書館オンラインなどでは、著作権の切れた書籍のスキャンデータをインターネット上で公開しています。
青空文庫などで文字データ化されているものもありますが、多くは画像のままです。
そこで、テキストに書き起こしてみようという計画です。アレクセイ
>手順(暫定)
1. 見開き一枚ごとに分割。
2. OCRで粗く読み込む。
Scrapboxに貼り付けた画像がGyazoに入る設定ならGyazo側でOCRまで掛けてくれるからScrapboxに画像を貼っていくと一石二鳥な気がしますnishio
え! なんとそうでしたか。試してみます、教えていただきありがとうございます!→gyazo経由のocrをお試ししてみる
3. 手動で修正。

現在の方法2022/03/27
1. 国立国会図書館デジタルコレクションで書き起こしたい書物を探す
2. 画像にしたいページまで移動して、上部のJPEG表示アイコンをクリック
3. 倍率を100%にして「表示」をクリック
4. 画像化されたページが出て来るので、右クリック→画像をコピーを選択
5. gyazoと連携済みの任意のScrapboxプロジェクトで、新規ページを開き、適当なタイトルをつくる
6. 新たに作ったページで Ctrl+V を押して画像を貼り付ける
7. 貼り付けた画像をクリックしてgyazoに移動する
8. proプランまたはお試し体験中にしていると、ocrで文章が読み込まれる
9. 読み込まれた文章をコピペして、画像の下に置く
10. コピペした文章と画像(デジタルコレクションでもページに貼った画像でも好きなほう)を比較して修正していく。
11. 行程2~10を繰返す


メリット
過去の著作に触れられる。
多くの人が古典の名作などを手軽に読めるようになる。
黙々とする作業が楽しい。
多人数で協力すれば効率が上がる。
デメリット
手間がかかる。
報酬は達成感のみ。

>書き起こし隊
絶賛募集中
アレクセイ
なるせつまり画像情報を文字入力すればいいってことですか?
そうです!アレクセイ

>書き起こしたい作品リスト
皆さんもぜひ挙げてみてください。すでにテキストデータが無料公開されていたりしたら教えてください。
ゴンチャロフ『オブローモフ』山内封介訳アレクセイ
セルバンテス『ドン・キホーテ』島村抱月・片上伸共訳アレクセイ(改訳・編集版が古典教養文庫から有料でkindleにあり)
ドストエフスキー『悪霊』森田草平訳アレクセイ
ニーチェ全集5巻(ツァラトゥストラ)生田長江訳アレクセイnishio
バルザック『セラフィタ』新城和一訳アレクセイ
ゲーテ『ヴィルヘルム・マイスター』森田草平訳アレクセイ
『荘子』吉田義成訳 しゅれでぃんがー



>質問