/gosyujin/OCRした文字列をどう保持するか

generated at 2/16/2025, 4:49:41 AM
OCRした文字列をどう保持するか

アクティブ読書で使うOCRテキストをScrapbox側でどう保持するのが良いか
最終的にいい感じに編集するのが望ましいが、流し込む一発目の指標として

例題でGyazo ヘルプ - OCRスキャンのページの一部をGyazoってOCR処理をしたと考える

1. OCR結果をそのまま保持
例題.txtOCRスキャン機能とは、Gyazoでアップロードした画像の文字を、テキストとして読み
取ることができる機能のことです。
OCRは「Optical Character Reader（光学式文字認識）」 の略です。

読み取られた文字は、下記のように画像ページに表示されます。
文字はテキストとしてコピーが可能となります。また、検索の対象となります（画像の
検索）。

「情報を共有」をチェックして画像のURLを共有した場合であっても、OCRスキャン
で読みとられた情報は画像を閲覧する人には公開されません。（画像を共有した相手
に見える情報 も併せてご確認ください。）
良い点
ほぼ見たままOCR処理されるので読みやすい
行ごとにリンクができるので参照に便利
気になる点
紙面の都合で折り返されている単語は検索でヒットさせづらい
「画像の(改行)検索」とか
「画(改行)像の検索」ってパターンもあるかもしれない
「画像 検索」といったワードならヒットさせられるかもしれないが、コツがいる

2. OCR結果をすべて結合して保持
例題_結合.txtOCRスキャン機能とは、Gyazoでアップロードした画像の文字を、テキストとして読み取ることができる機能のことです。OCRは「Optical Character Reader（光学式文字認識）」 の略です。読み取られた文字は、下記のように画像ページに表示されます。文字はテキストとしてコピーが可能となります。また、検索の対象となります（画像の検索）。「情報を共有」をチェックして画像のURLを共有した場合であっても、OCRスキャンで読みとられた情報は画像を閲覧する人には公開されません。（画像を共有した相手に見える情報 も併せてご確認ください。）
良い点
文字列をすべて結合しているので、検索でヒットさせやすい
気になる点
1行になるので該当部分を参照=OCR結果すべてとなる
ブラウザの検索などを使えば該当部分は絞り込めるが…

3. OCR結果をいったん結合、句読点などで再分割して保持(1. と2. の折衷)
例題_折衷.txtOCRスキャン機能とは、
Gyazoでアップロードした画像の文字を、
テキストとして読み取ることができる機能のことです。
OCRは「Optical Character Reader（光学式文字認識）」 の略です。
読み取られた文字は、
下記のように画像ページに表示されます。
文字はテキストとしてコピーが可能となります。
また、
検索の対象となります（画像の検索）。
「情報を共有」をチェックして画像のURLを共有した場合であっても、
OCRスキャンで読みとられた情報は画像を閲覧する人には公開されません。
（画像を共有した相手に見える情報 も併せてご確認ください。
）
折衷案としてだけど、これはどうだろう…？
句点だけだとまだ見やすいかな
これは1ページに2カラムみたいなレイアウトだと、文字は正しく読み込まれるが文章としてはグチャグチャになるので微妙だった(2023/04/14)