generated at
OCRしたテキストを整形
するscript
OCRをかけたとき、不自然な空白が挟まってしまうことがある。それを取り除くためのscript

やること
全角文字の間に挟まっている空白を取り除く
末尾の空白を消す
半角英数で囲まれている空白は無視する

script.js
export function tidy(text, {removeBracket = false} = {}) { const tidied = text .split(/\n\r?|\r?\n|\f/g) .flatMap(line => /^\s*$/.test(line) ? [] : [ line .replace(/(?<!\w)\s+(?=\W)/g, '') .replace(/\s+$/, '') ]) .join('\n'); return removeBracket ? tidied.replace(/\[([^\]]+)\]/g, ' $1 ') : tidied; }
script.d.ts
export function tidy(text: string, option: {removeBracket: boolean}): string;

雑誌のOCRで、Gyazo OCRが行送りを逆に認識してしまう場合がある
その時に使う
js
scrapbox.PopupMenu.addButton({ title: "reverse", onClick: (text) => text.split("\n").reverse().join("\n"), });

#2024-06-05 00:26:55
#2021-03-02 13:59:15