Webサイトを保存する
背景
2021/3/31 Scrapboxを数年使ってきて、過去の記事を読み返したときに、参照している記事が消えることがもう何回もあった
デジタル化している大手新聞社やIT mediaなど大手メディア以外の記事はすべていつ消えてもおかしくない
大手新聞社は有償でアーカイブを提供しているので消える可能性が低い
個人が自分の意志で書いた記事は明日残っているかも怪しい
要件
MUST
画像・文章・スタイルの保存
ページレイアウトはできるだけそのまま
個別のURLが取得できる
Scrapboxから参照したい
SHOULD
検索できる
重要な部分はScrapboxに引用する(さもなくば
ゴミ屋敷化する)ので重要度は低い
溜め込むと検索できないと死亡
そもそも溜め込んではいけない
2021/10/9の結論
くうかん!!!ー!!!!
背景
考察
「すぐにアクセスできる」というのが非常に重要ということがわかった
PDFにして保存したって場所がわからないし、検索も結構大変(Google driveはPDF中の文字を検索できるが、できないものもあり仕様がよくわからない)
「URLがある」というのは問題ではなく、すぐに・いつでもアクセスできるかが重要
URLはすぐに・いつでもアクセスするという目的を実現するのに適したインタフェース
どうするか?
アップしたらURLをコピーするところまでは自動化しないとやっていられない
1に比べてURLをコピーする手間がない
Gyazoであとから検索できる
>クラウドに置いたPDFをGyazoればその文書を検索できる
2021/3/31の結論
比較表サービス名 | dynamic | static | 月額 | 検索 | 欠点 |
PageDash(サービス終了) | ◎ | ◎ | $2.4 | △(英語?) | 読み込んでいない画像が保存されないことがある |
Save Page PE | ◎ | ◎ | 0 | 自分で工夫 | ローカル保存。読み込んでいない画像は保存されない |
Evernote Web Clipper | o | o | 600 | △ | clipのためだけに使うには高価 |
Notion Web Clipper | △ | △ | 0(~?GB) | △? |
Instapaper | △ | △ | $2.5 | △(英語?) |
OneNote | △ | x | 0(~5GB) | △? |
Pocket | xx | △ | $3.7 | タイトルのみ | 本文が保存されない場合がある |
Web魚拓 | ◎ | ◎ | 0/315 | なし | 無料版は全員に公開。有償版は公開不可。クローラー形式 |
Weyback Machine | o | ◎ | 0 | なし | クローラー形式 |
AcrobatでPDFに保存 | x | | | あり | 元の画像が維持されない |
dynamic: JSで動的に色々やってそうなページ
twitterの画像ツイート
static: シンプルなHTML/CSSで構成されていそうなページ
xx:役に立たない
x:文章は取れるが、画像が取れない
△: 画像と文章が取れるが、レイアウトはメチャクチャ
o: レイアウトに一部問題あり
◎:レイアウトも完璧
その他の方法
リンクが飛べない
長いページで400エラーになる
WebをPDFにしてOCRはこの下位互換
「Webページまるごとダウンロードして保存」の上位互換
保存先がローカルだとデータ消失やURLが作れないのでGoogle Driveに保存
Google driveはGoogleドキュメントエディタ形式に変換すれば(アップロード時に自動変換)、中身を検索できる
HTMLのままでは検索できない
Dropbox
HTMLビュワーがついている
保存したHTMLをDropboxで開いたときの図
全文検索ができない
thx Misoni氏
Evernote
ページ全体にすると
ちょっと変だけどまあヨシ
広告がかぶっている
プライベート版
OneNote Web clipper
OneNoteに保存される
プレビュー
4種類ある
ページ全体
これが新聞記事のようなstaticなページでもうまく働かない(どのページでもうまく動かない)
領域
記事
ブックマーク
試す
記事で保存するとこうなる
Scrapboxはキャプチャできなかった
UIがOneNoteっぽい
Scrapboxは全然ちゃんとできない
staticなページは行ける
参考