generated at
Webサイトを保存する
背景
ウェブサイトの寿命は長くて20年。短いと数年。15年先はわからないが、数年程度で参照できなくて困るので保存したい
2021/3/31 Scrapboxを数年使ってきて、過去の記事を読み返したときに、参照している記事が消えることがもう何回もあった
知識の液状化のためにも必要
デジタル化している大手新聞社やIT mediaなど大手メディア以外の記事はすべていつ消えてもおかしくない
大手新聞社は有償でアーカイブを提供しているので消える可能性が低い
個人が自分の意志で書いた記事は明日残っているかも怪しい

要件
MUST
画像・文章・スタイルの保存
ページレイアウトはできるだけそのまま
個別のURLが取得できる
Scrapboxから参照したい
SHOULD
検索できる
重要な部分はScrapboxに引用する(さもなくばゴミ屋敷化する)ので重要度は低い
溜め込むと検索できないと死亡
そもそも溜め込んではいけない

2021/10/9の結論
くうかん!!!ー!!!!

背景
PageDash(サービス終了)がサービス終了になった
考察
「すぐにアクセスできる」というのが非常に重要ということがわかった
PDFにして保存したって場所がわからないし、検索も結構大変(Google driveはPDF中の文字を検索できるが、できないものもあり仕様がよくわからない)
「URLがある」というのは問題ではなく、すぐに・いつでもアクセスできるかが重要
URLはすぐに・いつでもアクセスするという目的を実現するのに適したインタフェース
どうするか?
1. Save Page PEで保存→Google Driveにアップ→URLを生成してScrapboxにリンクを貼る
アップしたらURLをコピーするところまでは自動化しないとやっていられない
2. (採用)Save Page PEで保存→Google Driveにアップ→Gyazoでスクショ
1に比べてURLをコピーする手間がない
Gyazoであとから検索できる
>クラウドに置いたPDFをGyazoればその文書を検索できる

2021/3/31の結論
有償:PageDash(サービス終了)が一番良くできていた
無償:ちょっと手間がかかってもいいならSave Page PEで十分

比較表
サービス名 dynamicstatic月額検索欠点
PageDash(サービス終了)$2.4△(英語?)読み込んでいない画像が保存されないことがある
Save Page PE0自分で工夫ローカル保存。読み込んでいない画像は保存されない
Evernote Web Clipperoo600clipのためだけに使うには高価
Notion Web Clipper0(~?GB)△?
Instapaper$2.5△(英語?)
OneNotex 0(~5GB)△?
Pocketxx$3.7タイトルのみ本文が保存されない場合がある
Web魚拓0/315なし無料版は全員に公開。有償版は公開不可。クローラー形式
Weyback Machineo0なしクローラー形式
AcrobatでPDFに保存xあり元の画像が維持されない

dynamic: JSで動的に色々やってそうなページ
twitterの画像ツイート
static: シンプルなHTML/CSSで構成されていそうなページ

xx:役に立たない
x:文章は取れるが、画像が取れない
△: 画像と文章が取れるが、レイアウトはメチャクチャ
o: レイアウトに一部問題あり
◎:レイアウトも完璧


その他の方法
Gyazoでキャプチャ
リンクが飛べない
長いページで400エラーになる
WebをPDFにしてOCRはこの下位互換
Save Page PEを使えば1つのhtmlにまとめてくれる
「Webページまるごとダウンロードして保存」の上位互換
保存先がローカルだとデータ消失やURLが作れないのでGoogle Driveに保存
Google driveはGoogleドキュメントエディタ形式に変換すれば(アップロード時に自動変換)、中身を検索できる
HTMLのままでは検索できない
Dropbox
HTMLビュワーがついている
保存したHTMLをDropboxで開いたときの図
全文検索ができない
thx Misoni氏

Evernote
ページ全体にすると
ちょっと変だけどまあヨシ
広告がかぶっている

プライベート版

OneNote Web clipper
OneNoteに保存される
おそらくOneDriveに入るので、無料だと5GBまで
プレビュー
4種類ある
ページ全体
これが新聞記事のようなstaticなページでもうまく働かない(どのページでもうまく動かない)

領域
記事
ブックマーク
試す
記事で保存するとこうなる
Scrapboxはキャプチャできなかった





UIがOneNoteっぽい

Notion Web Clipper

Scrapboxは全然ちゃんとできない
staticなページは行ける


参考