/motoso/Webサイトを保存する

generated at 2/12/2025, 6:58:17 AM

Webサイトを保存する
背景
ウェブサイトの寿命は長くて20年。短いと数年。15年先はわからないが、数年程度で参照できなくて困るので保存したい
2021/3/31 Scrapboxを数年使ってきて、過去の記事を読み返したときに、参照している記事が消えることがもう何回もあった
知識の液状化のためにも必要
デジタル化している大手新聞社やIT mediaなど大手メディア以外の記事はすべていつ消えてもおかしくない
大手新聞社は有償でアーカイブを提供しているので消える可能性が低い
個人が自分の意志で書いた記事は明日残っているかも怪しい

要件
MUST
画像・文章・スタイルの保存
ページレイアウトはできるだけそのまま
個別のURLが取得できる
Scrapboxから参照したい
SHOULD
検索できる
重要な部分はScrapboxに引用する（さもなくばゴミ屋敷化する）ので重要度は低い
溜め込むと検索できないと死亡
そもそも溜め込んではいけない

2021/10/9の結論
Save Page PE + Gyazoを使う
くうかん！！！ー！！！！

背景
PageDash（サービス終了）がサービス終了になった
考察
「すぐにアクセスできる」というのが非常に重要ということがわかった
PDFにして保存したって場所がわからないし、検索も結構大変（Google driveはPDF中の文字を検索できるが、できないものもあり仕様がよくわからない）
「URLがある」というのは問題ではなく、すぐに・いつでもアクセスできるかが重要
URLはすぐに・いつでもアクセスするという目的を実現するのに適したインタフェース
どうするか？
1. Save Page PEで保存→Google Driveにアップ→URLを生成してScrapboxにリンクを貼る
アップしたらURLをコピーするところまでは自動化しないとやっていられない
2. （採用）Save Page PEで保存→Google Driveにアップ→Gyazoでスクショ
1に比べてURLをコピーする手間がない
Gyazoであとから検索できる
>クラウドに置いたPDFをGyazoればその文書を検索できる
/villagepump/Google PhotosではなくGyazoを使う理由#60a2feb879e1130000aac12f

2021/3/31の結論
有償：PageDash（サービス終了）が一番良くできていた
無償：ちょっと手間がかかってもいいならSave Page PEで十分

比較表サービス名 dynamicstatic月額検索欠点
PageDash（サービス終了）◎◎$2.4△（英語？）読み込んでいない画像が保存されないことがある
Save Page PE◎◎0自分で工夫ローカル保存。読み込んでいない画像は保存されない
Evernote Web Clipperoo600△clipのためだけに使うには高価
Notion Web Clipper△△0(~?GB)△?
Instapaper△△$2.5△（英語？）
OneNote△x 0(~5GB)△?
Pocketxx△$3.7タイトルのみ本文が保存されない場合がある
Web魚拓◎◎0/315なし無料版は全員に公開。有償版は公開不可。クローラー形式
Weyback Machineo◎0なしクローラー形式
AcrobatでPDFに保存xあり元の画像が維持されない

dynamic: JSで動的に色々やってそうなページ
https://scrapbox.io/motoso/
twitterの画像ツイート
static: シンプルなHTML/CSSで構成されていそうなページ
https://www.asahi.com/

xx：役に立たない
x：文章は取れるが、画像が取れない
△: 画像と文章が取れるが、レイアウトはメチャクチャ
o: レイアウトに一部問題あり
◎：レイアウトも完璧


その他の方法
Gyazoでキャプチャ
リンクが飛べない
長いページで400エラーになる
例：https://www.cc.kyoto-su.ac.jp/~suga/hanrei/29-3.html
WebをPDFにしてOCRはこの下位互換
Save Page PEを使えば1つのhtmlにまとめてくれる
「Webページまるごとダウンロードして保存」の上位互換
保存先がローカルだとデータ消失やURLが作れないのでGoogle Driveに保存
Google DriveはHTMLファイルのプレビューができない
Google driveはGoogleドキュメントエディタ形式に変換すれば（アップロード時に自動変換）、中身を検索できる
HTMLのままでは検索できない
Dropbox
HTMLビュワーがついている
保存したHTMLをDropboxで開いたときの図
全文検索ができない
Dropbox でファイルのコンテンツを検索する | Dropbox ヘルプ
thx Misoni氏
https://twitter.com/misonln41/status/1377079473137278984

Evernote
ページ全体にすると
ちょっと変だけどまあヨシ
広告がかぶっている

Wayback Machine
Web魚拓
https://megalodon.jp/2021-0331-0524-44/https://scrapbox.io:443/motoso/
https://megalodon.jp/2021-0331-0556-32/https://www.asahi.com:443/
プライベート版
https://megalodon.jp/pc/user/introduction

OneNote Web clipper
https://chrome.google.com/webstore/detail/onenote-web-clipper/gojbdfnpnhogfdgjbigejoaolejmgdhk
OneNoteに保存される
おそらくOneDriveに入るので、無料だと5GBまで
https://www.microsoft.com/ja-jp/microsoft-365/onedrive/compare-onedrive-plans
プレビュー
4種類ある
ページ全体
これが新聞記事のようなstaticなページでもうまく働かない（どのページでもうまく動かない）

領域
記事
ブックマーク
試す
記事で保存するとこうなる
Scrapboxはキャプチャできなかった


PageDash（サービス終了）

Pocket
https://getpocket.com/premium
https://support.mozilla.org/ja/kb/what-pocket


https://www.qnap.com/ja-jp/how-to/tutorial/article/notes-station-3-web-clipper-チュートリアル
UIがOneNoteっぽい

Notion Web Clipper

https://chrome.google.com/webstore/detail/notion-web-clipper/knheggckgoiihginacbkhaalnibhilkk/related?hl=ja
Scrapboxは全然ちゃんとできない
staticなページは行ける


参考
Evernoteだけじゃない、Webページをクリップしておけるサービス4選 | マイナビニュース
Webクリップの戸惑い – R-style

サービス名	dynamic	static	月額	検索	欠点
PageDash（サービス終了）	◎	◎	$2.4	△（英語？）	読み込んでいない画像が保存されないことがある
Save Page PE	◎	◎	0	自分で工夫	ローカル保存。読み込んでいない画像は保存されない
Evernote Web Clipper	o	o	600	△	clipのためだけに使うには高価
Notion Web Clipper	△	△	0(~?GB)	△?
Instapaper	△	△	$2.5	△（英語？）
OneNote	△	x	0(~5GB)	△?
Pocket	xx	△	$3.7	タイトルのみ	本文が保存されない場合がある
Web魚拓	◎	◎	0/315	なし	無料版は全員に公開。有償版は公開不可。クローラー形式
Weyback Machine	o	◎	0	なし	クローラー形式
AcrobatでPDFに保存	x			あり	元の画像が維持されない