generated at
takeout.google.com
Googleが持ってる、自分の行動データをdownloadできる。

ここでは、一番自分の関心を表すであろう、Chromeのbrowsing dataをみてみた。
ファイルサイズは、3Mぐらいだった。解凍後21M.
jsonファイルの構造は、Browser Historyというkeyに、閲覧履歴が配列で入ってる。
その配列の要素は、例としては、以下の形。
example.json
{ favicon_url: https://news.yahoo.co.jp/favicon.ico, page_transition: LINK, title: Tweet修正 CEO「検討した」 - Yahoo!ニュース, url: https://news.yahoo.co.jp/pickup/6348333, client_id: hLe7VJ71DgdEyHEjDN/pLA\u003d\u003d, time_usec: 1579213788792081 },

どれくらいの期間のデータ?
$ jq '[."Browser History"|.[]|.time_usec|(./1000000|strftime("%Y-%m-%d"))]|unique|length' < BrowserHistory.json
> 52
52日間のデータ
ちなみに、行数は
$ jq '."Browser History"|length' < BrowserHistory.json
> 51156
51,156行の履歴。期間で切ってdownloadできるか? 行数やデータサイズなのか?
* 一日あたり、1000行? すくない感じだが、、、

transitionのタイプ別
$ cat BrowserHistory.json |jq '[."Browser History"|group_by(.page_transition)[]|{transitin:.[0].page_transition, n:length}]|sort_by(.n)[] -c'
output_by_transition_type.json
{"transitin":"KEYWORD","n":36} {"transitin":"AUTO_BOOKMARK","n":545} {"transitin":"AUTO_TOPLEVEL","n":837} {"transitin":"RELOAD","n":2225} {"transitin":"FORM_SUBMIT","n":2424} {"transitin":"GENERATED","n":3316} {"transitin":"TYPED","n":10381} {"transitin":"LINK","n":31392}