/motoso/GPT-3 - Scrapbox Reader

generated at 2/14/2025, 12:13:56 AM
GPT-3
2005.14165 Language Models are Few-Shot Learners
Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei

https://overcast.fm/+NTdOsYNIQ
pretiained Transformer
パラメーターは1兆個ぐらいまでは線形に？精度が上がることがわかっている
Scalling law
パラメーターは「野球に関する文章を判定するAI」をつくるなら単語ごとの野球っぽさの重み
1回の学習の電気代で1億円ぐらいかかるので化学プラントのような感じになってる
モデルに1000個ぐらい新しいデータを持ってきてfine tuningす等ぐらいは個人でもでき、それで結構精度が出るので利用するならそういうことをやる
AIは4年で1巡する

fladdictさんの例
存在しないスーパーモデルの肖像。AI学習1.5ヶ月目｜深津 貴之 (fladdict)｜note

できない理由がない。やるだけ。

チューニングが


1000件の文章にタグ付けするのめんどい
500個の野球の文書
500個の非野球の文章
を用意して事前判定しておく必要がある
分類の個数が増えたら爆発する
1ヶ月とかかかる
zero-shot
one shot
1つ例だけ
few shot
AIの数学はせいぜいB3
たまに異常にむずいやつあるけど
数学のPh.Dをとっていると大学生が解の公式を見れば使えるようなノリでAIの論文の魂がわかる


https://www.youtube.com/watch?v=CBZWzQVcXE4&list=PLhDAH9aTfnxKXf__soUoAEOrbLAOnVHCP&index=40
https://www.youtube.com/watch?v=-rI5n5M8oSg&list=PLhDAH9aTfnxKXf__soUoAEOrbLAOnVHCP&index=43

https://www.youtube.com/watch?v=szY-gk3ANdU&list=PLhDAH9aTfnxKXf__soUoAEOrbLAOnVHCP&index=44

前 GPT-2