generated at
GPT-4
>We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs. While less capable than humans in many real-world scenarios, GPT-4 exhibits human-level performance on various professional and academic benchmarks, including passing a simulated bar exam with a score around the top 10% of test takers. GPT-4 is a Transformer- based model pre-trained to predict the next token in a document. The post-training alignment process results in improved performance on measures of factuality and adherence to desired behavior. A core component of this project was developing infrastructure and optimization methods that behave predictably across a wide range of scales. This allowed us to accurately predict some aspects of GPT-4’s performance based on models trained with no more than 1/1,000th the compute of GPT-4.
DeepLGPT-4は、画像とテキストを入力し、テキストを出力することができる大規模なマルチモーダルモデルであり、その開発について報告する。
GPT-4は、多くの実世界のシナリオにおいて人間より能力が劣るものの、模擬司法試験に受験者の上位10%程度のスコアで合格するなど、様々な専門的・学術的ベンチマークにおいて人間レベルの性能を発揮することができる。
GPT-4は、文書中の次のトークンを予測するために事前に学習されたTransformerベースのモデルです
文書中の次のトークンを予測するよう事前に学習させたTransformerベースのモデルで、
学習後のアライメントプロセスにより、事実の正確さや望ましい行動への忠実さを示すパフォーマンスが向上しています。
このプロジェクトの中核をなすのは、幅広いスケールで予測可能な振る舞いをするインフラと最適化手法の開発でした。これにより、GPT-4の1,000分の1以下の計算量で学習したモデルから、GPT-4の性能の一部を正確に予測することができるようになりました。

> @kubotamas: 青がGPT3.5で緑がGPT-4。あらゆる世界の標準テストで成績が爆伸びしてる。
>
> BAR(司法試験)は上位10%、SAT数学も上位10%、生物学オリンピックでは上位1%に入ってる
>
> 子供に勉強しろという気が完全に失せた🥺
>
> @bioshok3: 普通に起きたら世界変わっていてわろたこんな時に仕事かよ
> とりあえずGPT4すごすぎるぞ。
> 自然科学や社会科学や人文科学などの選択問題MMLU 5shotでOpenAIのcode-davinci-002の77.4%が最大性能だったのに86.4%
> ・考えられるのは言語データの10^13token程度の学習
> ・画像とのマルチモーダル学習性能向上

trainingには1億ドル以上かかっている

>我々の研究室では、以前からロボットによる対話の研究をしてきましたが、ChatGPTに搭載されている生成AIエンジンの最新版であるGPT-4の登場を受け、対話の研究はストップしてしまおうかと考えてしまうほど、GPT-4は優れていると感じました。人間同士の対話にある“間(ま)”までは再現できませんが、内容に関してはほかの技術では太刀打ちできないレベルまで達していると見ています。...ですから、これからの対話の研究は、ChatGPTをベースにそれをどう使うかということになっていくと思います。

基素
簡単なタスクでは最初はGPT-3.5との違いがあまりわからなかったが、使っていくうちに賢さがわかってきた
複雑なタスクはGPT-4の方が良い回答をする
GPT-3はできる高校生みたいな感じ、GPT-4はたまに期待を超える
ただし3.5に比べてかなり遅いので簡単なタスクは3.5の方が良い