GPT-4o
> Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks.
free planでも待ってれば降ってくるのかしら

そんなようなことが書いてありました

自分いま無課金ですが使えちゃってます

トークナイザーの改善で日本語のトークンが1/1.4に
OpenAI GJ!

ビジュアルと音声が強化された
音声は平均320msで回答するようになった。これは普通の人間と同等レベル
cf. GPT-4は5.4s
生身の人間より早い説

GPT-4の時には音声をテキストに変換して推論していたが、テキスト・ビジョン・オーディオのマルチモーダルになったので音調や複数話者の識別や背景ノイズへの頑強さが上がる(?)
APIは2倍早く、半分の価格で、上限は5倍に
>Developers can also now access GPT-4o in the API as a text and vision model. GPT-4o is 2x faster, half the price, and has 5x higher rate limits compared to GPT-4 Turbo. We plan to launch support for GPT-4o's new audio and video capabilities to a small group of trusted partners in the API in the coming weeks.
まだ自分のアカウントでは使えない
Explorations of capabilitiesのデモがすごい!
クオリアさんの二次創作が捗りそう
画像をマッシュアップしたり編集することができるし、Photoshopじゃん
3Dのオブジェクトの画像を生成もできてる
トランスクリプトに発話者の名前もかける
文字起こしはこれでいいな...
動画を渡して中身の要約
はぇ〜
ネームを見せながら展開を説明したら良い構図を出してくれないかな〜?
英会話が(耐えれるレベルの遅延で)自然にできる!けどプロンプトは工夫しないといちいち指示出しが大変。GPTsをつくるのがいい

実際にはこれを音声でやってます
音声で怒りの感情を読み取ってくれた。こう言うわかりやすいのは間違わなさそう

「だめだよ」から感情を読み取らせてみた
かなしそうなだめだよ
怒りのダメだよ
など
画像生成はまだでもみたいなことは全然できないから、ロールアウトされてない

音声会話モード。昔よりはずいぶんよくなったのはわかるがやはり(日本語だからかな?)まだ待ち時間がある、デモほどのはいけない

あらゆる体験はデモに劣る(デモは一番いいところをきりとる)

HumaneとかRabbitR1とか、GPT-4oを待てていたら評判変わってただろうな
音声会話モードはまだリリースされてないらしい。この違和感があるのは当然だった
