/villagepump/GPT-4o - Scrapbox Reader

generated at 2/11/2025, 1:29:30 AM
GPT-4o
from 2024/05/14
> OpenAI(@OpenAI)
> Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: http://openai.com/index/hello-gpt-4o/ 
> 
> Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. 
> https://video.twimg.com/ext_tw_video/1790068706187345920/pu/vid/avc1/1920x1080/d-kWFueNllJF18JO.mp4?tag=14#.mp4
free planでも待ってれば降ってくるのかしら
そんなようなことが書いてありました
自分いま無課金ですが使えちゃってます
トークナイザーの改善で日本語のトークンが1/1.4に
OpenAI GJ!
ビジュアルと音声が強化された
音声は平均320msで回答するようになった。これは普通の人間と同等レベル
cf. GPT-4は5.4s
Cotomoちゃんのアドが一個無くなった
生身の人間より早い説
GPT-4の時には音声をテキストに変換して推論していたが、テキスト・ビジョン・オーディオのマルチモーダルになったので音調や複数話者の識別や背景ノイズへの頑強さが上がる（？）
APIは2倍早く、半分の価格で、上限は5倍に
>Developers can also now access GPT-4o in the API as a text and vision model. GPT-4o is 2x faster, half the price, and has 5x higher rate limits compared to GPT-4 Turbo. We plan to launch support for GPT-4o's new audio and video capabilities to a small group of trusted partners in the API in the coming weeks.
まだ自分のアカウントでは使えない
Explorations of capabilitiesのデモがすごい！
soraと同様に映像と映像が破綻していない
クオリアさんの二次創作が捗りそう
画像をマッシュアップしたり編集することができるし、Photoshopじゃん
3Dのオブジェクトの画像を生成もできてる
トランスクリプトに発話者の名前もかける
文字起こしはこれでいいな...
動画を渡して中身の要約
はぇ〜
ネームを見せながら展開を説明したら良い構図を出してくれないかな〜？

英会話が(耐えれるレベルの遅延で)自然にできる！けどプロンプトは工夫しないといちいち指示出しが大変。GPTsをつくるのがいい
実際にはこれを音声でやってます
音声で怒りの感情を読み取ってくれた。こう言うわかりやすいのは間違わなさそう
「だめだよ」から感情を読み取らせてみた
かなしそうなだめだよ
怒りのダメだよ
など
画像生成はまだでもみたいなことは全然できないから、ロールアウトされてない

音声会話モード。昔よりはずいぶんよくなったのはわかるがやはり(日本語だからかな？)まだ待ち時間がある、デモほどのはいけない
あらゆる体験はデモに劣る(デモは一番いいところをきりとる)
ただ、いつかのgeminiの嘘デモの世界にはしっかり近づいてるなーと思った
HumaneとかRabbitR1とか、GPT-4oを待てていたら評判変わってただろうな
音声会話モードはまだリリースされてないらしい。この違和感があるのは当然だった
https://www.sbbit.jp/article/cont1/140613?page=2#head5