generated at
GPT-4oが実現させた、リアルタイム翻訳

英語の音声を日本語の音声にする翻訳は、観光業をはじめ、ビジネスでは欠かせないサービス。
この仕組みを実現するには、大きく分けて3つの処理が関係してくる。

音声認識(ASR)
音声をテキスト化する
機械翻訳
テキストを翻訳する
音声合成
テキストを音声に変換する

例えば、アメリカ人の喋る英語をリアルタイムで日本語の音声に変換するには
ASRで、英語をテキストに変換
機械翻訳で、英語から日本語のテキストに
音声合成で、日本語の音声を作る

という流れである。


GPT-4oの登場前
2023年9月25日に、「ChatGPT can now see, hear, and speak」という形で、Voiceモードが実装された。

この発表を受け、AI英会話を行ってみたり、AI同士を会話させたりした人も多いことであろう。
しかしこのVoiceモードには欠点があった。(https://note.com/versaroc/n/nb1f0bff80ea1)
待ち時間が長い
途中で会話を区切れない
感情が薄く、相槌が少ない

そのため、このVoiceモードを普段使いするまでには至らなかった。
特に、待ち時間が長いことが、致命的であった。

Hello GPT-4oによると、平均待ち時間は、
GPT-3.5: 平均2.8秒
GPT-4: 平均5.4秒

これは上述の「音声 -> テキスト -> 音声」の3つの処理が、3つの異なるモデルで行われていたことに起因する。
Whisper、GPT、TTS(Text to Speech) を直列につなげていた感じ。
>Voice Modeは3つの独立したモデルのパイプラインになっています。1つのシンプルなモデルが音声をテキストに書き起こし、GPT-3.5またはGPT-4がテキストを取り込んでテキストを出力し、3つ目のシンプルなモデルがそのテキストを音声に戻します。このプロセスは、知能の主な源であるGPT-4が多くの情報を失うことを意味する。つまり、トーン、複数の話者、背景ノイズを直接観察することができず、笑い、歌、感情を表現することを出力できないのだ。


GPT-4o登場後
GPT-4oからは、上の独立した3つのモデルを1つに統一し、0.3秒の応答速度とのこと。
つまり、
音声→テキスト
テキスト->翻訳
翻訳後のテキスト -> 音声
この処理の流れの最初から最後までを、一本化したのである。

全ての入力と出力が、同じニューラルネットワークによって処理されるようになった。

OpenAI曰く、
>GPT-4oは、これらすべてのモダリティを組み合わせた初めてのモデルであるため、私たちはまだ、このモデルで何ができるのか、そしてその限界について、表面だけを探っているに過ぎません。
とのこと


これからの未来
リアルタイム × マルチモーダルの圧倒的体験が、2024年5月14日から、一気に民主化された。
毎週に1億人以上いるChatGPTユーザーに、課金の有無を問わず、解放されたのだ。

これからは、この2つに、デバイスやロボットなどのハードウェアが関わってくるであろう。
ものすごいことが、今リアルタイムに起きている...


hr

もっと、たくさんのAI情報を知りたいあなたへ...
現在週に1度の頻度で、AIの最新情報や活用ノウハウを、メルマガ限定で発信しております。

一人でも多くの方にとって、「AI人材としてのスキルアップ」につながれば幸いです^^

また、現在、登録者限定で「AIをフル活用した新しい知的生産管理」の実演解説動画を配布中です 🎁
※ ご登録完了のメールに、URlのリンクを添付いたします。

以下のリンクから、ぜひお受け取りください👇