generated at
Whisper
OpenAI開発のtext2speech,speech2textモデル

> AIキャラクターとの会話、音声認識もストリーム処理にしたら相槌しなくてもスムーズに会話できるようになっちゃった......

そういやVision Encoderとllmを組み合わせたvlmは割と見るけど音声での組み合わせ意外と見ないわね(それこそwhisperでテキスト化すりゃええやん、ということなのだろうけどそれだと口調とかそう言うニュアンス情報が欠落するなーと)