/work4ai/whisper - Scrapbox Reader

generated at 2/17/2025, 5:49:45 PM
Whisper
https://github.com/openai/whisperopenai/whisper
OpenAI開発のtext2speech,speech2textモデル

https://huggingface.co/openai/whisper-large-v2openai/whisper-large-v2
https://github.com/openai/whisper/discussions/1762Whisper large-v3
https://github.com/openai/whisper/releases/tag/v20231106v20231106
> うえぞう@うな技研代表(@uezochan)
> AIキャラクターとの会話、音声認識もストリーム処理にしたら相槌しなくてもスムーズに会話できるようになっちゃった...... 
> https://video.twimg.com/ext_tw_video/1719317280348381184/pu/vid/avc1/1164x720/orz_VyOZjdUZG-ZJ.mp4?tag=12#.mp4

そういやVision Encoderとllmを組み合わせたvlmは割と見るけど音声での組み合わせ意外と見ないわね(それこそwhisperでテキスト化すりゃええやん、ということなのだろうけどそれだと口調とかそう言うニュアンス情報が欠落するなーと)