generated at
Whisper
OpenAI音声認識モデル
バックグラウンドノイズがある早口を正確に聞き取る
データセットの1/3は英語ではない
英語の翻訳タスクと、元の言語のtranscriptにするタスクを混ぜていて、これが翻訳には良いらしい
日本語 to 日本語もぼちぼちいけるのかな?
性能は言語によって異なる
言語別WER
Word Error Rate = (Substitutions + Insertions + Deletions) / Number of Words Spoken
英語は4.5%
日本語は6.4%
英語にめっちゃ劣っているわけではない

Unity
> @mochi_neko_7: ChatGPT APIのUnityライブラリの流れで、Whisper APIをUnityで使えるライブラリを作成しました。
> Transcription(音声をテキストに変換)、Translation(音声を英語のテキストに翻訳)どちらも使用できます。
> 同じくUPMでパッと導入できるようにしてあります。

英語と日本語が混じっている場合は?
話者認識はしない
AさんとBさんをわけない

応用例を考える
動画編集ソフトに自動でテロップを入れる
Premiere Proの自動文字起こしがあるが、音声認識の品質が低い
Vrewの高精度版
声が聞きづらい動画の文字起こし
ノイズに強いのがポイントなのでこういうタスクには向いていそう
ただ、音が悪い動画はそもそも再生したくないからマイクをちゃんとセットアップしてほしいところ
Seiren Voiceの入力に使う
開発元が本体が取り入れてくれないとダメかも

Google APIより良いらしい

>@ksasao: spleeterで背景のBGMやSEを消してwhisperに突っ込むといい感じでテキスト起こしできる感じ
>
背景音ありでもwhisperは結構いい気がするけど背景オンを消すともっと良くなるのかな?