generated at
AudioLDM 2
TTStext2audiotext2musicにまたがる汎用的なフレームワークのためにaudio languageという新しい概念を導入
>audio languageは音声信号の周波数領域と時間領域の両方を考慮したものであり、音声信号の特徴や構造をよく捉えている
GPT-2を使いテキストをaudio languageに変換する
latent diffusion Modelを用いてaudio languageから音へ変換する