/work4ai/AudioLDM 2 - Scrapbox Reader

generated at 2/12/2025, 11:42:03 PM

AudioLDM 2
https://audioldm.github.io/audioldm2/Project
TTS、text2audio、text2musicにまたがる汎用的なフレームワークのためにaudio languageという新しい概念を導入
>audio languageは音声信号の周波数領域と時間領域の両方を考慮したものであり、音声信号の特徴や構造をよく捉えている
GPT-2を使いテキストをaudio languageに変換する
latent diffusion Modelを用いてaudio languageから音へ変換する


#AudioLDM