Magenta RT: Streaming music generation
Гугл выпускает стриминговую токенную модель для продолжения аудио в заданном стиле, можно с помощью текстовых эмбедингов контролировать стиль продолжения.
Из интересного: это encdec трансформер, на входе CLAP(clip для аудио ) + musiccoca (по сути мулан) , и генерируют Soundstream - нейрокодек, 48кгц, дискретные токены по середине. Короче довольно стандартная история.
Из плюсов:
Можно игратся вообще с любыми текстовыми промптами, это работает в риалтайме и ощущается ОЧЕНЬ весело, крутишь один промпт и у тебя фонк играет, крутишь другую - рок
Из минусов:
tf-nightly==2.20.0.dev20250619 оно все в Tf+jax и естественно чтобы офицальный коллаб заработал надо залезть в issues и найти фикс.... so 2021 короче.
а еще оч прикольная штука с крутилками
yt demo
>>Click here to continue<<