TG Telegram Group & Channel
Machinelearning | United States America (US)
Create: Update:

🌟 Allegro: открытая text-to-video модель генерации видео в 720p.

Allegro - модель от Rhymes AI для генерации видео по текстовому промпту. Allegro генерирует 6-секундные видеоролики с разрешением 720p и частотой 15 кадров в секунду. Модель отличается высокой детализацией, плавностью переходов в движении и способностью визуализировать сложные сцены.

Allegro основана на трех ключевых технологиях:

🟢Обработка больших объемов видеоданных.

Для обучения модели использовался массив данных из 106 млн. изображений и 48 млн. видеороликов с детальными аннотациями.

🟢Сжатие видео в визуальные токены.

В Allegro используется Video Variational Autoencoder (VideoVAE) с 175 млн. параметров. Он кодирует видео в компактное скрытое пространственно-временное представление и способен работать в разрядностях точности FP32/TF32/BF16/FP16.

🟢Масштабируемая архитектура Diffusion Transformer.

Ядро Allegro - масштабируемая архитектура Diffusion Transformer (DiT) с 3D-позиционным кодированием RoPE и полным 3D-вниманием размером в 2.8 млрд. параметров. DiT моделирует пространственные и временные зависимости в видеокадрах и отвечает за качество генерации и плавность движения. Поддерживаемая разрядность - BF16/FP32/TF32.

Для локального запуска потребуются : Python >= 3.10, PyTorch >= 2.4, CUDA >= 12.4

⚠️ Интерполяция до 30 FPS возможна с помощью EMA-VFI.

⚠️ С использованием параметра --enable_cpu_offload, инференс возможен на 9.3Gb VRAM, без использования выгрузки потребность Allegro около 27Gb VRAM.

⚠️ Модель не может генерировать знаменитостей, разборчивый текст, конкретные места, улицы или здания.

▶️Параметры инференса в CLI:

# Run inference
python single_inference.py

# Keys
--user_prompt '%prompt%'
--save_path '%full path for output file%'
--vae '%path to VAE'
--dit '%path to DiT%'
--text_encoder '%path to text encoder%'
--tokenizer '%path to text tokenizer%'
--guidance_scale 7.5
--num_sampling_steps 100
--seed 42


📌Лицензирование: Apache 2.0 license.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Сообщество в Discord
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Text-to-Video #DiT #Allegro

🌟 Allegro: открытая text-to-video модель генерации видео в 720p.

Allegro - модель от Rhymes AI для генерации видео по текстовому промпту. Allegro генерирует 6-секундные видеоролики с разрешением 720p и частотой 15 кадров в секунду. Модель отличается высокой детализацией, плавностью переходов в движении и способностью визуализировать сложные сцены.

Allegro основана на трех ключевых технологиях:

🟢Обработка больших объемов видеоданных.

Для обучения модели использовался массив данных из 106 млн. изображений и 48 млн. видеороликов с детальными аннотациями.

🟢Сжатие видео в визуальные токены.

В Allegro используется Video Variational Autoencoder (VideoVAE) с 175 млн. параметров. Он кодирует видео в компактное скрытое пространственно-временное представление и способен работать в разрядностях точности FP32/TF32/BF16/FP16.

🟢Масштабируемая архитектура Diffusion Transformer.

Ядро Allegro - масштабируемая архитектура Diffusion Transformer (DiT) с 3D-позиционным кодированием RoPE и полным 3D-вниманием размером в 2.8 млрд. параметров. DiT моделирует пространственные и временные зависимости в видеокадрах и отвечает за качество генерации и плавность движения. Поддерживаемая разрядность - BF16/FP32/TF32.

Для локального запуска потребуются : Python >= 3.10, PyTorch >= 2.4, CUDA >= 12.4

⚠️ Интерполяция до 30 FPS возможна с помощью EMA-VFI.

⚠️ С использованием параметра --enable_cpu_offload, инференс возможен на 9.3Gb VRAM, без использования выгрузки потребность Allegro около 27Gb VRAM.

⚠️ Модель не может генерировать знаменитостей, разборчивый текст, конкретные места, улицы или здания.

▶️Параметры инференса в CLI:

# Run inference
python single_inference.py

# Keys
--user_prompt '%prompt%'
--save_path '%full path for output file%'
--vae '%path to VAE'
--dit '%path to DiT%'
--text_encoder '%path to text encoder%'
--tokenizer '%path to text tokenizer%'
--guidance_scale 7.5
--num_sampling_steps 100
--seed 42


📌Лицензирование: Apache 2.0 license.


🟡Страница проекта
🟡Модель
🟡Arxiv
🟡Сообщество в Discord
🟡Demo
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Text-to-Video #DiT #Allegro
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍157🔥5🎉4


>>Click here to continue<<

Machinelearning








Share with your best friend
VIEW MORE

United States America Popular Telegram Group (US)